SlideShare a Scribd company logo
1 of 21
Download to read offline
NGUYNTHUTRÀCÔNGNGHTHÔNGTIN2004-2006
B GIÁO D C VÀ ðÀO T O
TRƯ NG ð I H C BÁCH KHOA HÀ N I
----------------------------------------------
LU N VĂN TH C S KHOA H C
NGÀNH: CÔNG NGH THÔNG TIN
NGHIÊN C U VÀ ÁP D NG M T S K THU T
KHAI PHÁ D LI U
V I CƠ S D LI U NGÀNH THU VI T NAM
NGUY N THU TRÀ
Hà N i
2006
Hà N i 2006
2
M C L C
DANH M C CÁC KÝ HI U VÀ CÁC CH VI T T T........................4
DANH M C CÁC B NG ..........................................................................5
DANH M C CÁC HÌNH V .....................................................................6
M ð U .....................................................................................................8
CHƯƠNG 1. KHAI PHÁ D LI U .....................................................12
1.1. T ng quan khai phá d li u.....................................................12
1.1.1 D li u.............................................................................. 14
1.1.2 Ti n x lý d li u .............................................................. 16
1.1.3 Mô hình khai phá d li u .................................................. 18
1.2. Các ch c năng cơ b n khai phá d li u ..................................19
1.2.1 Phân l p (Classification) .................................................. 19
1.2.2 H i qui.............................................................................. 31
1.2.3 Phân nhóm........................................................................ 34
1.2.4 Khai phá lu t k t h p........................................................ 38
CHƯƠNG 2. M T S THU T TOÁN KHAI PHÁ D LI U ..........46
2.1. Thu t toán khai phá lu t k t h p.............................................46
2.1.1 Thu t toán Apriori ............................................................ 46
2.1.2 Thu t toán AprioriTid ....................................................... 49
2.1.3 Thu t toán AprioriHybrid ................................................. 51
2.2. C i ti n hi u qu thu t toán Apriori........................................54
2.2.2 Phương pháp FP-tree ....................................................... 56
2.2.3 Thu t toán PHP ................................................................ 59
2.2.4 Thu t toán PCY................................................................. 63
2.2.5 Thu t toán PCY nhi u ch ng............................................. 65
2.3. Thu t toán phân l p b ng h c cây quy t ñ nh........................67
2.3.1 Các ñ nh nghĩa.................................................................. 68
2.3.2 Thu t toán ID3.................................................................. 69
2.3.3 Các m r ng c a C4.5 ...................................................... 70
CHƯƠNG 3. ÁP D NG KHAI PHÁ TRÊN CSDL NGÀNH THU ..72
3.1. CSDL ngành Thu ..................................................................72
3.2. L a ch n công c khai phá .....................................................73
3.2.1 L a ch n công c .............................................................. 73
3.2.2 Oracle Data Mining (ODM) ............................................. 76
3.2.3 DBMS_DATA_MINING.................................................... 78
3.3. M c tiêu khai thác thông tin c a ngành Thu .........................79
3
3.4. Th nghi m khai phá lu t k t h p ..........................................81
3.5. Phân l p b ng h c cây quy t ñ nh ..........................................91
3.5.1 Phân l p ðTNT d a vào so sánh t su t các năm ............. 93
3.5.2 Phân l p ðTNT theo s li u c a m t năm......................... 96
CHƯƠNG 4. K T LU N....................................................................102
HƯ NG NGHIÊN C U TI P THEO..................................................103
TÀI LI U THAM KH O ......................................................................104
PH L C................................................................................................106
4
DANH M C CÁC KÝ HI U VÀ CÁC CH VI T T T
Ký hi u, ch vi t t t Ý nghĩa
Association Rules Các lu t k t h p
Candidate itemset M t itemset trong t p Ck ñư c s d ng ñ sinh ra các
large itemset
Ck T p các candidate k-itemset giai ño n th k
Confidence ð ch c ch n c a lu t k t h p
= support(X∪Y)/support(X) ph n ánh kh năng giao
d ch h tr X thì cũng h tr Y
CSDL Cơ s d li u
DM Data mining – Khai phá d li u
DW Data warehouse – Kho d li u
ðTNT ð i tư ng n p thu , ch t i các cá nhân ho c t ch c
n p thu
Frequent/large itemset M t itemset có ñ h tr (support) >= ngư ng ñ h
tr t i thi u
ID Identifier
Item M t ph n t c a itemset
Itemset T p c a các item
k-itemset M t itemset có ñ dài k
Lk T p các Large itemset giai ño n th k
ODM Oracle Data Mining – 1 công c khai phá d li u
TID Unique Transaction Identifier
Transaction Giao d ch
5
DANH M C CÁC B NG
B ng 1.1: CSDL ñơn gi n g m các ví d hu n luy n ....................................25
B ng 1.2 Mô hình CSDL giao d ch ñơn gi n .................................................39
B ng 2.1 Cơ s d li u giao d ch T ...............................................................56
B ng 2.2 B ng các s n ph m khai phá d li u ...............................................74
6
DANH M C CÁC HÌNH V
Hình 1.1 Quá trình khám phá tri th c.............................................................14
Hình 1.2 Khuôn d ng ñơn b n ghi và ña b n ghi ...........................................16
Hình 1.3: Cây quy t ñ nh ñơn gi n v i các tests trên các thu c tính X và Y.22
Hình 1.4: S phân l p m t m u m i d a trên mô hình cây quy t ñ nh .........23
Hình 1.5 Cây quy t ñ nh cu i cùng cho CSDL T ñã nêu trong b ng 1.1.......29
Hình 1.6 Cây quy t ñ nh d ng gi code cho CSDL T (b ng 1.1)...............29
Hình 1.7 H i qui tuy n tính ............................................................................32
Hình 1.8 G p nhóm theo phương pháp k-means (ði m ñánh d u + là tâm) 36
Hình 1.9 Phân ho ch vun ñ ng ho c tách d n...............................................37
Hình 1.10 Bư c l p ñ u tiên c a thu t toán Apriori cho CSDL DB ..............41
Hình 1.11 L n l p th 2 c a thu t toán Apriori cho CSDL DB .....................42
Hình 1.12 L n l p th 3 c a thu t toán Apriori cho CSDL DB .....................42
Hình 2.1 Thu t toán Apriori............................................................................46
Hình 2.2 Thu t toán AprioriTid......................................................................50
Hình 2.3 Ví d ................................................................................................51
Hình 2.4: Th i gian th c hi n cho m i l n duy t c a Apriori và AprioriTid 52
Hình 2.5: M t ví d c a cây phân c p khái ni m cho khai phá các frequent
itemsets nhi u m c..........................................................................................55
Hình 2.6: FP-tree cho CSDL T trong b ng 2.1...............................................57
Hình 2.7 Thu t toán PHP ................................................................................62
Hình 2.8 B nh v i 2 l n duy t c a thu t toán PCY ..................................63
Hình 2.9 S d ng b nh cho các b ng băm nhi u ch ng.............................66
Hình 3.1 Công s c c n cho m i giai ño n khai phá d li u..........................82
Hình 3.2 Các bư c khai phá lu t k t h p trên CSDL ngành Thu ................83
Hình 3.3 Nhánh cây phân c p ngành ngh ....................................................85
Hình 3.4 Các lu t khai phá t ODM (ñ dài lu t = 2)...................................87
7
Hình 3.5 Các lu t khai phá t ODM (ñ dài lu t = 3)...................................89
Hình 3.6 Cây quy t ñ nh dùng ODM – Bài toán phân tích t su t................95
Hình 3.7 Cây quy t ñ nh dùng See5 – Bài toán phân tích t su t .................96
Hình 3.8 Cây quy t ñ nh dùng ODM – Bài toán xét s li u m t năm...........99
Hình 3.9 Cây quy t ñ nh dùng See5 – Bài toán phân tích trong năm..........100
8
M ð U
Th i ñ i phát tri n m nh c a Internet, Intranet, Data warehouse, cùng
v i s phát tri n nhanh v công ngh lưu tr ñã t o ñi u ki n cho các doanh
nghi p, các t ch c thu th p và s h u ñư c kh i lư ng thông tin kh ng l .
Hàng tri u CSDL ñã ñư c dùng trong qu n tr kinh doanh, qu n lý chính ph ,
qu n lý d li u khoa h c và nhi u ng d ng khác. V i kh năng h tr m nh
c a các H qu n tr CSDL, các CSDL này càng l n lên nhanh chóng. Câu “S
l n m nh c a các CSDL d n ñ n s c n thi t ph i có các k thu t và các công
c m i ñ th c hi n chuy n ñ i t ñ ng d li u m t cách thông minh thành
thông tin và tri th c h u ích” [10] ñã tr thành ñ t v n ñ c a nhi u bài vi t
v khai phá thông tin và tri th c t các CSDL l n.
Công tác trong ngành Thu , nơi Công ngh thông tin ñư c áp d ng vào
qu n lý Thu t nh ng năm 1986, CSDL thông tin liên quan ñ n các lĩnh v c
qu n lý Thu là m t CSDL l n và ch c ch n ti m n nhi u thông tin quý báu.
V i mong mu n bư c ñ u áp d ng k thu t khai phá d li u trên CSDL
ngành Thu , lu n văn ñã t p trung nghiên c u v các k thu t khai phá d
li u và ti n hành khai phá th nghi m trên CSDL ngành Thu .
Kh năng m r ng tri th c có ích n trong d li u ñ ñưa ra nh ng
hành ñ ng c n thi t d a trên tri th c ñó ñang tr nên ngày càng quan tr ng
trong th gi i c nh tranh hi n nay. Toàn b quá trình dùng các phương pháp
lu n d a trên tính toán, bao g m các k thu t m i ñ phát hi n ra tri th c t
d li u ñư c g i là khai phá d li u (data mining). [9]
Khai phá d li u là s tìm ki m thông tin m i, có giá tr và không t m
thư ng trong m t kh i lư ng d li u l n. Nó là s ph i h p n l c c a con
ngư i và máy tính. Các k t qu t t nh t nh n ñư c b ng vi c cân b ng gi a
9
tri th c c a các chuyên gia con ngư i trong vi c mô t các v n ñ và m c
ñích v i kh năng tìm ki m c a máy tính.
Hai m c ñích chính c a khai phá d li u là ñ d ñoán (prediction) và
mô t (description). D ñoán bao g m vi c dùng m t vài bi n ho c trư ng
trong t p d li u ñ d ñoán các giá tr tương lai ho c chưa bi t c a các bi n
c n quan tâm. Còn mô t t p trung vào vi c tìm ra các m u mô t d li u mà
con ngư i có th hi u ñư c/ biên d ch ñư c. Có th ñưa các ho t ñ ng khai
phá d li u vào m t trong hai lo i sau:
 Khai phá d li u d báo, t o ra mô hình c a h th ng ñư c mô t
b i t p d li u cho trư c, ho c
 Khai phá d li u mô t , v i vi c t o ra thông tin m i, không t m
thư ng d a trên t p d li u có s n.
M t s ch c năng khai phá d li u chính như:
 Mô t khái ni m: Mô t ñ c ñi m và phân bi t. Tìm ra các ñ c ñi m
khái quát hoá, t ng k t, các ñ c ñi m khác nhau trong d li u.
 K t h p: xem xét v tương quan và quan h nhân qu .
 Phân l p và d báo (Classification and Prediction): Xác ñ nh mô
hình mô t các l p riêng bi t và dùng cho d ñoán tương lai.
 Phân tích nhóm (Cluster analysis): Chưa bi t nhãn l p, th c hi n
nhóm d li u thành các l p m i d a trên nguyên t c c c ñ i hoá s
tương t trong cùng l p và c c ti u hoá s khác tương t gi a các
l p khác nhau.
 Phân tích nhi u (Outlier analysis): H u ích trong vi c phát hi n l i,
phân tích các s ki n hi m.
 Phân tích xu hư ng và s phát tri n
Khai phá d li u là m t trong nh ng lĩnh v c phát tri n nhanh nh t
trong công nghi p máy tính. T ch là m t mi n quan tâm nh trong khoa h c
10
máy tính và th ng kê, nó ñã nhanh chóng m r ng thành m t lĩnh v c/ngành
c a riêng nó. M t trong nh ng l n m nh nh t c a khai phá d li u là s nh
hư ng trong ph m vi r ng c a các phương pháp lu n và các k thu t ñư c
ng d ng ñ i v i m t lo t các bài toán, các lĩnh v c.
Trong kinh doanh, khai phá d li u có th ñư c dùng ñ khám phá ra
nh ng xu hư ng mua s m m i, k ho ch cho các chi n lư c ñ u tư, và phát
hi n nh ng s tiêu dùng không chính ñáng t h th ng k toán. Nó có th
giúp c i ti n các chi n d ch marketing ñ mang l i nhi u h tr và quan tâm
hơn t i khách hàng. Các k thu t khai phá d li u có th ñư c áp d ng ñ i
v i các bài toán thi t k l i quy trình kinh doanh, trong ñó m c ñích là ñ hi u
ñư c các tương tác và quan h trong thông l kinh doanh và các t ch c kinh
doanh.
Nhi u ñơn v thi hành lu t, các ñơn v ñi u tra ñ c bi t, có nhi m v
tìm ra các hành ñ ng không trung th c và phát hi n ra các xu hư ng ph m t i,
cũng ñã s d ng khai phá d li u m t cách thành công. Các k thu t khai phá
d li u cũng có th ñư c dùng trong các t ch c tình báo nơi lưu gi nhi u
ngu n d li u l n liên quan ñ n các ho t ñ ng, các v n ñ v an ninh qu c
gia.
V i m c ñích nghiên c u m t s phương pháp khai phá d li u và th
nghi m khai phá trên CSDL ngành Thu , lu n văn ñư c trình bày v i các
ph n sau:
Chương 1 – Khai phá d li u: Tìm hi u các ch c năng khai phá d li u.
Chương 2 – M t s thu t toán khai phá d li u. Nghiên c u trên hai
ki u khai phá: Khai phá lu t k t h p - m t k thu t thông d ng trong h c
không giám sát. Phân l p b ng h c cây quy t ñ nh - k thu t h c có giám sát.
Chương 3 – Áp d ng khai phá trên CSDL ngành Thu : Th nghi m
khai phá lu t k t h p và phân l p trên CSDL ngành Thu
11
Chương 4 – K t lu n và nh ng k t qu ñ t ñư c
Cu i cùng là m t s hư ng nghiên c u ti p theo.
Em xin chân thành c m ơn PGS. TS Nguy n Ng c Bình ñã hư ng d n
và cho em nh ng ý ki n quý báu, chân thành c m ơn các th y cô giáo c a
trư ng ð i h c Bách khoa Hà N i ñã trang b ki n th c giúp em hoàn thành
lu n văn này.
12
CHƯƠNG 1. KHAI PHÁ D LI U
1.1. T ng quan khai phá d li u
Khai phá d li u có ngu n g c t các phương pháp riêng bi t, 2 d ng
quan tr ng nh t là th ng kê và h c máy. Th ng kê có ngu n g c t toán h c
và do ñó nh n m nh ñ n ñ chính xác toán h c, mong mu n thi t l p cái mà
có th nh n ra trên n n toán h c trư c khi ki m th nó trong th c t . Ngư c
l i, h c máy có ngu n g c r t nhi u trong th c ti n tính toán. ði u này d n
ñ n s hư ng th c ti n, s n sàng ki m th ñ bi t nó th c hi n t t th nào mà
không c n ch m t ch ng minh chính th c. [9]
Có th có ñ nh nghĩa v Khai phá d li u như sau: Khai phá d li u là
quá trình phát hi n các mô hình, các t ng k t khác nhau và các giá tr ñư c
l y t t p d li u cho trư c. [9]
Hay, Khai phá d li u là s thăm dò và phân tích lư ng d li u l n ñ
khám phá t d li u ra các m u h p l , m i l , có ích và có th hi u ñư c
[14]. H p l là các m u ñ m b o tính t ng quát, m i l là m u chưa ñư c bi t
trư c ñó, có ích là có th d a vào m u ñó ñưa ra các hành ñ ng phù h p, hi u
ñư c là có th biên d ch và hi u th u ñáo các m u.
Các k năng phân tích c a con ngư i là không ñ y ñ do: Kích thư c
và chi u c a d li u; t c ñ tăng trư ng c a d li u là r t l n. Thêm vào ñó là
nh ng ñáp ng m nh m c a k thu t v kh năng: thu th p d li u, lưu tr ,
năng l c tính toán, ph n m m, s thành th o v chuyên môn. Ngoài ra còn có
môi trư ng c nh tranh v d ch v , ch không ch c nh tranh v giá (ñ i v i
Ngân hàng, công ty ñi n tho i, khách s n, công ty cho thuê …) v i câu “Bí
quy t c a s thành công là bi t nh ng gì mà không ai khác bi t” (Aristotle
Onassis [14]). T t c nh ng ñi u ñó chính là nh ng nguyên nhân thúc ñ y
Khai phá d li u phát tri n.
13
Quá trình khám phá tri th c:
Trư c tiên, phân bi t gi a các thu t ng “mô hình (model)” và “m u
(pattern)” dùng trong khai phá d li u. Mô hình là m t c u trúc “quy mô l n”,
có th là t ng k t các quan h qua nhi u trư ng h p (case) (ñôi khi là t t c
các trư ng h p), trong khi m u là m t c u trúc c c b , tho mãn b i m t s ít
trư ng h p ho c trong m t mi n nh c a không gian d li u. Trong khai phá
d li u, m t m u ñơn gi n là m t mô hình c c b .
Quá trình khám phá tri th c ti n hành theo các bư c sau:
1. Xác ñ nh bài toán nghi p v : Trư c tiên ph i tìm hi u lĩnh v c c a ng
d ng nghi p v ; Tìm hi u các tri th c liên quan và các m c ñích c a ng
d ng.
2. Khai phá d li u
- L a ch n d li u: Xác ñ nh các t p d li u ñích và các trư ng liên
quan
- Làm s ch d li u: Xoá b nhi u, ti n x lý. Ph n vi c này có th
chi m t i 60% công s c.
- Gi m b t d li u và chuy n ñ i d li u: Tìm ra nh ng ñ c trưng
h u d ng, gi m b t các chi u ho c các bi n, bi u di n l i các ñ i
lư ng b t bi n
- L a ch n ch c năng khai phá d li u: T ng k t, phân l p, H i qui,
k t h p, phân nhóm.
- L a ch n thu t toán khai phá.
- Th c hi n khai phá d li u (Data Mining): Tìm ki m các m u quan
tâm
- ðánh giá các m u và bi u di n tri th c
14
Hình 1.1 Quá trình khám phá tri th c
3. Áp d ng khám phá tri th c
4. ðánh giá và ño ñ c
5. Tri n khai và tích h p vào các qui trình nghi p v
1.1.1 D li u
Do có nhi u ki u d li u, các CSDL s d ng trong các ng d ng cũng
khác nhau, nên ngư i dùng luôn mong ñ i m t h th ng khai phá d li u có
th ñi u khi n ñư c t t c các lo i d li u. Th c t CSDL có s n thư ng là
CSDL quan h và h th ng khai phá d li u cũng th c hi n hi u qu vi c khai
phá tri th c trên d li u quan h . V i nh ng CSDL c a ng d ng ch a các
ki u d li u ph c t p, như d li u hypertext và multimedia, d li u t m và
không gian (spatial), d li u k th a (legacy)… thư ng ph i có các h th ng
khai phá d li u riêng bi t xây d ng ñ khai phá cho các ki u d li u c th .
15
D li u ñư c khai phá có th là d li u có c u trúc, ho c không có c u
trúc. M i b n ghi d li u ñư c coi như m t trư ng h p ho c m t ví d
(case/example).
Phân bi t hai ki u thu c tính: phân lo i (categorical) và s
(numerical). Các thu c tính ki u phân lo i là nh ng thu c tính có các giá tr
thu c vào m t s lư ng nh các phân lo i ho c các l p riêng r và gi a chúng
không có th t n nào. N u ch có 2 giá tr , ví d là yes và no, ho c male và
female, thu c tính ñư c coi là binary. N u có hơn 2 giá tr , ví d , nh , v a,
l n, r t l n, thu c tính ñư c coi là ña l p (multiclass).
Các thu c tính s là nh ng thu c tính l y các giá tr liên t c, ví d , thu
nh p hàng năm, ho c tu i. Thu nh p hàng năm ho c tu i có th v lý thuy t
là b t kỳ m t giá tr nào t 0 t i vô h n, m c dù m i giá tr thư ng xu t hi n
phù h p v i th c t . Các thu c tính s có th ñư c bi n ñ i thành categorical:
Ví d , thu nh p hàng năm có th ñư c chia thành các lo i: th p, trung bình,
cao.
D li u không có c u trúc có th áp d ng các thu t toán khai phá d
li u thư ng là d li u ki u Text.
Khuôn d ng b ng c a d li u có th thu c hai lo i:
 D li u d ng ñơn b n ghi (còn g i là ki u không giao d ch), ñây là
các b ng d li u quan h thông thư ng.
 D li u d ng ña b n ghi (còn g i là ki u giao d ch), ñư c dùng cho
d li u v i nhi u thu c tính.
d ng ñơn b n ghi (ki u không giao d ch), m i b n ghi ñư c lưu tr
như 1 dòng trong b ng. D li u ñơn b n ghi không ñòi h i cung c p khoá ñ
xác ñ nh duy nh t m i b n ghi. Nhưng, khoá là c n cho các trư ng h p k t
h p (associate) ñ có k t qu cho h c có giám sát.
16
Trong d ng ña b n ghi (ki u giao d ch), m i trư ng h p (case) ñư c
lưu trong nhi u b n ghi trong m t b ng v i các c t: dãy s ñ nh danh, tên
thu c tính, giá tr .
Hình 1.2 Khuôn d ng ñơn b n ghi và ña b n ghi
1.1.2 Ti n x lý d li u
D li u ñư c ch n l c s ph i qua bư c ti n x lý trư c khi ti n hành
khai phá phát hi n tri th c. Bư c thu th p và ti n x lý d li u là bư c r t
ph c t p. ð m t gi i thu t DM th c hi n trên toàn b CSDL s r t c ng
k nh, kém hi u qu . Trong quá trình khai phá d li u, nhi u khi ph i th c
hi n liên k t/tích h p d li u t r t nhi u ngu n khác nhau. Các h th ng s n
có ñư c thi t k v i nh ng m c ñích và ñ i tư ng ph c v khác nhau, khi t p
h p d li u t nh ng h th ng này ñ ph c v khai phá d li u, hi n tư ng dư
th a là r t ph bi n, ngoài ra còn có th x y ra xung ñ t gây m y d li u, d
li u không ñ ng nh t, không chính xác. Rõ ràng yêu c u ch n l c và làm s ch
d li u là r t c n thi t.
N u ñ u vào c a quá trình khai phá là d li u trong DW thì s r t thu n
ti n, vì d li u này ñã ñư c làm s ch, nh t quán và có tính ch t hư ng ch ñ .
17
Tuy nhiên nhi u khi v n ph i có thêm m t s bư c ti n x lý ñ ñưa d li u
v ñúng d ng c n thi t.
Ngoài m t s x lý thông thư ng như: bi n ñ i, t p h p d li u t
nhi u ngu n v m t kho chung, x lý ñ ñ m b o nh t quán d li u (kh các
trư ng h p l p, th ng nh t cách ký hi u, chuy n ñ i v khuôn d ng th ng
nh t (ñơn v ti n t , ngày tháng..)). M t s x lý ñ c bi t c n chú ý trong
bư c ti n x lý d li u:
X lý v i d li u thi u (missing data): Thư ng thì khi khai phá d li u
không ñòi h i NSD ph i x lý các giá tr thi u b ng cách th c ñ c bi t nào.
Khi khai phá, thu t toán khai phá s b qua các giá tr thi u. Tuy nhiên trong
m t vài trư ng h p c n chú ý ñ ñ m b o thu t toán phân bi t ñư c gi a giá
tr có nghĩa (“0”) v i giá tr tr ng. (tham kh o trong [11]).
Các giá tr gây nhi u (Outliers): M t outlier là m t giá tr xa bên
ngoài c a mi n thông thư ng trong t p h p d li u, là giá tr chênh l ch v i
chu n v ý nghĩa. S có m t c a outliers có th có nh hư ng ñáng k trong
các mô hình khai phá d li u.
Outliers nh hư ng ñ n khai phá d li u trong bư c ti n x lý d li u
ho c là khi nó ñư c th c hi n b i NSD ho c t ñ ng trong khi xây d ng mô
hình.
Binning: M t vài thu t toán khai phá d li u có th có l i nh vi c
binning v i c hai lo i d li u number và categorical. Các thu t toán Naive
Bayes, Adaptive Bayes Network, Clustering, Attribute Importance, và
Association Rules có th có l i t vi c binning.
Binning nghĩa là nhóm các giá tr liên quan v i nhau, như v y gi m s
lư ng các giá tr riêng bi t c a m t thu c tính. Có ít hơn các giá tr riêng bi t
d n ñ n mô hình g n nh và xây d ng ñư c nhanh hơn, nhưng nó cũng có th
18
d n ñ n vi c m t ñi ñ chính xác [11] (Các phương pháp tính toán ranh gi i
bin [11]).
1.1.3 Mô hình khai phá d li u
Mô hình khai phá d li u là m t mô t v m t khía c nh c th c a m t
t p d li u. Nó t o ra các giá tr ñ u ra cho t p các giá tr ñ u vào.
Ví d : Mô hình H i qui tuy n tính, mô hình phân l p, mô hình phân
nhóm.
M t mô hình khai phá d li u có th ñư c mô t 2 m c:
 M c ch c năng (Function level): Mô t mô hình b ng nh ng thu t
ng v d ñ nh s d ng. Ví d : Phân l p, phân nhóm.
 M c bi u di n (representation level): Bi u di n c th m t mô hình.
Ví d : Mô hình log-linear, cây phân l p, phương pháp láng gi ng
g n nh t.
Các mô hình khai phá d li u d a trên 2 ki u h c: có giám sát và không
giám sát (ñôi khi ñư c nói ñ n như là h c tr c ti p và không tr c ti p –
directed and undirected learning) [11].
Các hàm h c có giám sát (Supervised learning functions) ñư c s d ng
ñ d ñoán giá tr . Các hàm h c không giám sát ñư c dùng ñ tìm ra c u trúc
bên trong, các quan h ho c tính gi ng nhau trong n i dung d li u nhưng
không có l p hay nhãn nào ñư c gán ưu tiên. Ví d c a các thu t toán h c
không giám sát g m phân nhóm k-mean (k-mean clustering) và các lu t k t
h p Apriori. M t ví d c a thu t toán h c có giám sát bao g m Naive Bayes
cho phân l p (classification).
Tương ng có 2 lo i mô hình khai phá d li u:
 Các mô hình d báo (h c có giám sát):
19
• Phân l p: nhóm các items thành các l p riêng bi t và d ñoán
m t item s thu c vào l p nào.
• H i qui (Regression): x p x hàm và d báo các giá tr liên t c
• ð quan tr ng c a thu c tính: xác ñ nh các thu c tính là quan
tr ng nh t trong các k t qu d báo
 Các mô hình mô t (h c không giám sát):
• Phân nhóm (Clustering): Tìm các nhóm t nhiên trong d li u
• Các mô hình k t h p (Association models): Phân tích “gi hàng”
• Trích ch n ñ c trưng (Feature extraction): T o các thu c tính
(ñ c trưng) m i như là k t h p c a các thu c tính ban ñ u
1.2. Các ch c năng cơ b n khai phá d li u
1.2.1 Phân l p (Classification)
Trong bài toán phân l p, ta có d li u l ch s (các ví d ñư c gán nhãn
- thu c l p nào) và các d li u m i chưa ñư c gán nhãn. M i ví d ñư c gán
nhãn bao g m nhi u thu c tính d báo và m t thu c tính ñích (bi n ph
thu c). Giá tr c a thu c tính ñích chính là nhãn c a l p. Các ví d không
ñư c gán nhãn ch bao g m các thu c tính d báo. M c ñích c a vi c phân
l p là xây d ng mô hình d a vào d li u l ch s ñ d báo chính xác nhãn
(l p) c a các ví d không gán nhãn. [11]
Nhi m v phân l p b t ñ u v i vi c xây d ng d li u (d li u hu n
luy n) có các giá tr ñích (nhãn l p) ñã bi t. Các thu t toán phân l p khác
nhau dùng các k thu t khác nhau cho vi c tìm các quan h gi a các giá tr
c a thu c tính d báo và các giá tr c a thu c tính ñích trong d li u hu n
luy n. Nh ng quan h này ñư c t ng k t trong mô hình, sau ñó ñư c dùng
20
cho các trư ng h p m i v i các giá tr ñích chưa bi t ñ d ñoán các giá tr
ñích.
Mô hình phân l p có th ñư c dùng trên b d li u ki m th /d li u
ñánh giá v i m c ñích so sánh các giá tr d báo v i các câu tr l i ñã bi t.
K thu t này ñư c g i là ki m tra mô hình, nó ño ñ chính xác d báo c a
mô hình.
Áp d ng mô hình phân l p ñ i v i d li u m i ñư c g i là s d ng mô
hình, và d li u ñư c g i là d li u s d ng hay d li u trung tâm (apply data
or scoring data). Vi c s d ng d li u thư ng ñư c g i là ‘scoring the data’.
S phân l p ñư c dùng trong phân ño n khách hàng, phân tích tín
d ng, và nhi u ng d ng khác. Ví d , công ty th tín d ng mu n d báo
nh ng khách hàng nào s không tr ñúng h n trên các chi tr c a h . M i
khách hàng tương ng v i m t trư ng h p; d li u cho m i trư ng h p có th
bao g m m t s thu c tính mô t thói quen tiêu dùng c a khách hàng, thu
nh p, các thu c tính nhân kh u h c,… ðây là nh ng thu c tính d báo.
Thu c tính ñích ch ra có hay không ngư i khách hàng ñã v n /không tr
ñúng h n; như v y, có hai l p có kh năng, tương ng v i v n ho c không.
D li u hu n luy n s ñư c dùng ñ xây d ng mô hình dùng cho d báo các
trư ng h p m i sau này (d báo khách hàng m i có kh năng chi tr n
không).
Chi phí (Costs):
Trong bài toán phân l p, có th c n xác ñ nh chi phí bao hàm trong vi c
t o ra m t quy t ñ nh sai l m. Vi c này là quan tr ng và c n thi t khi có
chênh l ch chi phí l n gi a các phân l p sai (misclassification). Ví d , bài
toán d báo có hay không m t ngư i s tr l i v i thư qu ng cáo. ðích có 2
phân lo i: YES (khách hàng tr l i) và NO (khách hàng không tr l i). Gi s
tr l i tích c c ñ i v i qu ng cáo sinh ra $500 và nó tr giá $5 ñ g i thư. N u
DOWNLOAD ĐỂ XEM ĐẦY ĐỦ NỘI DUNG
MÃ TÀI LIỆU: 52486
DOWNLOAD: + Link tải: tailieumau.vn
Hoặc : + ZALO: 0932091562

More Related Content

Similar to Luận văn: Nghiên cứu và ứng dụng một số kỹ thuật khai phá dữ liệu với cơ sở dữ liệu ngành thuế Việt Nam

Bai giang mo phong va mo hinh hoa duong thuy huong
Bai giang   mo phong va mo hinh hoa  duong thuy huongBai giang   mo phong va mo hinh hoa  duong thuy huong
Bai giang mo phong va mo hinh hoa duong thuy huongVu Tai
 
Luận văn: Nghiên cứu các nhân tố tác động đến ý định sử dụng ví điện tử tại V...
Luận văn: Nghiên cứu các nhân tố tác động đến ý định sử dụng ví điện tử tại V...Luận văn: Nghiên cứu các nhân tố tác động đến ý định sử dụng ví điện tử tại V...
Luận văn: Nghiên cứu các nhân tố tác động đến ý định sử dụng ví điện tử tại V...Dịch vụ viết thuê Khóa Luận - ZALO 0932091562
 
Hdsd htkk3.0 cung_cap_cho_nnt
Hdsd htkk3.0 cung_cap_cho_nntHdsd htkk3.0 cung_cap_cho_nnt
Hdsd htkk3.0 cung_cap_cho_nntlethuc
 
Luận án: Phát triển nguồn nhân lực của Tập đoàn điện lực Việt Nam đến năm 2015
Luận án: Phát triển nguồn nhân lực của Tập đoàn điện lực Việt Nam đến năm 2015Luận án: Phát triển nguồn nhân lực của Tập đoàn điện lực Việt Nam đến năm 2015
Luận án: Phát triển nguồn nhân lực của Tập đoàn điện lực Việt Nam đến năm 2015Viết thuê trọn gói ZALO 0934573149
 
Luận văn: Ứng dụng một số mô hình đầu tư chính hiện đại vào thị trường chứng ...
Luận văn: Ứng dụng một số mô hình đầu tư chính hiện đại vào thị trường chứng ...Luận văn: Ứng dụng một số mô hình đầu tư chính hiện đại vào thị trường chứng ...
Luận văn: Ứng dụng một số mô hình đầu tư chính hiện đại vào thị trường chứng ...Viết thuê trọn gói ZALO 0934573149
 
Luận án: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doa...
Luận án: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doa...Luận án: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doa...
Luận án: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doa...Viết thuê trọn gói ZALO 0934573149
 
Xây dựng và khai thác kho dữ liệu cước khách hàng tại Công ty Thông tin Viễn ...
Xây dựng và khai thác kho dữ liệu cước khách hàng tại Công ty Thông tin Viễn ...Xây dựng và khai thác kho dữ liệu cước khách hàng tại Công ty Thông tin Viễn ...
Xây dựng và khai thác kho dữ liệu cước khách hàng tại Công ty Thông tin Viễn ...HanaTiti
 
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdf
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdfChiết lọc thông tin pháp luật trong dữ liệu văn bản.pdf
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdfTieuNgocLy
 
Luận án: Vai trò NN trong mở rộng quyền tự chủ của các trường đại học công lậ...
Luận án: Vai trò NN trong mở rộng quyền tự chủ của các trường đại học công lậ...Luận án: Vai trò NN trong mở rộng quyền tự chủ của các trường đại học công lậ...
Luận án: Vai trò NN trong mở rộng quyền tự chủ của các trường đại học công lậ...Viết thuê trọn gói ZALO 0934573149
 
Luận Văn Các Nhân Tố Ảnh Hưởng Đến Tính Hữu Hiệu Hệ Thống Thông Tin Kế Toán
Luận Văn Các Nhân Tố Ảnh Hưởng Đến Tính Hữu Hiệu Hệ Thống Thông Tin Kế ToánLuận Văn Các Nhân Tố Ảnh Hưởng Đến Tính Hữu Hiệu Hệ Thống Thông Tin Kế Toán
Luận Văn Các Nhân Tố Ảnh Hưởng Đến Tính Hữu Hiệu Hệ Thống Thông Tin Kế ToánViết Thuê Luận Văn Luanvanpanda.com
 
Tailieu.vncty.com danh gia-chat_luong_dich_vu_tren_mang_wireless_lan.
Tailieu.vncty.com   danh gia-chat_luong_dich_vu_tren_mang_wireless_lan.Tailieu.vncty.com   danh gia-chat_luong_dich_vu_tren_mang_wireless_lan.
Tailieu.vncty.com danh gia-chat_luong_dich_vu_tren_mang_wireless_lan.Trần Đức Anh
 
Luận án: Cầu tiền và hệ quả đối với chính sách tiền tệ ở Việt Nam, HAY
Luận án: Cầu tiền và hệ quả đối với chính sách tiền tệ ở Việt Nam, HAYLuận án: Cầu tiền và hệ quả đối với chính sách tiền tệ ở Việt Nam, HAY
Luận án: Cầu tiền và hệ quả đối với chính sách tiền tệ ở Việt Nam, HAYViết thuê trọn gói ZALO 0934573149
 
TỐI ƯU HÓA QUÁ TRÌNH THIẾT KÊ GUỒNG QUAY CƯỚC CÂU CÁ f739fa06
TỐI ƯU HÓA QUÁ TRÌNH THIẾT KÊ GUỒNG QUAY CƯỚC CÂU CÁ f739fa06TỐI ƯU HÓA QUÁ TRÌNH THIẾT KÊ GUỒNG QUAY CƯỚC CÂU CÁ f739fa06
TỐI ƯU HÓA QUÁ TRÌNH THIẾT KÊ GUỒNG QUAY CƯỚC CÂU CÁ f739fa06nataliej4
 

Similar to Luận văn: Nghiên cứu và ứng dụng một số kỹ thuật khai phá dữ liệu với cơ sở dữ liệu ngành thuế Việt Nam (20)

Luận văn: Nghiên cứu và cài đặt một số đối tượng phân cụm, phân lớp
Luận văn: Nghiên cứu và cài đặt một số đối tượng phân cụm, phân lớpLuận văn: Nghiên cứu và cài đặt một số đối tượng phân cụm, phân lớp
Luận văn: Nghiên cứu và cài đặt một số đối tượng phân cụm, phân lớp
 
Bai giang mo phong va mo hinh hoa duong thuy huong
Bai giang   mo phong va mo hinh hoa  duong thuy huongBai giang   mo phong va mo hinh hoa  duong thuy huong
Bai giang mo phong va mo hinh hoa duong thuy huong
 
Luận văn: Nghiên cứu các nhân tố tác động đến ý định sử dụng ví điện tử tại V...
Luận văn: Nghiên cứu các nhân tố tác động đến ý định sử dụng ví điện tử tại V...Luận văn: Nghiên cứu các nhân tố tác động đến ý định sử dụng ví điện tử tại V...
Luận văn: Nghiên cứu các nhân tố tác động đến ý định sử dụng ví điện tử tại V...
 
La01.028 tiếp cận và phân tích động thái giá cả lạm phát của việt nam trong...
La01.028 tiếp cận và phân tích động thái giá cả   lạm phát của việt nam trong...La01.028 tiếp cận và phân tích động thái giá cả   lạm phát của việt nam trong...
La01.028 tiếp cận và phân tích động thái giá cả lạm phát của việt nam trong...
 
LA01.028_Tiếp cận và phân tích động thái giá cả - lạm phát của Việt Nam trong...
LA01.028_Tiếp cận và phân tích động thái giá cả - lạm phát của Việt Nam trong...LA01.028_Tiếp cận và phân tích động thái giá cả - lạm phát của Việt Nam trong...
LA01.028_Tiếp cận và phân tích động thái giá cả - lạm phát của Việt Nam trong...
 
Hdsd htkk3.0 cung_cap_cho_nnt
Hdsd htkk3.0 cung_cap_cho_nntHdsd htkk3.0 cung_cap_cho_nnt
Hdsd htkk3.0 cung_cap_cho_nnt
 
Luận án: Tái cơ cấu tổ chức các doanh nghiệp may của Tập đoàn Dệt May VN
Luận án: Tái cơ cấu tổ chức các doanh nghiệp may của Tập đoàn Dệt May VNLuận án: Tái cơ cấu tổ chức các doanh nghiệp may của Tập đoàn Dệt May VN
Luận án: Tái cơ cấu tổ chức các doanh nghiệp may của Tập đoàn Dệt May VN
 
Luận án: Xây dựng mô hình XHTD đối với doanh nghiệp VN trong nền kinh tế chuy...
Luận án: Xây dựng mô hình XHTD đối với doanh nghiệp VN trong nền kinh tế chuy...Luận án: Xây dựng mô hình XHTD đối với doanh nghiệp VN trong nền kinh tế chuy...
Luận án: Xây dựng mô hình XHTD đối với doanh nghiệp VN trong nền kinh tế chuy...
 
Luận án: Phát triển nguồn nhân lực của Tập đoàn điện lực Việt Nam đến năm 2015
Luận án: Phát triển nguồn nhân lực của Tập đoàn điện lực Việt Nam đến năm 2015Luận án: Phát triển nguồn nhân lực của Tập đoàn điện lực Việt Nam đến năm 2015
Luận án: Phát triển nguồn nhân lực của Tập đoàn điện lực Việt Nam đến năm 2015
 
Luận văn: Ứng dụng một số mô hình đầu tư chính hiện đại vào thị trường chứng ...
Luận văn: Ứng dụng một số mô hình đầu tư chính hiện đại vào thị trường chứng ...Luận văn: Ứng dụng một số mô hình đầu tư chính hiện đại vào thị trường chứng ...
Luận văn: Ứng dụng một số mô hình đầu tư chính hiện đại vào thị trường chứng ...
 
Luận án: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doa...
Luận án: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doa...Luận án: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doa...
Luận án: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doa...
 
Xây dựng và khai thác kho dữ liệu cước khách hàng tại Công ty Thông tin Viễn ...
Xây dựng và khai thác kho dữ liệu cước khách hàng tại Công ty Thông tin Viễn ...Xây dựng và khai thác kho dữ liệu cước khách hàng tại Công ty Thông tin Viễn ...
Xây dựng và khai thác kho dữ liệu cước khách hàng tại Công ty Thông tin Viễn ...
 
La0214
La0214La0214
La0214
 
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdf
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdfChiết lọc thông tin pháp luật trong dữ liệu văn bản.pdf
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdf
 
Luận án: Vai trò NN trong mở rộng quyền tự chủ của các trường đại học công lậ...
Luận án: Vai trò NN trong mở rộng quyền tự chủ của các trường đại học công lậ...Luận án: Vai trò NN trong mở rộng quyền tự chủ của các trường đại học công lậ...
Luận án: Vai trò NN trong mở rộng quyền tự chủ của các trường đại học công lậ...
 
Luận Văn Các Nhân Tố Ảnh Hưởng Đến Tính Hữu Hiệu Hệ Thống Thông Tin Kế Toán
Luận Văn Các Nhân Tố Ảnh Hưởng Đến Tính Hữu Hiệu Hệ Thống Thông Tin Kế ToánLuận Văn Các Nhân Tố Ảnh Hưởng Đến Tính Hữu Hiệu Hệ Thống Thông Tin Kế Toán
Luận Văn Các Nhân Tố Ảnh Hưởng Đến Tính Hữu Hiệu Hệ Thống Thông Tin Kế Toán
 
Tailieu.vncty.com danh gia-chat_luong_dich_vu_tren_mang_wireless_lan.
Tailieu.vncty.com   danh gia-chat_luong_dich_vu_tren_mang_wireless_lan.Tailieu.vncty.com   danh gia-chat_luong_dich_vu_tren_mang_wireless_lan.
Tailieu.vncty.com danh gia-chat_luong_dich_vu_tren_mang_wireless_lan.
 
Luận án: Cầu tiền và hệ quả đối với chính sách tiền tệ ở Việt Nam, HAY
Luận án: Cầu tiền và hệ quả đối với chính sách tiền tệ ở Việt Nam, HAYLuận án: Cầu tiền và hệ quả đối với chính sách tiền tệ ở Việt Nam, HAY
Luận án: Cầu tiền và hệ quả đối với chính sách tiền tệ ở Việt Nam, HAY
 
TỐI ƯU HÓA QUÁ TRÌNH THIẾT KÊ GUỒNG QUAY CƯỚC CÂU CÁ f739fa06
TỐI ƯU HÓA QUÁ TRÌNH THIẾT KÊ GUỒNG QUAY CƯỚC CÂU CÁ f739fa06TỐI ƯU HÓA QUÁ TRÌNH THIẾT KÊ GUỒNG QUAY CƯỚC CÂU CÁ f739fa06
TỐI ƯU HÓA QUÁ TRÌNH THIẾT KÊ GUỒNG QUAY CƯỚC CÂU CÁ f739fa06
 
Ứng Dụng Mô Hình Dea Đánh Giá Hiệu Quả Hoạt Động Của Các Ngân Hàng
Ứng Dụng Mô Hình Dea Đánh Giá Hiệu Quả Hoạt Động Của Các Ngân HàngỨng Dụng Mô Hình Dea Đánh Giá Hiệu Quả Hoạt Động Của Các Ngân Hàng
Ứng Dụng Mô Hình Dea Đánh Giá Hiệu Quả Hoạt Động Của Các Ngân Hàng
 

More from Dịch Vụ Viết Thuê Khóa Luận Zalo/Telegram 0917193864

More from Dịch Vụ Viết Thuê Khóa Luận Zalo/Telegram 0917193864 (20)

List 200 Đề Tài Báo Cáo Thực Tập Ngành Digital Marketing, 9 Điểm Từ Sinh Viên...
List 200 Đề Tài Báo Cáo Thực Tập Ngành Digital Marketing, 9 Điểm Từ Sinh Viên...List 200 Đề Tài Báo Cáo Thực Tập Ngành Digital Marketing, 9 Điểm Từ Sinh Viên...
List 200 Đề Tài Báo Cáo Thực Tập Ngành Digital Marketing, 9 Điểm Từ Sinh Viên...
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành Du Lịch Khách Sạn, Điểm Cao Mới Nhất
List 200 Đề Tài Báo Cáo Thực Tập Ngành Du Lịch Khách Sạn, Điểm Cao Mới NhấtList 200 Đề Tài Báo Cáo Thực Tập Ngành Du Lịch Khách Sạn, Điểm Cao Mới Nhất
List 200 Đề Tài Báo Cáo Thực Tập Ngành Du Lịch Khách Sạn, Điểm Cao Mới Nhất
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành Du Lịch Lữ Hành, Điểm Cao Mới Nhất
List 200 Đề Tài Báo Cáo Thực Tập Ngành Du Lịch Lữ Hành, Điểm Cao Mới NhấtList 200 Đề Tài Báo Cáo Thực Tập Ngành Du Lịch Lữ Hành, Điểm Cao Mới Nhất
List 200 Đề Tài Báo Cáo Thực Tập Ngành Du Lịch Lữ Hành, Điểm Cao Mới Nhất
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành Điện Công Nghiệp, Từ Các Trường Đại Học
List 200 Đề Tài Báo Cáo Thực Tập Ngành Điện Công Nghiệp, Từ Các Trường Đại HọcList 200 Đề Tài Báo Cáo Thực Tập Ngành Điện Công Nghiệp, Từ Các Trường Đại Học
List 200 Đề Tài Báo Cáo Thực Tập Ngành Điện Công Nghiệp, Từ Các Trường Đại Học
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành Điện Công Nghiệp, Từ Các Trường Đại Học
List 200 Đề Tài Báo Cáo Thực Tập Ngành Điện Công Nghiệp, Từ Các Trường Đại HọcList 200 Đề Tài Báo Cáo Thực Tập Ngành Điện Công Nghiệp, Từ Các Trường Đại Học
List 200 Đề Tài Báo Cáo Thực Tập Ngành Điện Công Nghiệp, Từ Các Trường Đại Học
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành Điện Công Trình, Từ Các Trường Đại Học
List 200 Đề Tài Báo Cáo Thực Tập Ngành Điện Công Trình, Từ Các Trường Đại HọcList 200 Đề Tài Báo Cáo Thực Tập Ngành Điện Công Trình, Từ Các Trường Đại Học
List 200 Đề Tài Báo Cáo Thực Tập Ngành Điện Công Trình, Từ Các Trường Đại Học
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành Điện Tử Viễn Thông, 9 Điểm
List 200 Đề Tài Báo Cáo Thực Tập Ngành Điện Tử Viễn Thông, 9 ĐiểmList 200 Đề Tài Báo Cáo Thực Tập Ngành Điện Tử Viễn Thông, 9 Điểm
List 200 Đề Tài Báo Cáo Thực Tập Ngành Điện Tử Viễn Thông, 9 Điểm
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành Đông Phương Học, Điểm Cao Mới Nhất
List 200 Đề Tài Báo Cáo Thực Tập Ngành Đông Phương Học, Điểm Cao Mới NhấtList 200 Đề Tài Báo Cáo Thực Tập Ngành Đông Phương Học, Điểm Cao Mới Nhất
List 200 Đề Tài Báo Cáo Thực Tập Ngành Đông Phương Học, Điểm Cao Mới Nhất
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành Hệ Thống Thông Tin, Từ Các Trường Đại Học
List 200 Đề Tài Báo Cáo Thực Tập Ngành Hệ Thống Thông Tin, Từ Các Trường Đại HọcList 200 Đề Tài Báo Cáo Thực Tập Ngành Hệ Thống Thông Tin, Từ Các Trường Đại Học
List 200 Đề Tài Báo Cáo Thực Tập Ngành Hệ Thống Thông Tin, Từ Các Trường Đại Học
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành Hướng Dẫn Viên Du Lịch, 9 Điểm
List 200 Đề Tài Báo Cáo Thực Tập Ngành Hướng Dẫn Viên Du Lịch, 9 ĐiểmList 200 Đề Tài Báo Cáo Thực Tập Ngành Hướng Dẫn Viên Du Lịch, 9 Điểm
List 200 Đề Tài Báo Cáo Thực Tập Ngành Hướng Dẫn Viên Du Lịch, 9 Điểm
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Doanh Quốc Tế, Từ Sinh Viên Khá Giỏi
List 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Doanh Quốc Tế, Từ Sinh Viên Khá GiỏiList 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Doanh Quốc Tế, Từ Sinh Viên Khá Giỏi
List 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Doanh Quốc Tế, Từ Sinh Viên Khá Giỏi
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Doanh Thương Mại, Từ Sinh Viên Kh...
List 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Doanh Thương Mại, Từ Sinh Viên Kh...List 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Doanh Thương Mại, Từ Sinh Viên Kh...
List 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Doanh Thương Mại, Từ Sinh Viên Kh...
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Tế Đầu Tư, Từ Sinh Viên Khá Giỏi
List 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Tế Đầu Tư, Từ Sinh Viên Khá GiỏiList 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Tế Đầu Tư, Từ Sinh Viên Khá Giỏi
List 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Tế Đầu Tư, Từ Sinh Viên Khá Giỏi
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Tế Quốc Tế, Điểm Cao Từ Các Trườn...
List 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Tế Quốc Tế, Điểm Cao Từ Các Trườn...List 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Tế Quốc Tế, Điểm Cao Từ Các Trườn...
List 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Tế Quốc Tế, Điểm Cao Từ Các Trườn...
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành May Thời Trang, Từ Sinh Viên Khá Giỏi
List 200 Đề Tài Báo Cáo Thực Tập Ngành May Thời Trang, Từ Sinh Viên Khá GiỏiList 200 Đề Tài Báo Cáo Thực Tập Ngành May Thời Trang, Từ Sinh Viên Khá Giỏi
List 200 Đề Tài Báo Cáo Thực Tập Ngành May Thời Trang, Từ Sinh Viên Khá Giỏi
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành Ngôn Ngữ Anh, Từ Sinh Viên Khá Giỏi
List 200 Đề Tài Báo Cáo Thực Tập Ngành Ngôn Ngữ Anh, Từ Sinh Viên Khá GiỏiList 200 Đề Tài Báo Cáo Thực Tập Ngành Ngôn Ngữ Anh, Từ Sinh Viên Khá Giỏi
List 200 Đề Tài Báo Cáo Thực Tập Ngành Ngôn Ngữ Anh, Từ Sinh Viên Khá Giỏi
 
List 200 đề tài báo cáo thực tập ngành ngôn ngữ nhật, từ các trường đại học
List 200 đề tài báo cáo thực tập ngành ngôn ngữ nhật, từ các trường đại họcList 200 đề tài báo cáo thực tập ngành ngôn ngữ nhật, từ các trường đại học
List 200 đề tài báo cáo thực tập ngành ngôn ngữ nhật, từ các trường đại học
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành Quan Hệ Công Chúng, Từ Khóa Trước
List 200 Đề Tài Báo Cáo Thực Tập Ngành Quan Hệ Công Chúng, Từ Khóa TrướcList 200 Đề Tài Báo Cáo Thực Tập Ngành Quan Hệ Công Chúng, Từ Khóa Trước
List 200 Đề Tài Báo Cáo Thực Tập Ngành Quan Hệ Công Chúng, Từ Khóa Trước
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành Quan Hệ Quốc Tế, Từ Sinh Viên Khá Giỏi
List 200 Đề Tài Báo Cáo Thực Tập Ngành Quan Hệ Quốc Tế, Từ Sinh Viên Khá GiỏiList 200 Đề Tài Báo Cáo Thực Tập Ngành Quan Hệ Quốc Tế, Từ Sinh Viên Khá Giỏi
List 200 Đề Tài Báo Cáo Thực Tập Ngành Quan Hệ Quốc Tế, Từ Sinh Viên Khá Giỏi
 
List 200 Đề Tài Báo Cáo Thực Tập Ngành Quản Lý Công, 9 Điểm Từ Sinh Viên Giỏi
List 200 Đề Tài Báo Cáo Thực Tập Ngành Quản Lý Công, 9 Điểm Từ Sinh Viên GiỏiList 200 Đề Tài Báo Cáo Thực Tập Ngành Quản Lý Công, 9 Điểm Từ Sinh Viên Giỏi
List 200 Đề Tài Báo Cáo Thực Tập Ngành Quản Lý Công, 9 Điểm Từ Sinh Viên Giỏi
 

Recently uploaded

chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdf
chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdfchuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdf
chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdfVyTng986513
 
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANG
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANGPHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANG
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANGhoinnhgtctat
 
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIĐiện Lạnh Bách Khoa Hà Nội
 
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...Nguyen Thanh Tu Collection
 
sách sinh học đại cương - Textbook.pdf
sách sinh học đại cương   -   Textbook.pdfsách sinh học đại cương   -   Textbook.pdf
sách sinh học đại cương - Textbook.pdfTrnHoa46
 
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...Nguyen Thanh Tu Collection
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...Nguyen Thanh Tu Collection
 
powerpoint lịch sử đảng cộng sản việt nam.pptx
powerpoint lịch sử đảng cộng sản việt nam.pptxpowerpoint lịch sử đảng cộng sản việt nam.pptx
powerpoint lịch sử đảng cộng sản việt nam.pptxAnAn97022
 
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...Nguyen Thanh Tu Collection
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfChuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfhoangtuansinh1
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
Các điều kiện bảo hiểm trong bảo hiểm hàng hoá
Các điều kiện bảo hiểm trong bảo hiểm hàng hoáCác điều kiện bảo hiểm trong bảo hiểm hàng hoá
Các điều kiện bảo hiểm trong bảo hiểm hàng hoámyvh40253
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
Đề cương môn giải phẫu......................
Đề cương môn giải phẫu......................Đề cương môn giải phẫu......................
Đề cương môn giải phẫu......................TrnHoa46
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
GIÁO TRÌNH  KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIGIÁO TRÌNH  KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIĐiện Lạnh Bách Khoa Hà Nội
 
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docxTHAO316680
 

Recently uploaded (20)

chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdf
chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdfchuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdf
chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdf
 
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANG
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANGPHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANG
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANG
 
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
 
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...
 
sách sinh học đại cương - Textbook.pdf
sách sinh học đại cương   -   Textbook.pdfsách sinh học đại cương   -   Textbook.pdf
sách sinh học đại cương - Textbook.pdf
 
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 7 GLOBAL SUCCESS (2 CỘ...
 
powerpoint lịch sử đảng cộng sản việt nam.pptx
powerpoint lịch sử đảng cộng sản việt nam.pptxpowerpoint lịch sử đảng cộng sản việt nam.pptx
powerpoint lịch sử đảng cộng sản việt nam.pptx
 
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfChuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
 
1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdf
1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdf1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdf
1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdf
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
Các điều kiện bảo hiểm trong bảo hiểm hàng hoá
Các điều kiện bảo hiểm trong bảo hiểm hàng hoáCác điều kiện bảo hiểm trong bảo hiểm hàng hoá
Các điều kiện bảo hiểm trong bảo hiểm hàng hoá
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
Đề cương môn giải phẫu......................
Đề cương môn giải phẫu......................Đề cương môn giải phẫu......................
Đề cương môn giải phẫu......................
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
GIÁO TRÌNH  KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIGIÁO TRÌNH  KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
 
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
 

Luận văn: Nghiên cứu và ứng dụng một số kỹ thuật khai phá dữ liệu với cơ sở dữ liệu ngành thuế Việt Nam

  • 1. NGUYNTHUTRÀCÔNGNGHTHÔNGTIN2004-2006 B GIÁO D C VÀ ðÀO T O TRƯ NG ð I H C BÁCH KHOA HÀ N I ---------------------------------------------- LU N VĂN TH C S KHOA H C NGÀNH: CÔNG NGH THÔNG TIN NGHIÊN C U VÀ ÁP D NG M T S K THU T KHAI PHÁ D LI U V I CƠ S D LI U NGÀNH THU VI T NAM NGUY N THU TRÀ Hà N i 2006 Hà N i 2006
  • 2. 2 M C L C DANH M C CÁC KÝ HI U VÀ CÁC CH VI T T T........................4 DANH M C CÁC B NG ..........................................................................5 DANH M C CÁC HÌNH V .....................................................................6 M ð U .....................................................................................................8 CHƯƠNG 1. KHAI PHÁ D LI U .....................................................12 1.1. T ng quan khai phá d li u.....................................................12 1.1.1 D li u.............................................................................. 14 1.1.2 Ti n x lý d li u .............................................................. 16 1.1.3 Mô hình khai phá d li u .................................................. 18 1.2. Các ch c năng cơ b n khai phá d li u ..................................19 1.2.1 Phân l p (Classification) .................................................. 19 1.2.2 H i qui.............................................................................. 31 1.2.3 Phân nhóm........................................................................ 34 1.2.4 Khai phá lu t k t h p........................................................ 38 CHƯƠNG 2. M T S THU T TOÁN KHAI PHÁ D LI U ..........46 2.1. Thu t toán khai phá lu t k t h p.............................................46 2.1.1 Thu t toán Apriori ............................................................ 46 2.1.2 Thu t toán AprioriTid ....................................................... 49 2.1.3 Thu t toán AprioriHybrid ................................................. 51 2.2. C i ti n hi u qu thu t toán Apriori........................................54 2.2.2 Phương pháp FP-tree ....................................................... 56 2.2.3 Thu t toán PHP ................................................................ 59 2.2.4 Thu t toán PCY................................................................. 63 2.2.5 Thu t toán PCY nhi u ch ng............................................. 65 2.3. Thu t toán phân l p b ng h c cây quy t ñ nh........................67 2.3.1 Các ñ nh nghĩa.................................................................. 68 2.3.2 Thu t toán ID3.................................................................. 69 2.3.3 Các m r ng c a C4.5 ...................................................... 70 CHƯƠNG 3. ÁP D NG KHAI PHÁ TRÊN CSDL NGÀNH THU ..72 3.1. CSDL ngành Thu ..................................................................72 3.2. L a ch n công c khai phá .....................................................73 3.2.1 L a ch n công c .............................................................. 73 3.2.2 Oracle Data Mining (ODM) ............................................. 76 3.2.3 DBMS_DATA_MINING.................................................... 78 3.3. M c tiêu khai thác thông tin c a ngành Thu .........................79
  • 3. 3 3.4. Th nghi m khai phá lu t k t h p ..........................................81 3.5. Phân l p b ng h c cây quy t ñ nh ..........................................91 3.5.1 Phân l p ðTNT d a vào so sánh t su t các năm ............. 93 3.5.2 Phân l p ðTNT theo s li u c a m t năm......................... 96 CHƯƠNG 4. K T LU N....................................................................102 HƯ NG NGHIÊN C U TI P THEO..................................................103 TÀI LI U THAM KH O ......................................................................104 PH L C................................................................................................106
  • 4. 4 DANH M C CÁC KÝ HI U VÀ CÁC CH VI T T T Ký hi u, ch vi t t t Ý nghĩa Association Rules Các lu t k t h p Candidate itemset M t itemset trong t p Ck ñư c s d ng ñ sinh ra các large itemset Ck T p các candidate k-itemset giai ño n th k Confidence ð ch c ch n c a lu t k t h p = support(X∪Y)/support(X) ph n ánh kh năng giao d ch h tr X thì cũng h tr Y CSDL Cơ s d li u DM Data mining – Khai phá d li u DW Data warehouse – Kho d li u ðTNT ð i tư ng n p thu , ch t i các cá nhân ho c t ch c n p thu Frequent/large itemset M t itemset có ñ h tr (support) >= ngư ng ñ h tr t i thi u ID Identifier Item M t ph n t c a itemset Itemset T p c a các item k-itemset M t itemset có ñ dài k Lk T p các Large itemset giai ño n th k ODM Oracle Data Mining – 1 công c khai phá d li u TID Unique Transaction Identifier Transaction Giao d ch
  • 5. 5 DANH M C CÁC B NG B ng 1.1: CSDL ñơn gi n g m các ví d hu n luy n ....................................25 B ng 1.2 Mô hình CSDL giao d ch ñơn gi n .................................................39 B ng 2.1 Cơ s d li u giao d ch T ...............................................................56 B ng 2.2 B ng các s n ph m khai phá d li u ...............................................74
  • 6. 6 DANH M C CÁC HÌNH V Hình 1.1 Quá trình khám phá tri th c.............................................................14 Hình 1.2 Khuôn d ng ñơn b n ghi và ña b n ghi ...........................................16 Hình 1.3: Cây quy t ñ nh ñơn gi n v i các tests trên các thu c tính X và Y.22 Hình 1.4: S phân l p m t m u m i d a trên mô hình cây quy t ñ nh .........23 Hình 1.5 Cây quy t ñ nh cu i cùng cho CSDL T ñã nêu trong b ng 1.1.......29 Hình 1.6 Cây quy t ñ nh d ng gi code cho CSDL T (b ng 1.1)...............29 Hình 1.7 H i qui tuy n tính ............................................................................32 Hình 1.8 G p nhóm theo phương pháp k-means (ði m ñánh d u + là tâm) 36 Hình 1.9 Phân ho ch vun ñ ng ho c tách d n...............................................37 Hình 1.10 Bư c l p ñ u tiên c a thu t toán Apriori cho CSDL DB ..............41 Hình 1.11 L n l p th 2 c a thu t toán Apriori cho CSDL DB .....................42 Hình 1.12 L n l p th 3 c a thu t toán Apriori cho CSDL DB .....................42 Hình 2.1 Thu t toán Apriori............................................................................46 Hình 2.2 Thu t toán AprioriTid......................................................................50 Hình 2.3 Ví d ................................................................................................51 Hình 2.4: Th i gian th c hi n cho m i l n duy t c a Apriori và AprioriTid 52 Hình 2.5: M t ví d c a cây phân c p khái ni m cho khai phá các frequent itemsets nhi u m c..........................................................................................55 Hình 2.6: FP-tree cho CSDL T trong b ng 2.1...............................................57 Hình 2.7 Thu t toán PHP ................................................................................62 Hình 2.8 B nh v i 2 l n duy t c a thu t toán PCY ..................................63 Hình 2.9 S d ng b nh cho các b ng băm nhi u ch ng.............................66 Hình 3.1 Công s c c n cho m i giai ño n khai phá d li u..........................82 Hình 3.2 Các bư c khai phá lu t k t h p trên CSDL ngành Thu ................83 Hình 3.3 Nhánh cây phân c p ngành ngh ....................................................85 Hình 3.4 Các lu t khai phá t ODM (ñ dài lu t = 2)...................................87
  • 7. 7 Hình 3.5 Các lu t khai phá t ODM (ñ dài lu t = 3)...................................89 Hình 3.6 Cây quy t ñ nh dùng ODM – Bài toán phân tích t su t................95 Hình 3.7 Cây quy t ñ nh dùng See5 – Bài toán phân tích t su t .................96 Hình 3.8 Cây quy t ñ nh dùng ODM – Bài toán xét s li u m t năm...........99 Hình 3.9 Cây quy t ñ nh dùng See5 – Bài toán phân tích trong năm..........100
  • 8. 8 M ð U Th i ñ i phát tri n m nh c a Internet, Intranet, Data warehouse, cùng v i s phát tri n nhanh v công ngh lưu tr ñã t o ñi u ki n cho các doanh nghi p, các t ch c thu th p và s h u ñư c kh i lư ng thông tin kh ng l . Hàng tri u CSDL ñã ñư c dùng trong qu n tr kinh doanh, qu n lý chính ph , qu n lý d li u khoa h c và nhi u ng d ng khác. V i kh năng h tr m nh c a các H qu n tr CSDL, các CSDL này càng l n lên nhanh chóng. Câu “S l n m nh c a các CSDL d n ñ n s c n thi t ph i có các k thu t và các công c m i ñ th c hi n chuy n ñ i t ñ ng d li u m t cách thông minh thành thông tin và tri th c h u ích” [10] ñã tr thành ñ t v n ñ c a nhi u bài vi t v khai phá thông tin và tri th c t các CSDL l n. Công tác trong ngành Thu , nơi Công ngh thông tin ñư c áp d ng vào qu n lý Thu t nh ng năm 1986, CSDL thông tin liên quan ñ n các lĩnh v c qu n lý Thu là m t CSDL l n và ch c ch n ti m n nhi u thông tin quý báu. V i mong mu n bư c ñ u áp d ng k thu t khai phá d li u trên CSDL ngành Thu , lu n văn ñã t p trung nghiên c u v các k thu t khai phá d li u và ti n hành khai phá th nghi m trên CSDL ngành Thu . Kh năng m r ng tri th c có ích n trong d li u ñ ñưa ra nh ng hành ñ ng c n thi t d a trên tri th c ñó ñang tr nên ngày càng quan tr ng trong th gi i c nh tranh hi n nay. Toàn b quá trình dùng các phương pháp lu n d a trên tính toán, bao g m các k thu t m i ñ phát hi n ra tri th c t d li u ñư c g i là khai phá d li u (data mining). [9] Khai phá d li u là s tìm ki m thông tin m i, có giá tr và không t m thư ng trong m t kh i lư ng d li u l n. Nó là s ph i h p n l c c a con ngư i và máy tính. Các k t qu t t nh t nh n ñư c b ng vi c cân b ng gi a
  • 9. 9 tri th c c a các chuyên gia con ngư i trong vi c mô t các v n ñ và m c ñích v i kh năng tìm ki m c a máy tính. Hai m c ñích chính c a khai phá d li u là ñ d ñoán (prediction) và mô t (description). D ñoán bao g m vi c dùng m t vài bi n ho c trư ng trong t p d li u ñ d ñoán các giá tr tương lai ho c chưa bi t c a các bi n c n quan tâm. Còn mô t t p trung vào vi c tìm ra các m u mô t d li u mà con ngư i có th hi u ñư c/ biên d ch ñư c. Có th ñưa các ho t ñ ng khai phá d li u vào m t trong hai lo i sau:  Khai phá d li u d báo, t o ra mô hình c a h th ng ñư c mô t b i t p d li u cho trư c, ho c  Khai phá d li u mô t , v i vi c t o ra thông tin m i, không t m thư ng d a trên t p d li u có s n. M t s ch c năng khai phá d li u chính như:  Mô t khái ni m: Mô t ñ c ñi m và phân bi t. Tìm ra các ñ c ñi m khái quát hoá, t ng k t, các ñ c ñi m khác nhau trong d li u.  K t h p: xem xét v tương quan và quan h nhân qu .  Phân l p và d báo (Classification and Prediction): Xác ñ nh mô hình mô t các l p riêng bi t và dùng cho d ñoán tương lai.  Phân tích nhóm (Cluster analysis): Chưa bi t nhãn l p, th c hi n nhóm d li u thành các l p m i d a trên nguyên t c c c ñ i hoá s tương t trong cùng l p và c c ti u hoá s khác tương t gi a các l p khác nhau.  Phân tích nhi u (Outlier analysis): H u ích trong vi c phát hi n l i, phân tích các s ki n hi m.  Phân tích xu hư ng và s phát tri n Khai phá d li u là m t trong nh ng lĩnh v c phát tri n nhanh nh t trong công nghi p máy tính. T ch là m t mi n quan tâm nh trong khoa h c
  • 10. 10 máy tính và th ng kê, nó ñã nhanh chóng m r ng thành m t lĩnh v c/ngành c a riêng nó. M t trong nh ng l n m nh nh t c a khai phá d li u là s nh hư ng trong ph m vi r ng c a các phương pháp lu n và các k thu t ñư c ng d ng ñ i v i m t lo t các bài toán, các lĩnh v c. Trong kinh doanh, khai phá d li u có th ñư c dùng ñ khám phá ra nh ng xu hư ng mua s m m i, k ho ch cho các chi n lư c ñ u tư, và phát hi n nh ng s tiêu dùng không chính ñáng t h th ng k toán. Nó có th giúp c i ti n các chi n d ch marketing ñ mang l i nhi u h tr và quan tâm hơn t i khách hàng. Các k thu t khai phá d li u có th ñư c áp d ng ñ i v i các bài toán thi t k l i quy trình kinh doanh, trong ñó m c ñích là ñ hi u ñư c các tương tác và quan h trong thông l kinh doanh và các t ch c kinh doanh. Nhi u ñơn v thi hành lu t, các ñơn v ñi u tra ñ c bi t, có nhi m v tìm ra các hành ñ ng không trung th c và phát hi n ra các xu hư ng ph m t i, cũng ñã s d ng khai phá d li u m t cách thành công. Các k thu t khai phá d li u cũng có th ñư c dùng trong các t ch c tình báo nơi lưu gi nhi u ngu n d li u l n liên quan ñ n các ho t ñ ng, các v n ñ v an ninh qu c gia. V i m c ñích nghiên c u m t s phương pháp khai phá d li u và th nghi m khai phá trên CSDL ngành Thu , lu n văn ñư c trình bày v i các ph n sau: Chương 1 – Khai phá d li u: Tìm hi u các ch c năng khai phá d li u. Chương 2 – M t s thu t toán khai phá d li u. Nghiên c u trên hai ki u khai phá: Khai phá lu t k t h p - m t k thu t thông d ng trong h c không giám sát. Phân l p b ng h c cây quy t ñ nh - k thu t h c có giám sát. Chương 3 – Áp d ng khai phá trên CSDL ngành Thu : Th nghi m khai phá lu t k t h p và phân l p trên CSDL ngành Thu
  • 11. 11 Chương 4 – K t lu n và nh ng k t qu ñ t ñư c Cu i cùng là m t s hư ng nghiên c u ti p theo. Em xin chân thành c m ơn PGS. TS Nguy n Ng c Bình ñã hư ng d n và cho em nh ng ý ki n quý báu, chân thành c m ơn các th y cô giáo c a trư ng ð i h c Bách khoa Hà N i ñã trang b ki n th c giúp em hoàn thành lu n văn này.
  • 12. 12 CHƯƠNG 1. KHAI PHÁ D LI U 1.1. T ng quan khai phá d li u Khai phá d li u có ngu n g c t các phương pháp riêng bi t, 2 d ng quan tr ng nh t là th ng kê và h c máy. Th ng kê có ngu n g c t toán h c và do ñó nh n m nh ñ n ñ chính xác toán h c, mong mu n thi t l p cái mà có th nh n ra trên n n toán h c trư c khi ki m th nó trong th c t . Ngư c l i, h c máy có ngu n g c r t nhi u trong th c ti n tính toán. ði u này d n ñ n s hư ng th c ti n, s n sàng ki m th ñ bi t nó th c hi n t t th nào mà không c n ch m t ch ng minh chính th c. [9] Có th có ñ nh nghĩa v Khai phá d li u như sau: Khai phá d li u là quá trình phát hi n các mô hình, các t ng k t khác nhau và các giá tr ñư c l y t t p d li u cho trư c. [9] Hay, Khai phá d li u là s thăm dò và phân tích lư ng d li u l n ñ khám phá t d li u ra các m u h p l , m i l , có ích và có th hi u ñư c [14]. H p l là các m u ñ m b o tính t ng quát, m i l là m u chưa ñư c bi t trư c ñó, có ích là có th d a vào m u ñó ñưa ra các hành ñ ng phù h p, hi u ñư c là có th biên d ch và hi u th u ñáo các m u. Các k năng phân tích c a con ngư i là không ñ y ñ do: Kích thư c và chi u c a d li u; t c ñ tăng trư ng c a d li u là r t l n. Thêm vào ñó là nh ng ñáp ng m nh m c a k thu t v kh năng: thu th p d li u, lưu tr , năng l c tính toán, ph n m m, s thành th o v chuyên môn. Ngoài ra còn có môi trư ng c nh tranh v d ch v , ch không ch c nh tranh v giá (ñ i v i Ngân hàng, công ty ñi n tho i, khách s n, công ty cho thuê …) v i câu “Bí quy t c a s thành công là bi t nh ng gì mà không ai khác bi t” (Aristotle Onassis [14]). T t c nh ng ñi u ñó chính là nh ng nguyên nhân thúc ñ y Khai phá d li u phát tri n.
  • 13. 13 Quá trình khám phá tri th c: Trư c tiên, phân bi t gi a các thu t ng “mô hình (model)” và “m u (pattern)” dùng trong khai phá d li u. Mô hình là m t c u trúc “quy mô l n”, có th là t ng k t các quan h qua nhi u trư ng h p (case) (ñôi khi là t t c các trư ng h p), trong khi m u là m t c u trúc c c b , tho mãn b i m t s ít trư ng h p ho c trong m t mi n nh c a không gian d li u. Trong khai phá d li u, m t m u ñơn gi n là m t mô hình c c b . Quá trình khám phá tri th c ti n hành theo các bư c sau: 1. Xác ñ nh bài toán nghi p v : Trư c tiên ph i tìm hi u lĩnh v c c a ng d ng nghi p v ; Tìm hi u các tri th c liên quan và các m c ñích c a ng d ng. 2. Khai phá d li u - L a ch n d li u: Xác ñ nh các t p d li u ñích và các trư ng liên quan - Làm s ch d li u: Xoá b nhi u, ti n x lý. Ph n vi c này có th chi m t i 60% công s c. - Gi m b t d li u và chuy n ñ i d li u: Tìm ra nh ng ñ c trưng h u d ng, gi m b t các chi u ho c các bi n, bi u di n l i các ñ i lư ng b t bi n - L a ch n ch c năng khai phá d li u: T ng k t, phân l p, H i qui, k t h p, phân nhóm. - L a ch n thu t toán khai phá. - Th c hi n khai phá d li u (Data Mining): Tìm ki m các m u quan tâm - ðánh giá các m u và bi u di n tri th c
  • 14. 14 Hình 1.1 Quá trình khám phá tri th c 3. Áp d ng khám phá tri th c 4. ðánh giá và ño ñ c 5. Tri n khai và tích h p vào các qui trình nghi p v 1.1.1 D li u Do có nhi u ki u d li u, các CSDL s d ng trong các ng d ng cũng khác nhau, nên ngư i dùng luôn mong ñ i m t h th ng khai phá d li u có th ñi u khi n ñư c t t c các lo i d li u. Th c t CSDL có s n thư ng là CSDL quan h và h th ng khai phá d li u cũng th c hi n hi u qu vi c khai phá tri th c trên d li u quan h . V i nh ng CSDL c a ng d ng ch a các ki u d li u ph c t p, như d li u hypertext và multimedia, d li u t m và không gian (spatial), d li u k th a (legacy)… thư ng ph i có các h th ng khai phá d li u riêng bi t xây d ng ñ khai phá cho các ki u d li u c th .
  • 15. 15 D li u ñư c khai phá có th là d li u có c u trúc, ho c không có c u trúc. M i b n ghi d li u ñư c coi như m t trư ng h p ho c m t ví d (case/example). Phân bi t hai ki u thu c tính: phân lo i (categorical) và s (numerical). Các thu c tính ki u phân lo i là nh ng thu c tính có các giá tr thu c vào m t s lư ng nh các phân lo i ho c các l p riêng r và gi a chúng không có th t n nào. N u ch có 2 giá tr , ví d là yes và no, ho c male và female, thu c tính ñư c coi là binary. N u có hơn 2 giá tr , ví d , nh , v a, l n, r t l n, thu c tính ñư c coi là ña l p (multiclass). Các thu c tính s là nh ng thu c tính l y các giá tr liên t c, ví d , thu nh p hàng năm, ho c tu i. Thu nh p hàng năm ho c tu i có th v lý thuy t là b t kỳ m t giá tr nào t 0 t i vô h n, m c dù m i giá tr thư ng xu t hi n phù h p v i th c t . Các thu c tính s có th ñư c bi n ñ i thành categorical: Ví d , thu nh p hàng năm có th ñư c chia thành các lo i: th p, trung bình, cao. D li u không có c u trúc có th áp d ng các thu t toán khai phá d li u thư ng là d li u ki u Text. Khuôn d ng b ng c a d li u có th thu c hai lo i:  D li u d ng ñơn b n ghi (còn g i là ki u không giao d ch), ñây là các b ng d li u quan h thông thư ng.  D li u d ng ña b n ghi (còn g i là ki u giao d ch), ñư c dùng cho d li u v i nhi u thu c tính. d ng ñơn b n ghi (ki u không giao d ch), m i b n ghi ñư c lưu tr như 1 dòng trong b ng. D li u ñơn b n ghi không ñòi h i cung c p khoá ñ xác ñ nh duy nh t m i b n ghi. Nhưng, khoá là c n cho các trư ng h p k t h p (associate) ñ có k t qu cho h c có giám sát.
  • 16. 16 Trong d ng ña b n ghi (ki u giao d ch), m i trư ng h p (case) ñư c lưu trong nhi u b n ghi trong m t b ng v i các c t: dãy s ñ nh danh, tên thu c tính, giá tr . Hình 1.2 Khuôn d ng ñơn b n ghi và ña b n ghi 1.1.2 Ti n x lý d li u D li u ñư c ch n l c s ph i qua bư c ti n x lý trư c khi ti n hành khai phá phát hi n tri th c. Bư c thu th p và ti n x lý d li u là bư c r t ph c t p. ð m t gi i thu t DM th c hi n trên toàn b CSDL s r t c ng k nh, kém hi u qu . Trong quá trình khai phá d li u, nhi u khi ph i th c hi n liên k t/tích h p d li u t r t nhi u ngu n khác nhau. Các h th ng s n có ñư c thi t k v i nh ng m c ñích và ñ i tư ng ph c v khác nhau, khi t p h p d li u t nh ng h th ng này ñ ph c v khai phá d li u, hi n tư ng dư th a là r t ph bi n, ngoài ra còn có th x y ra xung ñ t gây m y d li u, d li u không ñ ng nh t, không chính xác. Rõ ràng yêu c u ch n l c và làm s ch d li u là r t c n thi t. N u ñ u vào c a quá trình khai phá là d li u trong DW thì s r t thu n ti n, vì d li u này ñã ñư c làm s ch, nh t quán và có tính ch t hư ng ch ñ .
  • 17. 17 Tuy nhiên nhi u khi v n ph i có thêm m t s bư c ti n x lý ñ ñưa d li u v ñúng d ng c n thi t. Ngoài m t s x lý thông thư ng như: bi n ñ i, t p h p d li u t nhi u ngu n v m t kho chung, x lý ñ ñ m b o nh t quán d li u (kh các trư ng h p l p, th ng nh t cách ký hi u, chuy n ñ i v khuôn d ng th ng nh t (ñơn v ti n t , ngày tháng..)). M t s x lý ñ c bi t c n chú ý trong bư c ti n x lý d li u: X lý v i d li u thi u (missing data): Thư ng thì khi khai phá d li u không ñòi h i NSD ph i x lý các giá tr thi u b ng cách th c ñ c bi t nào. Khi khai phá, thu t toán khai phá s b qua các giá tr thi u. Tuy nhiên trong m t vài trư ng h p c n chú ý ñ ñ m b o thu t toán phân bi t ñư c gi a giá tr có nghĩa (“0”) v i giá tr tr ng. (tham kh o trong [11]). Các giá tr gây nhi u (Outliers): M t outlier là m t giá tr xa bên ngoài c a mi n thông thư ng trong t p h p d li u, là giá tr chênh l ch v i chu n v ý nghĩa. S có m t c a outliers có th có nh hư ng ñáng k trong các mô hình khai phá d li u. Outliers nh hư ng ñ n khai phá d li u trong bư c ti n x lý d li u ho c là khi nó ñư c th c hi n b i NSD ho c t ñ ng trong khi xây d ng mô hình. Binning: M t vài thu t toán khai phá d li u có th có l i nh vi c binning v i c hai lo i d li u number và categorical. Các thu t toán Naive Bayes, Adaptive Bayes Network, Clustering, Attribute Importance, và Association Rules có th có l i t vi c binning. Binning nghĩa là nhóm các giá tr liên quan v i nhau, như v y gi m s lư ng các giá tr riêng bi t c a m t thu c tính. Có ít hơn các giá tr riêng bi t d n ñ n mô hình g n nh và xây d ng ñư c nhanh hơn, nhưng nó cũng có th
  • 18. 18 d n ñ n vi c m t ñi ñ chính xác [11] (Các phương pháp tính toán ranh gi i bin [11]). 1.1.3 Mô hình khai phá d li u Mô hình khai phá d li u là m t mô t v m t khía c nh c th c a m t t p d li u. Nó t o ra các giá tr ñ u ra cho t p các giá tr ñ u vào. Ví d : Mô hình H i qui tuy n tính, mô hình phân l p, mô hình phân nhóm. M t mô hình khai phá d li u có th ñư c mô t 2 m c:  M c ch c năng (Function level): Mô t mô hình b ng nh ng thu t ng v d ñ nh s d ng. Ví d : Phân l p, phân nhóm.  M c bi u di n (representation level): Bi u di n c th m t mô hình. Ví d : Mô hình log-linear, cây phân l p, phương pháp láng gi ng g n nh t. Các mô hình khai phá d li u d a trên 2 ki u h c: có giám sát và không giám sát (ñôi khi ñư c nói ñ n như là h c tr c ti p và không tr c ti p – directed and undirected learning) [11]. Các hàm h c có giám sát (Supervised learning functions) ñư c s d ng ñ d ñoán giá tr . Các hàm h c không giám sát ñư c dùng ñ tìm ra c u trúc bên trong, các quan h ho c tính gi ng nhau trong n i dung d li u nhưng không có l p hay nhãn nào ñư c gán ưu tiên. Ví d c a các thu t toán h c không giám sát g m phân nhóm k-mean (k-mean clustering) và các lu t k t h p Apriori. M t ví d c a thu t toán h c có giám sát bao g m Naive Bayes cho phân l p (classification). Tương ng có 2 lo i mô hình khai phá d li u:  Các mô hình d báo (h c có giám sát):
  • 19. 19 • Phân l p: nhóm các items thành các l p riêng bi t và d ñoán m t item s thu c vào l p nào. • H i qui (Regression): x p x hàm và d báo các giá tr liên t c • ð quan tr ng c a thu c tính: xác ñ nh các thu c tính là quan tr ng nh t trong các k t qu d báo  Các mô hình mô t (h c không giám sát): • Phân nhóm (Clustering): Tìm các nhóm t nhiên trong d li u • Các mô hình k t h p (Association models): Phân tích “gi hàng” • Trích ch n ñ c trưng (Feature extraction): T o các thu c tính (ñ c trưng) m i như là k t h p c a các thu c tính ban ñ u 1.2. Các ch c năng cơ b n khai phá d li u 1.2.1 Phân l p (Classification) Trong bài toán phân l p, ta có d li u l ch s (các ví d ñư c gán nhãn - thu c l p nào) và các d li u m i chưa ñư c gán nhãn. M i ví d ñư c gán nhãn bao g m nhi u thu c tính d báo và m t thu c tính ñích (bi n ph thu c). Giá tr c a thu c tính ñích chính là nhãn c a l p. Các ví d không ñư c gán nhãn ch bao g m các thu c tính d báo. M c ñích c a vi c phân l p là xây d ng mô hình d a vào d li u l ch s ñ d báo chính xác nhãn (l p) c a các ví d không gán nhãn. [11] Nhi m v phân l p b t ñ u v i vi c xây d ng d li u (d li u hu n luy n) có các giá tr ñích (nhãn l p) ñã bi t. Các thu t toán phân l p khác nhau dùng các k thu t khác nhau cho vi c tìm các quan h gi a các giá tr c a thu c tính d báo và các giá tr c a thu c tính ñích trong d li u hu n luy n. Nh ng quan h này ñư c t ng k t trong mô hình, sau ñó ñư c dùng
  • 20. 20 cho các trư ng h p m i v i các giá tr ñích chưa bi t ñ d ñoán các giá tr ñích. Mô hình phân l p có th ñư c dùng trên b d li u ki m th /d li u ñánh giá v i m c ñích so sánh các giá tr d báo v i các câu tr l i ñã bi t. K thu t này ñư c g i là ki m tra mô hình, nó ño ñ chính xác d báo c a mô hình. Áp d ng mô hình phân l p ñ i v i d li u m i ñư c g i là s d ng mô hình, và d li u ñư c g i là d li u s d ng hay d li u trung tâm (apply data or scoring data). Vi c s d ng d li u thư ng ñư c g i là ‘scoring the data’. S phân l p ñư c dùng trong phân ño n khách hàng, phân tích tín d ng, và nhi u ng d ng khác. Ví d , công ty th tín d ng mu n d báo nh ng khách hàng nào s không tr ñúng h n trên các chi tr c a h . M i khách hàng tương ng v i m t trư ng h p; d li u cho m i trư ng h p có th bao g m m t s thu c tính mô t thói quen tiêu dùng c a khách hàng, thu nh p, các thu c tính nhân kh u h c,… ðây là nh ng thu c tính d báo. Thu c tính ñích ch ra có hay không ngư i khách hàng ñã v n /không tr ñúng h n; như v y, có hai l p có kh năng, tương ng v i v n ho c không. D li u hu n luy n s ñư c dùng ñ xây d ng mô hình dùng cho d báo các trư ng h p m i sau này (d báo khách hàng m i có kh năng chi tr n không). Chi phí (Costs): Trong bài toán phân l p, có th c n xác ñ nh chi phí bao hàm trong vi c t o ra m t quy t ñ nh sai l m. Vi c này là quan tr ng và c n thi t khi có chênh l ch chi phí l n gi a các phân l p sai (misclassification). Ví d , bài toán d báo có hay không m t ngư i s tr l i v i thư qu ng cáo. ðích có 2 phân lo i: YES (khách hàng tr l i) và NO (khách hàng không tr l i). Gi s tr l i tích c c ñ i v i qu ng cáo sinh ra $500 và nó tr giá $5 ñ g i thư. N u
  • 21. DOWNLOAD ĐỂ XEM ĐẦY ĐỦ NỘI DUNG MÃ TÀI LIỆU: 52486 DOWNLOAD: + Link tải: tailieumau.vn Hoặc : + ZALO: 0932091562