SlideShare a Scribd company logo
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 1 Nguy n Trung Hi u - 0112216
I C M N
Chúng em xin g i l i c m n chân thành nh t n th y H B o Qu c, ng i ã
n tình h ng d n, giúp chúng em trong su t th i gian th c hi n lu n v n này.
Chúng con c m n Cha, M và gia ình, nh ng ng i ã d y d , khuy n khích,
ng viên chúng con trong nh ng lúc khó kh n, t o m i u ki n cho chúng con
nghiên c u h c t p.
Chúng em c m n các th y, cô trong khoa Công Ngh Thông Tin ã dìu d t,
gi ng d y chúng em, giúp chúng em có nh ng ki n th c quý báu trong nh ng n m h c
qua.
m n ch Lê Thúy Ng c và các b n ã t n tình óng góp ý ki n cho lu n v n
a chúng tôi.
c dù r t c g ng nh ng lu n v n c a chúng em không tránh kh i sai sót,
mong nh n c s thông c m và góp ý c a th y cô và các b n.
Tháng 7 n m 2005
Sinh viên
Nguy n Th Thanh Hà – Nguy n Trung Hi u
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 2 Nguy n Trung Hi u - 0112216
NH N XÉT C A GIÁO VIÊN H NG D N
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………....
……………………………………………………………………………………
Ngày…… tháng……n m 2005
Ký tên
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 3 Nguy n Trung Hi u - 0112216
NH N XÉT C A GIÁO VIÊN PH N BI N
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………....
……………………………………………………………………………………
Ngày…… tháng……n m 2005
Ký tên
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 4 Nguy n Trung Hi u - 0112216
C L C
DANH SÁCH CÁC B NG...................................................................................8
DANH SÁCH CÁC HÌNH V ..............................................................................8
Ph n 1 : TÌM HI U LÝ THUY T..........................................................................11
Ch ng 1: T NG QUAN V TÌM KI M THÔNG TIN...................................11
1. Gi i thi u v tìm ki m thông tin......................................................................11
1.1 Khái ni m v tìm ki m thông tin................................................................11
1.2 M t s v n trong vi c tìm ki m thông tin: .............................................11
2. H tìm ki m thông tin – IRS............................................................................12
3. Các thành ph n c a m t h tìm ki m thông tin [1.1]........................................13
4. So sánh IRS v i các h th ng thông tin khác ...................................................14
4.1 H qu n tr c s d li u (DBMS)..............................................................15
4.2 H qu n lý thông tin (IMS) ........................................................................15
4.3 H h tr ra quy t nh (DSS)....................................................................16
4.4 H tr l i câu h i (QAS) ............................................................................16
4.5 So sánh IRS v i các h th ng thông tin khác..............................................17
Ch ng 2: XÂY D NG M T H TH NG TÌM KI M THÔNG TIN............18
1. Ki n trúc c a h tìm ki m thông tin. [1.3]........................................................18
2. M t s mô hình xây d ng m t h tìm ki m thông tin [1.2]..........................19
2.1 Mô hình không gian vector ........................................................................19
2.2 Tìm ki m Boolean .....................................................................................21
2.3 Tìm ki m Boolean m r ng .......................................................................22
2.4 M r ng trong vi c thêm vào tr ng s c a câu h i.....................................23
2.4.1 M r ng cho s t tu ý ......................................................................23
2.4.2 Thêm toán t t ng ..........................................................................24
2.5 Mô hình xác su t........................................................................................24
2.6 ánh giá chung v các mô hình .................................................................25
3. Các b c xây d ng m t h tìm ki m thông tin. [3.2]...................................25
3.1 Tách t t ng cho t p các tài li u............................................................25
3.2 L p ch m c cho tài li u.............................................................................25
3.3 Tìm ki m ...................................................................................................26
3.4 S p x p các tài li u tr v (Ranking)..........................................................26
4. Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki m thông tin ti ng
Vi t .....................................................................................................................26
4.1 Khó kh n trong vi c tách t ti ng Vi t.......................................................27
4.2 V n b ng mã ti ng Vi t.........................................................................27
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 5 Nguy n Trung Hi u - 0112216
4.3 Các khó kh n khác.....................................................................................27
Ch ng 3: TÁCH T T NG........................................................................29
1. Tách t trong Ti ng Anh .................................................................................29
2. Tách t trong Ti ng Vi t .................................................................................29
2.1 M t s c m chính v t ti ng Vi t [2.2]..............................................29
2.1.1 Ti ng...................................................................................................29
2.1.2 T .......................................................................................................30
2.2 Tách t t ng ti ng Vi t .........................................................................30
3. Các ph ng pháp tách t ti ng Vi t.................................................................30
3.1 fnTBL (Fast Transformation-based learning) [3.1].....................................30
3.1.1 Mô t ...................................................................................................30
3.1.2 Áp d ng tách t ti ng Vi t...................................................................31
3.2 Longest Matching [1.4]..............................................................................37
3.3 K t h p gi a fnTBL và Longest Matching.................................................37
Ch ng 4: L P CH M C ..................................................................................38
1. Khái quát v h th ng l p ch m c...................................................................38
2. Ph ng pháp l p ch m c [1.1]........................................................................38
2.1 Xác nh các t ch m c.............................................................................38
2.2 Các ph ng pháp tính tr ng s c a t ........................................................40
2.2.1 T n s tài li u ngh ch o....................................................................40
2.2.2 nhi u tín hi u (The Signal – Noise Ratio) ......................................40
2.2.3 Giá tr phân bi t t (The Term Discrimination Value) .........................42
2.3 L p ch m c t ng cho tài li u ti ng Anh................................................43
3. L p ch m c cho tài li u ti ng Vi t ..................................................................45
4. T p tin ngh ch o tài li u ...............................................................................46
4.1 Phân bi t gi a t p tin ngh ch o và t p tin tr c ti p..................................46
4.2 T i sao s d ng t p tin ngh ch o l p ch m c .....................................47
Ph n 2 : PHÂN TÍCH VÀ THI T K ....................................................................49
Ch ng 5: PHÂN TÍCH.......................................................................................49
1. S UseCase h th ng..................................................................................49
2. S L p........................................................................................................51
2.1 S các l p th hi n................................................................................51
2.2 S các l p x lý ....................................................................................52
3. Tách t ............................................................................................................53
3.1 S UseCase...........................................................................................53
3.2 S Tu n t ............................................................................................53
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 6 Nguy n Trung Hi u - 0112216
3.3 S C ng tác...........................................................................................54
3.4 S L p..................................................................................................54
4. L p ch m c.....................................................................................................55
4.1 S UseCase...........................................................................................55
4.2 S Tu n t ............................................................................................56
4.2.1 T o m i ch m c .................................................................................56
4.2.2 C p nh t ch m c.................................................................................57
4.3 S C ng tác...........................................................................................58
4.3.1 T o m i ch m c .................................................................................58
4.3.2 C p nh t ch m c.................................................................................59
4.4 S L p..................................................................................................60
5. Tìm ki m.........................................................................................................61
5.1 S UseCase...........................................................................................61
5.2 S Tu n t ............................................................................................61
5.3 S C ng tác...........................................................................................62
5.4 S L p..................................................................................................63
Ch ng 6: THI T K VÀ CÀI T..................................................................64
1. C u trúc l u tr d li u....................................................................................64
1.1 T p tin l u n i dung tài li u.......................................................................64
1.1.1 C u trúc DTD / XSD...........................................................................64
1.1.2 Tài li u XML ......................................................................................66
1.2 T p tin sau khi tách t tài li u ....................................................................67
1.2.1 C u trúc DTD / XSD...........................................................................67
1.2.2 Tài li u XML ......................................................................................68
1.3 T p tin ch a các t không th hi n n i dung c a v n b n (stop list)...........70
1.3.1 C u trúc DTD / XSD...........................................................................70
1.3.2 Tài li u XML ......................................................................................71
1.4 T p tin ch m c o ( Inverted ). ................................................................71
1.4.1 C u trúc DTD / XSD...........................................................................71
1.4.2 Tài li u XML ......................................................................................73
1.5 T p tin sau khi tách t câu h i....................................................................74
1.5.1 C u trúc DTD / XSD...........................................................................74
1.5.2 Tài li u XML ......................................................................................75
1.6 T p tin ch a các t c a câu h i sau khi lo i b các t trong danh sách
StopList ...........................................................................................................76
1.6.1 C u trúc DTD / XSD...........................................................................76
1.6.2 Tài li u XML ......................................................................................77
1.7 T p tin ch a các t trong câu h i và các tài li u liên quan..........................77
1.7.1 C u trúc DTD / XSD...........................................................................77
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 7 Nguy n Trung Hi u - 0112216
1.7.2 Tài li u XML ......................................................................................79
1.8 T p tin ch a t ng quan gi a câu h i và các tài li u.............................80
1.8.1 C u trúc DTD / XSD...........................................................................80
1.8.2 Tài li u XML ......................................................................................82
2. Chi ti t các l p i t ng ................................................................................83
2.1 Các l p trong quá trình tách t ...................................................................83
2.1.1 S các l p......................................................................................83
2.1.2 L p tách t ghép..................................................................................83
2.1.3 L p tách t ..........................................................................................86
2.1.4 L p giao di n tách t ...........................................................................89
2.2 Các l p trong quá trình l p ch m c ...........................................................91
2.2.1 S các l p.......................................................................................91
2.2.2 L p l p ch m c...................................................................................92
2.2.3 L p giao di n t o m i ch m c ............................................................94
2.2.4 L p giao di n c p nh t ch m c...........................................................96
2.3 Các l p trong quá trình tìm ki m................................................................98
2.3.1 S các l p.......................................................................................98
2.3.2 L p tìm ki m.......................................................................................99
2.3.3 L p giao di n tìm ki m .....................................................................105
3. M t s màn hình giao di n khác ....................................................................109
3.1 Màn hình chính c a ch ng trình.............................................................109
3.2 Màn hình tìm ki m nhi u câu h i.............................................................110
3.3 Màn hình tìm ki m chính ( giao di n Web)..............................................112
3.4 Màn hình tr v các tài li u tìm c ( giao di n Web) ............................113
3.5 Màn hình chi ti t c a m t tài li u ( giao di n Web)..................................114
Ph n 3 : T NG K T..............................................................................................115
1. Ch ng trình th nghi m...............................................................................115
2. ánh giá k t qu t c .............................................................................115
3. H ng phát tri n............................................................................................116
TÀI LI U THAM KH O .................................................................................117
1. Sách...............................................................................................................117
2. Lu n v n........................................................................................................117
3. Website .........................................................................................................117
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 8 Nguy n Trung Hi u - 0112216
DANH SÁCH CÁC B NG
ng 1-1 So sánh IRS v i các h th ng thông tin khác ..........................................................17
ng 4-1 Cách t p tin ngh ch o l u tr ...............................................................................47
ng 4-2 Cách t p tin tr c ti p l u tr ...................................................................................47
ng 4-3 Thêm m t tài li u m i vào t p tin ngh ch o.........................................................48
ng 5-1 Danh sách các Actor...............................................................................................50
ng 5-2 Danh sách các UseCase..........................................................................................50
DANH SÁCH CÁC HÌNH V
Hình 1-1 Môi tr ng c a h tìm ki m thông tin.....................................................................13
Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin..........................................14
Hình 2-1 H tìm ki m thông tin tiêu bi u...............................................................................18
Hình 3-1 Quá trình h c..........................................................................................................35
Hình 3-2 Giai n xác nh t cho tài li u m i.....................................................................36
Hình 4-1 Các t c s p theo th t ....................................................................................39
Hình 4-2 Quá trình ch n t làm ch m c................................................................................45
Hình 5-1 S Use-case c a h th ng...................................................................................49
Hình 5-2 S các l p th hi n.............................................................................................51
Hình 5-3 S các l p x lý.................................................................................................52
Hình 5-4 S Use-case tách t ............................................................................................53
Hình 5-5 S tu n t tách t ...............................................................................................53
Hình 5-6 S c ng tác tách t .............................................................................................54
Hình 5-7 S l p tách t .....................................................................................................54
Hình 5-8 S use-case l p ch m c .....................................................................................55
Hình 5-9 S tu n t t o m i ch m c ................................................................................56
Hình 5-10 S tu n t c p nh t ch m c ............................................................................57
Hình 5-11 S c ng tác t o m i ch m c ............................................................................58
Hình 5-12 S c ng tác c p nh t ch m c ...........................................................................59
Hình 5-13 S l p l p ch m c ...........................................................................................60
Hình 5-14 S use-case tìm ki m .......................................................................................61
Hình 5-15 S tu n t tìm ki m..........................................................................................61
Hình 5-16 S c ng tác tìm ki m .......................................................................................62
Hình 5-17 S l p tìm ki m ...............................................................................................63
Hình 6-1 S l p tách t .....................................................................................................83
Hình 6-2 L p tách t ghép.....................................................................................................83
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 9 Nguy n Trung Hi u - 0112216
Hình 6-3 L p tách t .............................................................................................................86
Hình 6-4 L p giao di n tách t ..............................................................................................89
Hình 6-5 Màn hình tách t .....................................................................................................89
Hình 6-6 Màn hình chi ti t tách t .........................................................................................90
Hình 6-7 S l p l p ch m c .............................................................................................91
Hình 6-8 L p l p ch m c......................................................................................................92
Hình 6-9 L p giao di n t o m i ch m c................................................................................94
Hình 6-10 Màn hình t o m i ch m c ....................................................................................95
Hình 6-11 L p Màn hình c p nh t ch m c............................................................................96
Hình 6-12 Màn hình c p nh t ch m c ...................................................................................97
Hình 6-13 S l p tìm ki m ...............................................................................................98
Hình 6-14 L p x lý tìm ki m...............................................................................................99
Hình 6-15 L p giao di n tìm ki m.......................................................................................105
Hình 6-16 Màn hình tìm ki m .............................................................................................106
Hình 6-17 Xem t khóa câu h i...........................................................................................106
Hình 6-18 Xem t khóa tài li u ...........................................................................................107
Hình 6-19 Màn hình chính...................................................................................................109
Hình 6-20 Màn hình tìm ki m nhi u câu h i........................................................................110
Hình 6-21 Giao di n tìm ki m trên Web..............................................................................112
Hình 6-22 Giao di n các tài li u tr v sau khi tìm ki m......................................................113
Hình 6-23 Giao di n chi ti t n i dung c a tài li u ................................................................114
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 10 Nguy n Trung Hi u - 0112216
U
Trong th i i bùng n thông tin nh hi n nay, thông tin c l u tr trên máy
tính ngày càng nhi u do ó vi c tìm ki m thông tin chính xác là nhu c u thi t y u i
i m i ng i trong m i l nh v c. Internet hi n nay ã tr thành m t kho t li u kh ng
mà vi c tìm ki m thông tin trên kho t li u này c n ph i c h tr b i các công c
tìm ki m (search engine) t t. Các h th ng tìm ki m thông tin thông d ng nh Google,
Yahoo Search ã áp ng c ph n nào nhu c u ó c a m i ng i. Tuy nhiên, các h
th ng này c xây d ng x lý và tìm ki m các v n b n ti ng Châu Âu, chúng ch a
th t s phù h p cho các v n b n ti ng Vi t. Do ó nhu c u ph i có m t công c tìm
ki m “hi u” và x lý t t các v n b n tí ng Vi t.
Các h tìm ki m thông tin u ph i th c hi n giai n l p ch m c (indexing)
cho v n b n trích các t ch m c (index term) bi u di n t t nh t n i dung c a v n
n. Giai n này ph thu c vào ngôn ng c a v n b n và ph ng pháp x lý t ng
ngôn ng ó. Hi n nay ch a có nhi u h th ng tìm ki m thông tin trên kho tài li u
ti ng Vi t có khai thác các c tr ng c a ti ng Vi t cho vi c l p ch m c.
Vì v y m c tiêu c a lu n v n này nh m xây d ng m t h th ng tìm ki m thông
tin b ng ti ng Vi t có s d ng các k t qu c a x lý ngôn ng t nhiên t ng xác
nh c các ch m c là các t (word) hay t ghép (compound word) c a ti ng Vi t.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 11 Nguy n Trung Hi u - 0112216
Ph n 1 : TÌM HI U LÝ THUY T
Ch ng 1: NG QUAN V TÌM KI M THÔNG TIN
1. Gi i thi u v tìm ki m thông tin
1.1 Khái ni m v tìm ki m thông tin
Tìm ki m thông tin là tìm ki m trong m t t p tài li u l y ra các thông tin mà
ng i tìm ki m quan tâm.
1.2 t s v n trong vi c tìm ki m thông tin:
t nh ng n m 40, các v n trong vi c l u tr thông tin và tìm ki m thông
tin ã thu hút s chú ý r t l n. V i m t l ng thông tin kh ng l thì vi c tìm ki m
chính xác và nhanh chóng càng tr nên khó kh n h n. V i s ra i c a máy tính, r t
nhi u ý t ng l n c a ra nh m cung c p m t h th ng tìm ki m thông minh và
chính xác. Tuy nhiên, v n tìm ki m sao cho hi u qu v n ch a c gi i quy t.
nguyên t c, vi c l u tr thông tin và tìm ki m thông tin thì n gi n. Gi s
có m t kho ch a các tài li u và m t ng i mu n tìm các tài li u liên quan n yêu c u
a mình. Ng i ó có th c t t c các tài li u trong kho, gi l i các tài li u liên quan
và b i các tài li u không liên quan. Rõ ràng gi i pháp này không th c t b i vì t n r t
nhi u th i gian.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 12 Nguy n Trung Hi u - 0112216
i s ra i c a máy vi tính t c cao, máy tính có th “ c” thay cho con
ng i trích ra các tài li u có liên quan trong toàn b t p d li u. Tuy nhiên v n
lúc này là làm sao xác nh c tài li u nào liên quan n câu h i. M c ích c a
t h th ng tìm ki m thông tin t ng là truy l c c t t c các tài li u có liên quan
n yêu c u.
2. tìm ki m thông tin – IRS
Sau ây là nh ngh a v h th ng tìm ki m thông tin c a m t s tác gi : [2.1]
Salton (1989):
“H th ng tìm ki m thông tin x lý các t p tin l u tr và nh ng yêu c u v
thông tin, xác nh và tìm t các t p tin nh ng thông tin phù h p v i nh ng yêu c u v
thông tin. Vi c truy tìm nh ng thông tin c thù ph thu c vào s t ng t gi a các
thông tin c l u tr và các yêu c u, c ánh giá b ng cách so sánh các giá tr c a
các thu c tính i v i thông tin c l u tr và các yêu c u v thông tin.”
Kowalski (1997) :
“H th ng truy tìm thông tin là m t h th ng có kh n ng l u tr , truy tìm và
duy trì thông tin. Thông tin trong nh ng tr ng h p này có th bao g m v n b n, hình
nh, âm thanh, video và nh ng i t ng a ph ng ti n khác.”
Hi u n gi n th ng tìm ki m thông tin là m t h th ng h tr cho ng i
d ng tìm ki m thông tin m t cách nhanh chóng và d dàng. Ng i s d ng có
th a vào nh ng câu h i, nh ng yêu c u (d ng ngôn ng t nhiên) và h th ng s tìm
ki m trong t p các tài li u (d ng ngôn ng t nhiên) ã c l u tr tìm ra nh ng
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 13 Nguy n Trung Hi u - 0112216
tài li u có liên quan, sau ó s s p x p các tài li u theo m c liên quan gi m d n và
tr v cho ng i s d ng.
3. Các thành ph n c a m t h tìm ki m thông tin [1.1]
m: t p các tài li u (DOCS) ã c l u tr trong kho d li u, t p các yêu c u
(REQS) c a ng i dùng, và m t s ph ng pháp tính t ng quan (SIMILAR)
xác nh các tài li u áp ng cho các yêu c u.
Hình 1-1 Môi tr ng c a h tìm ki m thông tin
Theo lý thuy t thì m i liên h gi a các câu h i và các tài li u có th so sánh m t
cách tr c ti p. Nh ng trên th c t thì u này không th c vì các câu h i và các t p
tài li u u d ng v n b n, ch có con ng i c vào thì th y ngay c m i liên h
gi a chúng, nh ng ây ch là m t h th ng máy móc không th suy lu n nh con
ng i c. Chính vì th xác nh c m i liên h gi a các câu h i và các t p tài
li u ph i qua m t b c trung gian.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 14 Nguy n Trung Hi u - 0112216
Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin
Tr c h t chuy n i các câu h i thành các t riêng bi t bi u hi n cho n i
dung c a câu h i g i là ngôn ng ch m c (Indexing language - LANG). Tách t trong
các t p tài li u và l p ch m c cho tài li u. Lúc này có th so sánh tr c ti p gi a các t
a câu h i và các t ch m c c a t p tài li u. Và t ó ta s d dàng h n xác nh
t ng quan gi a các câu h i và t p tài li u.
4. So sánh IRS v i các h th ng thông tin khác
th ng tìm ki m thông tin c ng t ng t nh nhi u h th ng x lý thông tin
khác. Hi n nay các h th ng thông tin quan tr ng nh t là: h qu n tr c s d li u
(DBMS), h qu n lý thông tin (MIS), h h tr ra quy t nh (DSS), h tr l i câu h i
(QAS) và h tìm ki m thông tin (IR).
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 15 Nguy n Trung Hi u - 0112216
4.1 qu n tr c s d li u (DBMS)
t c h th ng thông tin t ng nào c ng d a trên m t t p các m c c l u
tr (g i là s d li u) c n thi t cho vi c truy c p. Do ó h qu n tr c s d li u
n gi n là m t h th ng c thi t k nh m thao tác và duy trì u khi n c s d
li u.
DBMS t ch c l u tr các d li u c a mình d i d ng các b ng. M i m t c s
li u c l u tr thành nhi u b ng khác nhau. M i m t c t trong b ng là m t thu c
tính, và m i m t dòng là m t b d li u c th . Trong m i m t b ng có m t thu c tính
duy nh t i di n cho b ng, nó không c trùng l p và ta g i ó là khoá chính. Các
ng có m i liên h v i nhau thông qua các khoá ngo i. DBMS có m t t p các l nh
tr cho ng i s d ng truy v n n d li u c a mình. Vì v y mu n truy v n n
CSDL trong DBMS ta ph i h c h t các t p l nh này. Nh ng ng c l i nó s cung c p
cho ta các d li u y và hoàn toàn chính xác. Hi n nay DBMS c s d ng r ng
rãi trên th gi i. M t s DBMS thông d ng : Access, SQL Server, Oracle.
4.2 qu n lý thông tin (IMS)
qu n lý thông tin là h qu n tr c s d li u nh ng có thêm nhi u ch c
nh ng v vi c qu n lý. Nh ng ch c n ng qu n lý này ph thu c vào giá tr c a nhi u
ki u d li u khác nhau. Nói chung b t k h th ng nào có m c ích c bi t ph c v
cho vi c qu n lý thì ta g i nó là h qu n lý thông tin.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 16 Nguy n Trung Hi u - 0112216
4.3 h tr ra quy t nh (DSS)
h tr ra quy t nh s d a vào các t p lu t c h c, t nh ng lu t ã h c
rút ra nh ng lu t m i, sau khi g p m t v n nó s c n c vào vào t p các lu t a
ra nh ng quy t nh thay cho con ng i.
th ng này ang c áp d ng nhi u cho công vi c nh n d ng và chu n óan
nh.
4.4 tr l i câu h i (QAS)
tr l i câu h i cung c p vi c truy c p n các thông tin b ng ngôn ng t
nhiên. Vi c l u tr c s d li u th ng bao g m m t s l ng l n các v n liên
quan n các l nh v c riêng bi t và các ki n th c t ng quát. Câu h i c a ng i dùng có
th d ng ngôn ng t nhiên. Công vi c c a h tr l i câu h i là phân tích câu truy
n c a ng i dùng, so sánh v i các tri th c c l u tr , và t p h p các v n có liên
quan l i a ra câu tr l i thích h p.
Tuy nhiên, h tr l i câu h i ch còn ang th nghi m. Vi c xác nh ý ngh a
a ngôn ng t nhiên d ng nh v n là ch ng ng i l n có th s d ng r ng rãi h
th ng này.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 17 Nguy n Trung Hi u - 0112216
4.5 So sánh IRS v i các h th ng thông tin khác
IRS DBMS QAS MIS
Tìm ki m
i dung
trong các tài
li u.
Các ph n t
có ki u d
li u ã c
nh ngh a.
Các s ki n
rõ ràng.
u tr
Các v n b n
ngôn ng t
nhiên.
Các ph n t
li u
ng b ng.
Các s ki n
rõ ràng và các
ki n th c
ng quát.
lý
Các câu truy
n không
chính xác.
Các câu truy
n có c u
trúc.
Các câu truy
n không
gi i h n.
Gi ng DBMS
nh ng h tr
thêm nh ng
th t c( Tính
ng, tính
trung bình,
phép chi u…)
ng 1-1 So sánh IRS v i các h th ng thông tin khác
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 18 Nguy n Trung Hi u - 0112216
Ch ng 2: XÂY D NG M T H TH NG TÌM KI M
THÔNG TIN
1. Ki n trúc c a h tìm ki m thông tin. [1.3]
t h th ng thông tin tiêu bi u nh sau:
Hình 2-1 H tìm ki m thông tin tiêu bi u
th ng tìm ki m thông tin g m có 3 b ph n chính : b ph n phân tích v n
n, b ph n l p ch m c, b ph n so kh p và s p x p các tài li u tr v .
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 19 Nguy n Trung Hi u - 0112216
(1) ph n phân tích v n b n: b ph n này có nhi m v phân tích các v n
n thu th p c thành các t riêng bi t. T ng t , khi ng i dùng nh p câu truy v n
thì câu truy v n c ng c phân tích thành các t riêng bi t.
(2) ph n l p ch m c : các t trích c t các v n b n thu th p c s
c b ph n này l a ch n làm các t ch m c. Các t ch m c ph i là các t th
hi n c n i dung c a v n b n.
(3) ph n so kh p và s p x p các tài li u tr v : Các t trích c t câu
truy v n và các t ch m c c a v n b n s c so kh p v i nhau tìm ra các tài li u
liên quan n câu truy v n. M i tài li u có m t t ng quan v i câu h i. Các tài li u
này s c s p x p theo t ng quan gi m d n và tr v cho ng i s d ng.
2. t s mô hình xây d ng m t h tìm ki m thông tin [1.2]
c tiêu c a các h th ng tìm ki m thông tin là tr v các tài li u càng liên
quan n câu h i càng t t. Vì th ng i ta ã a ra r t nhi u mô hình tìm ki m nh m
tính toán m t cách chính xác t ng quan này. Sau ây là m t s mô hình tìm ki m
b n:
2.1 Mô hình không gian vector
Mô hình không gian vector tính toán t ng quan gi a câu h i và tài li u b ng
cách nh ngh a m t vector bi u di n cho m i tài li u, và m t vector bi u di n cho câu
i [ Salton, 1875]. Mô hình d a trên ý t ng chính là ý ngh a c a m t tài li u thì ph
thu c vào các t c s d ng bên trong nó. Vector tài li u và vector câu h i sau ó s
c tính toán xác nh t ng quan gi a chúng. t ng quan càng l n ch ng
tài li u ó càng liên quan n câu h i.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 20 Nguy n Trung Hi u - 0112216
Gi s m t t p tài li u ch g m có hai t là t1 và t2. Vector xây d ng c s
m có 2 thành ph n: thành ph n th nh t bi u di n s xu t hi n c a t1, và thành ph n
th hai bi u di n cho s xu t hi n c a t2. Cách n gi n nh t xây d ng vector là
ánh 1 vào thành ph n t ng ng n u t ó xu t hi n, và ánh 0 n u t ó không xu t
hi n. Gi s tài li u ch g m có 2 t t1. Ta bi u di n cho tài li u này b i vector nh
phân nh sau: <1,0> Tuy nhiên, bi u di n nh v y không cho th y c t n s xu t
hi n c a m i t trong tài li u. Trong tr ng h p này, vector nên c bi u di n nh
sau: <2,0>
i v i m t câu h i ã cho, thay vì ch c n c so sánh các t trong tài li u v i
p các t trong câu h i, ta nên xem xét n t m quan tr ng c a m i t . Ý t ng chính
là m t t xu t hi n t p trung trong m t s tài li u thì có tr ng s cao h n so v i m t t
phân b trong nhi u tài li u. Tr ng s c tính d a trên t n s tài li u ngh ch o
(Inverse Document Frequency) liên quan n các t c cho:
n: s t phân bi t trong t p tài li u
tfij : s l n xu t hi n c a t tj trong tài li u Di (t n s )
dfj : s tài li u có ch a t tj
idfj = 10log
j
d
df
trong ó d là t ng s tài li u
Vector c xây d ng cho m i tài li u g m có n thành ph n, m i thành ph n là
giá tr tr ng s ã c tính toán cho m i t trong t p tài li u. Các t trong tài li u
c gán tr ng s t ng d a vào t n s xu t hi n c a chúng trong t p tài li u và s
xu t hi n c a m i t trong m t tài li u riêng bi t. Tr ng s c a m t t t ng n u t ó
xu t hi n th ng xuyên trong m t tài li u và gi m n u t ó xu t hi n th ng xuyên
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 21 Nguy n Trung Hi u - 0112216
trong t t c các tài li u. tính tr ng s c a t th tj trong tài li u Di, d a vào công
th c:
dij = tfij * idfj
dij : là tr ng s c a t tj trong tài li u Di
i v i h th ng tìm ki m thông tin theo mô hình vector, m i tài li u là m t
vector có d ng : Di(di1, di2 , …, din ) . T ng t , câu truy v n Q c ng là m t vector có
ng : Q(wq1, wq2, …, wqn)
wqj : là tr ng s c a t tj trong câu truy v n Q.
t ng quan (SC: similarity coeficient) gi a câu truy v n Q và tài li u Di
c tính nh sau:
SC(Q,Di) = ij
1
w *
n
qj
j
d
=
∑
2.2 Tìm ki m Boolean
Mô hình tìm ki m Boolean khá n gi n. Câu h i a vào ph i d ng bi u th c
Boolean. Ngh a là ph i th a:
Ø Ng ngh a rõ ràng
Ø Hình th c ng n g n
Do các t ho c xu t hi n ho c là không xu t hi n, nên tr ng s wij ε {0,1}
Gi s a vào m t câu h i d ng bi u th c Boolean nh sau: t1 and t2. Sau khi tìm
ki m ta xác nh c các tài li u liên quan n t1 là { d1, d3, d5} và các tài li u liên
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 22 Nguy n Trung Hi u - 0112216
quan n t2 là {d3, d5, d7}. Nh v y v i phép and, các tài li u th a yêu c u c a ng i
dùng là {d3, d5}. Ph ng pháp này có m t s khuy t m nh sau:
Ø Các tài li u tr v không c s p x p (ranking)
Ø Câu h i tìm ki m òi h i ph i úng nh d ng c a bi u th c Boolean gây
khó kh n cho ng i dùng
Ø t qu tr v có th là quá ít ho c quá nhi u tài li u
2.3 Tìm ki m Boolean m r ng
Mô hình tìm ki m Boolean không h tr vi c s p x p k t qu tr v b i vì các
tài li u ho c th a ho c không th a yêu c u Boolean. T t c các tài li u th a mãn u
c tr v , nh ng không có s c l ng nào c tính toán cho s liên quan c a
chúng i v i câu h i.
Mô hình tìm ki m Boolean m r ng ra i nh m h tr vi c s p x p (ranking)
t qu tr v d a trên ý t ng c b n là ánh tr ng s cho m i t trong câu h i và
trong tài li u. Gi s m t câu h i yêu c u (t1 OR t2) và m t tài li u D có ch a t1 v i
tr ng s w1 và t2 v i tr ng s w2 . N u w1 và w2 u b ng 1 thì tài li u nào có ch a c
hai t này s có th t s p x p cao nh t. Tài li u nào không ch a m t trong hai t này
có th t s p x p th p nh t. Ý t ng n gi n là tính kho ng cách Eclide t m
(w1, w2) t i g c:
SC(Q,Di) = 2 2
1 2(w ) (w )+
i tr ng s 0.5 và 0.5, SC(Q,Di) = 2 2
(0.5) (0.5)+ =0.707
SC cao nh t n u w1 và w2 u b ng 1. Khi ó:
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 23 Nguy n Trung Hi u - 0112216
SC(Q,Di) = 2 = 1.414
a SC vào kho ng [0,1], SC c tính nh sau:
SC( Q t1 v t2 , di) =
2 2
1 2(w ) (w )
2
+
Công th c này gi s là câu h i ch có toán t OR . i v i toán t AND, thay
vì tính kho ng cách t i g c, ta s tính kho ng cách n m (1,1). Câu h i nào càng
n n m (1,1) thì nó càng tho yêu c u c a toán t AND:
SC(Q t1 ^ t2, di) = 1-
2 2
1 2(1-w ) (1 w )
2
+ −
2.4 r ng trong vi c thêm vào tr ng s c a câu h i
u câu h i có tr ng s là q1 và q2 thì t ng quan s c tính nh sau:
SC(Q q1 v q2, di) =
2 2 2 2
1 1 2 2
2 2
1 2
q w q w
q q
+
+
SC(Q q1 ^ q2, di) = 1- (
2 2 2 2
1 1 2 2
2 2
1 2
q (1-w ) (1 )q w
q q
+ −
+
)
2.4.1 r ng cho s t tu ý
tính kho ng cách Euclide trong không gian a chi u, tham s p c s
ng. Tham s p ch s bi n i t m quan tr ng c a tr ng s trong vi c ánh giá
thích h p.
t ng quan SC t ng quát nh sau:
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 24 Nguy n Trung Hi u - 0112216
SC(D, Q ( q i v q j ) ) =
1
p p p p p
i i j j
p p
i j
q w
q q
q w +
 
+  
SC(D, Q ( q i ^ q j ) ) = 1 -
1
p p p p p
i i j j
p p
i j
q (1-w ) q (1 w )
q q
 + −
 
+  
u p → ∞ : chuy n v h th ng Boolean thông th ng (không có tr ng s )
u p = 1 : chuy n v h th ng không gian vector
2.4.2 Thêm toán t t ng
Các chi n l c tìm ki m không òi h i ng i dùng nh n bi t các toán t ph c
p. Tr ng s có th c gán t ng và tài li u c s p x p b ng cách chèn toán t
OR vào gi a các t . B t k tài li u nào có ch a ít nh t m t t trong câu h i s c s p
th t v i m t s m l n h n 0.
2.5 Mô hình xác su t
Mô hình tìm ki m xác su t tính toán t ng quan gi a câu h i và tài li u d a
vào xác su t mà tài li u ó liên quan n câu h i. Các lý thuy t v xác su t c áp
ng tính toán liên quan gi a câu h i và tài li u. Các t trong câu h i c xem
là u m i xác nh tài li u liên quan. Ý t ng chính là tính xác su t c a m i t
trong câu h i và sau ó s d ng chúng tính xác su t mà tài li u liên quan n câu
i.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 25 Nguy n Trung Hi u - 0112216
2.6 ánh giá chung v các mô hình
Ø Mô hình Boolean c xem là mô hình y u nh t trong các mô hình b i vì
nh ã trình bày nó còn r t nhi u khuy t m.
Ø Theo kinh nghi m c a Salton và Buckley thì nhìn chung mô hình vector
làm t t h n mô hình xác su t.
Lu n v n c a chúng em s d ng mô hình không gian vector xây d ng m t
th ng tìm ki m thông tin ti ng Vi t.
3. Các b c xây d ng m t h tìm ki m thông tin. [3.2]
3.1 Tách t t ng cho t p các tài li u
i v i ti ng Anh, ta tách t d a vào kho ng tr ng. Tuy nhiên i v i ti ng
Vi t, giai n này t ng i khó kh n. C u trúc ti ng Vi t r t ph c t p, không ch n
thu n d a vào kho ng tr ng tách t . Hi n nay có r t nhi u công c dùng tách t
ti ng Vi t, m i ph ng pháp có u, khuy t m riêng. Các ph ng pháp này s c
trình bày chi ti t h n ch ng III : Tách t t ng.
3.2 p ch m c cho tài li u
Sau khi có c t p các t ã c trích, ta s ch n các t làm t ch m c.
Tuy nhiên, không ph i t nào c ng c ch n làm t ch m c. Các t có kh n ng i
di n cho tài li u s c ch n, các t này c g i là key word, do ó tr c khi l p ch
c s là giai n ti n x lý i v i các t trích c ch n ra các key word thích
p. Ta s lo i b danh sách các t ít có kh n ng i di n cho n i dung v n b n d a
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 26 Nguy n Trung Hi u - 0112216
vào danh sách g i là stop list. i v i ti ng Anh hay ti ng Vi t u có danh sách stop
list. Chi ti t v quá trình l p ch m c s c mô t ch ng IV: L p ch m c.
3.3 Tìm ki m
Ng i dùng nh p câu h i và yêu c u tìm ki m, câu h i mà ng i dùng nh p vào
ng s c x lý, ngh a là ta s tách t cho câu h i. Ph ng pháp tách t cho câu h i
ng nên là ph ng pháp tách t cho các tài li u thu th p c m b o s t ng
thích. Sau ó, h th ng s tìm ki m trong t p tin ch m c xác nh các tài li u liên
quan n câu h i c a ng i dùng.
3.4 p x p các tài li u tr v (Ranking)
Các tài li u sau khi ã xác nh là liên quan n câu h i c a ng i dùng s c
p x p l i, b i vì trong các tài li u ó có nh ng tài li u liên quan n câu h i nhi u
n. H th ng s d a vào m t s ph ng pháp xác nh tài li u nào liên quan nhi u
nh t, s p x p l i (ranking) và tr v cho ng i dùng theo th t u tiên.
4. Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki m
thông tin ti ng Vi t
Hi n nay, chúng ta ã quen thu c v i r t nhi u công c h tr vi c tìm ki m
thông tin nh Google, Yahoo Search, AltaVista, …. Tuy nhiên, ây là các công c c a
ng i n c ngoài nên chúng ch gi i quy t t t i v i các yêu c u c a h . Chúng ta
ng có m t s công c h tr tìm ki m thông tin ti ng Vi t nh : Vinaseek,
NetNam,…Các công c này c ng tách t ch y u d a vào kho ng tr ng nên vi c tìm
ki m c ng ch a c c i thi n. Nhìn chung, xây d ng m t h th ng tìm ki m thông
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 27 Nguy n Trung Hi u - 0112216
tin ti ng Vi t, chúng ta g p khó kh n trong vi c tách t ti ng Vi t và xác nh b ng mã
ti ng Vi t.
4.1 Khó kh n trong vi c tách t ti ng Vi t
Có th nói tách t là giai n khó kh n nh t khi xây d ng m t h tìm ki m
thông tin ti ng Vi t. i v i ti ng Anh, vi c xác nh t ch n gi n d a vào kho ng
tr ng tách t . Ví d , câu: “I am a student” s c tách thành 4 t : I, am, a, student.
Tuy nhiên, i v i ti ng Vi t, tách d a vào kho ng tr ng ch thu c các ti ng. T có
th c ghép t m t hay nhi u ti ng. T ph i có ý ngh a hoàn ch nh và có c u t o n
nh. Câu: “Tôi là m t sinh viên” c tách thành 4 t : Tôi, là, m t, sinh viên. Trong
ó, t “sinh viên” c hình thành t 2 ti ng: sinh và viên.
Hi n nay, có r t nhi u ph ng pháp c s d ng tách t ti ng Vi t. Tuy
nhiên, v i s ph c t p c a ng pháp ti ng Vi t nên ch a có ph ng pháp nào t c
chính xác 100%. Và vi c l a ch n ph ng pháp nào là t t nh t c ng ang là v n
tranh cãi.
4.2 n b ng mã ti ng Vi t
Không nh ti ng Anh, ti ng Vi t có r t nhi u b ng mã òi h i ph i x lý. M t
công c tìm ki m ti ng Vi t h tr b ng mã r t t t nh Vinaseek, h tr m i b ng
mã (VNI, TCVN3, ViQR,…).
4.3 Các khó kh n khác
Ø Ti ng Vi t có các t ng ngh a nh ng khác âm. Các công c hi n nay không
tr vi c xác nh các t ng ngh a. Vì v y, k t qu tr v s không y .
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 28 Nguy n Trung Hi u - 0112216
Ø Ng c l i, có nh ng t ng âm khác ngh a. Các h th ng s tr v các tài li u
có ch a các t ã c tách trong câu h i mà không c n xác nh chúng có th c
liên quan hay không. Vì v y, k t qu tr v s không chính xác.
Ø t s t xu t hi n r t nhi u nh ng không có ý ngh a trong tài li u. Các t nh :
và, v i, nh ng,… có t n s xu t hi n r t l n trong b t c v n b n nào. N u tìm
cách tr v các tài li u có ch a nh ng t này s thu c k t qu vô ích, không
n thi t. Do ó, chúng ta c n tìm cách lo i b các t này tr c khi tìm ki m.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 29 Nguy n Trung Hi u - 0112216
Ch ng 3: TÁCH T T NG
Tr c khi l p ch m c là giai n tách t cho các tài li u, ây là công vi c quan
tr ng trong m t h th ng tìm ki m thông tin. i v i ti ng Anh ch n gi n d a vào
kho ng tr ng tách t . Nh ng i v i ti ng Vi t không th d a vào kho ng tr ng
c vì ti ng Vi t là ngôn ng n l p.
Hi n nay, có r t nhi u ph ng pháp c xu t tách t cho ti ng Vi t,
nh ng v n ch a th ng nh t là ph ng pháp nào t t nh t. Ch ng này s trình bày chi
ti t v m t s ph ng pháp tách t .
1. Tách t trong Ti ng Anh
Do c m ng pháp c a ti ng Anh, tách t ch n gi n d a vào kho ng
tr ng phân bi t t .
2. Tách t trong Ti ng Vi t
2.1 t s c m chính v t ti ng Vi t [2.2]
2.1.1 Ti ng
m t ng âm, ti ng là âm ti t. Âm ti t bao g m nh ng n v b c th p h n g i
là âm v . M i âm v c ghi b ng m t ký t g i là ch .
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 30 Nguy n Trung Hi u - 0112216
m t ng ngh a, ti ng là n v nh nh t có ngh a, nh ng c ng có m t s ti ng
không có ngh a.
giá tr ng pháp, ti ng là n v c u t o t . S d ng ti ng t o thành t , ta có
hai tr ng h p nh sau:
Ø m t ti ng: g i là t n. Tr ng h p này m t t ch có m t ti ng. Ví d nh :
ông, bà, …
Ø hai ti ng tr lên: g i là t ph c. Tr ng h p này m t t có th có hai hay
nhi u ti ng tr lên. Ví d nh : xã h i, an ninh, h p tác xã,…
2.1.2
là n v nh nh t t o thành câu. Trong t câu, chúng ta dùng t ch
không dùng ti ng.
2.2 Tách t t ng ti ng Vi t
Tách t t ng ti ng Vi t d a trên m t s ph ng pháp có s n. Sau ây chúng
ta s nghiên c u m t s ph ng pháp c s d ng tách t cho các v n b n ti ng
Vi t.
3. Các ph ng pháp tách t ti ng Vi t
3.1 fnTBL (Fast Transformation-based learning) [3.1]
3.1.1 Mô t
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 31 Nguy n Trung Hi u - 0112216
Ý t ng chính c a ph ng pháp h c d a trên s bi n i (TBL) là gi i quy t
t v n nào ó ta s áp d ng các phép bi n i, t i m i b c, phép bi n i nào cho
t qu t t nh t s c ch n và c áp d ng l i v i v n ã a ra. Thu t toán k t
thúc khi không còn phép bi n i nào c ch n. H th ng fnTBL g m hai t p tin
chính:
Ø p tin d li u h c (Training): T p tin d li u h c c làm th công, òi h i
chính xác. M i m u (template) c t trên m t dòng riêng bi t. Ví d : t p
li u h c cho vi c xác nh t lo i c a m t v n b n có th có nh d ng nh
sau:
Công ty danhtu
An ông danhturieng
dongtu
giám sát dongtu
Trong ví d này m i m u g m có hai ph n: ph n u tiên là t , ph n th
hai là t lo i t ng ng.
Ø p tin ch a các m u lu t (rule-template): M i lu t c t trên m t dòng, h
th ng fTBL s d a vào các m u lu t áp d ng vào t p tin d li u h c. Ví d :
chunk_-2 chunk_-1 => chunk
Áp d ng i v i vi c xác nh t lo i, v i chunk_-2 = ng t , chunk_-
1= s t , chunk=danh t thì lu t trên có ý ngh a nh sau: n u hai t tr c ó là
ng t và s t thì chuy n t lo i hi n hành thành danh t .
3.1.2 Áp d ng tách t ti ng Vi t
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 32 Nguy n Trung Hi u - 0112216
Sau khi nghiên c u v fnTBL, chúng em nh n th y có th áp d ng ph ng pháp
này tách t cho ti ng Vi t, ch c n thay i m t s nh d ng cho phù h p.
Ø Xây d ng t p tin d li u h c: p tin d li u cho vi c tách t ti ng Vi t có d ng
nh sau:
Vì B
sao B
công B
ty I
Vi t B
Hà I
B
t B
vào B
tình B
tr ng I
….
Các ký t B, I g i là các chunk và có ý ngh a nh sau:
Ti ng có chunk=B ngh a là ti ng ó b t u m t t (begin)
Ti ng có chunk=I ngh a là ti ng ó n m trong m t t (inside)
Trong ví d trên, ta có c các t : Vì, sao, công ty, Vi t Hà, b , t, vào, tình
tr ng, …
Ø Xây d ng t p tin ch a các m u lu t: Sau khi tìm hi u v t trong ti ng Vi t,
chúng em xây d ng c 3 lu t áp d ng cho vi c tách t ti ng Vi t nh sau:
chunk_0 word_0 => chunk
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 33 Nguy n Trung Hi u - 0112216
chunk_0 word_-1 word_0 => chunk
chunk_0 word_0 word_1 => chunk
3.1.2.1 Quá trình h c
(1) T t p d li u h c xây d ng t n các t
(2) Kh i t o các t
(3) Rút ra t p lu t
b c (1) t t p d li u h c ã có s n, s d ng ph ng pháp th ng kê ta s
có t n các ti ng (Lexicon). Các ti ng có th xu t hi n trong các t v i các chunk
khác nhau, ta s ghi nh n l i s l n xu t hi n c a m i ti ng v i các chunk t ng ng.
Ví d , i v i t “công ty” thì ti ng “công” có chunk=B nh ng trong t “c a công” thì
ti ng công có chunk=I.
b c (2) t t p d li u h c, t o ra t p d li u h c không có chunk b ng cách
xóa h t các chunk t ng ng. T p d li u m i này s c s d ng kh i t o l i các
chunk thông d ng nh t d a vào t n.
b c (3) so sánh t p d li u h c v i t p d li u ang xét, d a vào các m u
lu t ã cho, ta s rút ra c các lu t ng viên, ng v i m i lu t ng viên ta l i áp d ng
vào t p d li u ang xét và tính m cho nó (d a vào s l i phát sinh khi so sánh v i
p d li u h c là t p d li u chu n). Ch n lu t có m cao nh t và l n h n m t
ng ng cho tr c a vào danh sách lu t c ch n.
t qu ta s c m t t p các lu t c ch n. Các lu t có d ng nh sau:
SCORE:414 RULE: chunk_0=B word_0=t => chunk=I
SCORE:312 RULE: chunk_0=B word_-1=c a word_0=công=>chunk=I
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 34 Nguy n Trung Hi u - 0112216
SCORE:250 RULE: chunk_0=B word_0=hóa => chunk=I
SCORE:231 RULE: chunk_0=B word_0= ng => chunk=I
SCORE:205 RULE: chunk_0=B word_0=nghi p => chunk=I
SCORE:175 RULE: chunk_0=B word_-1=phát word_0=tri n => chunk=I
SCORE:133 RULE: chunk_0=B word_-1=xã word_0=h i => chunk=I
SCORE:109 RULE: chunk_0=B word_-1= u word_0=t => chunk=I
SCORE:100 RULE: chunk_0=B word_0=th => chunk=I
dòng 2 ta có lu t: n u t hi n hành là “công” (word_0=công) và t tr c ó là
“c a” (word_-1=c a) và chunk c a t hi n hành là B ( chunk_0=B) thì chuy n chunk
a t hi n hành là I , ngh a là “c a công” ph i là m t t .
Toàn b quá trình h c c mô t nh sau:
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 35 Nguy n Trung Hi u - 0112216
Hình 3-1 Quá trình h c
3.1.2.2 Xác nh t cho tài li u m i
(1) Tài li u m i a vào ph i có nh d ng gi ng nh t p tin d li u h c, ngh a
là m i ti ng trên m t dòng.
(2) D a vào t n, gán chunk thông d ng nh t cho các ti ng trong tài li u m i
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 36 Nguy n Trung Hi u - 0112216
(3) Áp d ng các lu t có c t giai n h c vào tài li u ang xét ta s tách
c các t hoàn ch nh.
Giai n xác nh t cho tài li u m i c mô t nh sau:
Hình 3-2 Giai n xác nh t cho tài li u m i
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 37 Nguy n Trung Hi u - 0112216
3.2 Longest Matching [1.4]
Ph ng pháp Longest Matching tách t d a vào t n có s n.
Theo ph ng pháp này, tách t ti ng Vi t ta i t trái sang ph i và ch n t có
nhi u âm ti t nh t mà có m t trong t n, r i c ti p t c cho t k ti p cho n h t
câu. V i cách này, ta d dàng tách c chính xác các ng /câu nh : ”h p tác| mua
bán”; “thành l p| n c|Vi t Nam| dân ch |c ng hòa”…Tuy nhiên, ph ng pháp này s
tách t sai trong tr ng h p nh : “h c sinh |h c sinh |h c”; “m t| ông | quan tài | gi i”,
“tr c | bàn là | m t | ly| n c”,…
3.3 t h p gi a fnTBL và Longest Matching
Chúng ta có th k t h p gi a hai ph ng pháp fnTBL và Longest Matching
có c k t qu tách t t t nh t. u tiên ta s tách t b ng Longest Matching, u ra
a ph ng pháp này s là u vào cho ph ng pháp fnTBL h c lu t.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 38 Nguy n Trung Hi u - 0112216
Ch ng 4: P CH M C
1. Khái quát v h th ng l p ch m c
t cách t ng t c tìm ki m thông tin lên là t o ch m c cho các tài li u.
Tuy nhiên, vi c l p ch m c có m t nh c m l n, ó là khi thêm m t tài li u m i,
ph i c p nh t l i t p tin ch m c. Nh ng i v i h th ng tìm ki m thông tin, ch c n
p nh t l i t p tin ch m c vào m t kho ng th i gian nh k . Do ó, ch m c là m t
công c r t có giá tr .
p ch m c bao g m các công vi c sau:
Ø Xác nh các t có kh n ng i di n cho n i dung c a tài li u
Ø ánh tr ng s cho các t này, tr ng s ph n ánh t m quan tr ng c a t
trong m t tài li u.
2. Ph ng pháp l p ch m c [1.1]
2.1 Xác nh các t ch m c
Ø Cho m t t p g m có n tài li u. V i m i tài li u, tính t n s c a m i t
riêng bi t trong tài li u ó. G i FREQik: là t n s xu t hi n c a t k trong tài li u i.
Ø Xác nh t n s c a t k trong t p tài li u, ký hi u là TOTFREQk b ng
cách tính t ng t n s xu t hi n c a k trong t t c n tài li u:
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 39 Nguy n Trung Hi u - 0112216
TOTFREQK = ik
1
FREQ
n
i=
∑
Ø p x p các t gi m d n d a vào t n s xu t hi n c a nó trong t p tài
li u. Xác nh giá tr ng ng cao và lo i b t t c các t có t n s xu t hi n l n h n giá
tr này.
Ø ng t , lo i b các t có t n s th p . Ngh a là, xác nh ng ng th p
và lo i b t t c các t có t n s xu t hi n nh h n giá tr này. u này s lo i b các
ít xu t hi n trong t p tài li u, nên s có m t c a các t này c ng không nh h ng
n vi c th c hi n truy v n.
Ø Các t có t n s xu t hi n trung bình còn l i s c s d ng làm t ch
c.
Hình 4-1 Các t c s p theo th t
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 40 Nguy n Trung Hi u - 0112216
2.2 Các ph ng pháp tính tr ng s c a t
Tr ng s c a m t t ph n ánh t m quan tr ng c a t ó trong tài li u. Ý t ng
chính là m t t xu t hi n th ng xuyên trong t t c các tài li u thì ít quan tr ng h n là
ch xu t hi n t p trung trong m t s tài li u.
2.2.1 n s tài li u ngh ch o
ây là ph ng pháp tính tr ng s mà mô hình không gian vector ã s d ng
tính tr ng s c a t trong tài li u.
n: s t phân bi t trong t p tài li u
FREQik : s l n xu t hi n c a t k trong tài li u Di (t n s t )
DOCFREQk : s tài li u có ch a t k
Khi ó, tr ng s c a t k trong tài li u Di c tính nh sau:
WEIGHTik = FREQik * [log (n) – log (DOCFREQk)]
Tr ng s c a t k trong tài li u Di t ng n u t n s xu t hi n c a t k trong tài
li u i t ng và gi m n u t ng s tài li u có ch a t k t ng.
2.2.2 nhi u tín hi u (The Signal – Noise Ratio)
t quan m t ng t c xem xét ó là d a vào thông tin ánh giá t m
quan tr ng c a t . Trong th c t , n i dung thông tin c a m t n hay m t t có th
xác nh d a vào xác su t xu t hi n c a các t trong v n b n ã cho. Rõ ràng, xác su t
xu t hi n c a m t t càng cao thì thông tin mà nó ch a càng ít.
i dung thông tin c a m t t c xác nh nh sau:
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 41 Nguy n Trung Hi u - 0112216
INFORMATION= - log2 p
trong ó p là xác su t xu t hi n c a t .
Ví d : n u t “vi tính” xu t hi n 1 l n sau 10.000 t , xác su t xu t hi n c a nó là
0.0001, khi ó thông tin c a nó s là:
INFORMATION = - log2 (0.0001) = 13.278
Ng c l i, t “s ” xu t hi n 1 l n sau 10 t , xác su t xu t hi n c a nó là 0.1, khi
ó thông tin c a nó s là:
INFORMATION = -log2 (0.1) = 3.223
u m t tài li u có ch a t t , m i t có xác su t xu t hi n là pk, thông tin trung
bình c a tài li u s là:
AVERAGE INFORMATION = - 2
1
log
t
k k
k
p p
=
∑
Ta nh ngh a nhi u NOISEk c a t k trong t p g m n tài li u nh sau:
NOISEk = 2
1
log
n
ik k
i k ik
FREQ TOTFREQ
TOTFREQ FREQ=
∑
nhi u thay i ngh ch o v i “s t p trung” c a m t t trong t p tài li u.
Ngh a là, m t t có s phân ph i u trong t t c các tài li u thì nhi u c a nó càng
n, ng c l i m t t ch t p trung trong m t s tài li u nào ó thì nhi u c a nó càng
nh .
Gi s , t k xu t hi n m t l n trong m i tài li u (FREQik=1), khi ó nhi u
a nó b ng:
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 42 Nguy n Trung Hi u - 0112216
NOISEk = 2
1
1
log
1
n
i
n
n=
∑ = log2 n
Ng c l i, gi s t k ch xu t hi n trong m t tài li u, khi ó nhi u c a nó
ng:
NOISEk = 2logk k
k k
TOTFREQ TOTFREQ
TOTFREQ TOTFREQ
= 0
Hàm s ngh ch o c a nhi u, g i là signal, c tính nh sau:
SIGNALk = log2 (TOTFREQk) – NOISEk
Tr ng s c a t k trong tài li u i c tính b ng cách k t h p gi a FREQik và
SIGNALk:
WEIGHTik = FREQik * SIGNALk
2.2.3 Giá tr phân bi t t (The Term Discrimination Value)
t ch c n ng khác xác nh t m quan tr ng c a m t t là tính giá tr phân
bi t c a t ó. G i SIMILAR(Di, Dj) là t ng quan gi a c p tài li u Di, Dj. Khi ó,
t ng quan trung bình c a t p tài li u là:
AVGSIM= CONSTANT
1 1#
( , )
n n
i j
i ji j
SIMILAR D D
= =
∑ ∑
G i AVGSIMk là t ng quan trung bình c a t p tài li u khi b t k. Rõ ràng,
u t k xu t hi n th ng xuyên trong t p tài li u thì khi b t k, t ng quan trung
bình s gi m. Ng c l i, n u t k ch t p trung trong m t s tài li u, khi b t k,
ng quan trung bình s t ng lên.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 43 Nguy n Trung Hi u - 0112216
Giá tr phân bi t DISCVALUEk c a t k c tính nh sau:
DISCVALUEk = (AVGSIM)k – AVGSIM
Tr ng s c a t k trong tài li u i c tính b ng cách k t h p gi a FREQik và
DISCVALUEk:
WEIGHTik = FREQik * DISCVALUEk
2.3 p ch m c t ng cho tài li u ti ng Anh
t quá trình n gi n l p ch m c cho tài li u có th c mô t nh sau:
Ø Tr c h t, xác nh t t c các t t o thành tài li u. Trong ti ng Anh, ch
n gi n là tách t d a vào kho ng tr ng.
Ø Lo i b các t có t n s xu t hi n cao. Nh ng t này chi m kho ng 40-
50% các t , nh ã c p tr c ây, chúng có phân bi t kém do ó không th s
ng i di n cho n i dung c a tài li u. Trong ti ng Anh, các t này có kho ng 250
, do ó, n gi n có th l u chúng vào t n, g i là stop list.
Ø Sau khi lo i b các t có trong stop list, xác nh các t ch m c “t t”.
Tr c h t c n lo i b các h u t a v t g c, ví d các t nh : analysis,
analyzing, analyzer, analyzed, analysing có th chuy n v t g c là “analy.” T g c s
có t n s xu t hi n cao h n so v i các d ng thông th ng c a nó. N u s d ng t g c
làm ch m c, ta có th thu c nhi u tài li u có liên quan h n là s d ng t ban u
a nó.
i v i ti ng Anh, vi c lo i b h u t có th c th c hi n d dàng b ng cách
d ng danh sách các h u t có s n (Suffix List).
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 44 Nguy n Trung Hi u - 0112216
Sau khi có c danh sách các t g c, s d ng ph ng pháp d a vào t n s
(frequency – based) xác nh t m quan tr ng c a các t g c này. Chúng ta có th s
ng m t trong các ph ng pháp ã c c p trên nh : t n s tài li u ngh ch o
(inverse document frequency), nhi u tín hi u (SIGNALk), phân bi t t
(DISVALUEk).
Trong h th ng ch m c có tr ng s , tr ng s c a m t t c s d ng xác
nh t m quan tr ng c a t ó. M i tài li u c bi u di n là m t vector :
Di = (di1, di2, …, dit) trong ó dij là tr ng s c a t j trong tài li u Di.
Gi s có 1033 tài li u nói v y h c. Quá trình l p ch m c n gi n c th c
hi n nh sau ( trong ó ch lo i b h u t t n cùng là s):
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 45 Nguy n Trung Hi u - 0112216
Hình 4-2 Quá trình ch n t làm ch m c
3. p ch m c cho tài li u ti ng Vi t
p ch m c cho tài li u ti ng Vi t c ng t ng t nh cho ti ng Anh. Tuy nhiên
có vài m khác bi t sau:
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 46 Nguy n Trung Hi u - 0112216
Ø Giai n tách t trong ti ng Anh ch n gi n d a vào kho ng tr ng,
còn ti ng Vi t là ngôn ng n l p, m t t có th có nhi u ti ng. u này ã c
p chi ti t ch ng 3 (Tách t ). Gi s sau giai n tách t , ta s thu c m t danh
sách các t riêng bi t.
Ø i v i ti ng Vi t, không ph i qua giai n lo i b h u t .
Nói chung, l p ch m c cho tài li u ti ng Vi t g m các b c sau:
Ø Xác nh các t riêng bi t trong tài li u
Ø Lo i b các t có t n s cao. ( Trong ti ng Vi t, c ng nh ti ng Anh, ta
có m t danh sách Stop List ch a nh ng t không th là n i dung c a v n b n nh : và,
i, nh ng, gì, sao, nào, …).
Ø Lo i b các t có tr ng s th p
Ø Các t thu c s c ch n làm các t ch m c
4. p tin ngh ch o tài li u
4.1 Phân bi t gi a t p tin ngh ch o và t p tin tr c ti p
p tin tr c ti p (direct file) là t p tin mà chính các m c thông tin ã cung c p th
chính c a t p tin.
Ng c l i, t p tin ngh ch o (inverted file) c s p x p theo ch , m i ch
i bao g m m t t p các m c thông tin.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 47 Nguy n Trung Hi u - 0112216
Gi s có m t t p các tài li u, m i tài li u ch a danh sách các t . N u m t t
xu t hi n trong m t tài li u, ghi s 1. Ng c l i, ghi 0. Khi ó, t p tin tr c ti p và t p
tin ngh ch o s l u tr nh sau:
Tài li u 1 Tài li u 2 Tài li u 3
1 1 0 1
2 1 1 0
3 0 1 1
4 1 1 1
ng 4-1 Cách t p tin ngh ch o l u tr
1 2 3 4
Tài li u 1 1 1 0 1
Tài li u 2 0 1 1 1
Tài li u 3 1 0 1 1
ng 4-2 Cách t p tin tr c ti p l u tr
4.2 i sao s d ng t p tin ngh ch o l p ch m c
Trong h th ng tìm ki m thông tin, t p tin ngh ch o có ý ngh a r t l n, giúp
vi c truy c p n các m c thông tin c nhanh chóng. Gi s khi ng i dùng nh p
t câu truy v n, h th ng s tách thành 2 t là “t 1” và “t 2”. D a vào t p tin
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 48 Nguy n Trung Hi u - 0112216
ngh ch o, ta d dàng xác nh c các tài li u có liên quan n 2 t này tr v
cho ng i tìm ki m. Tuy nhiên, khó kh n chính c a t p tin ngh ch o là khi thêm m t
tài li u m i, t t c các t có liên quan n tài li u này u ph i c c p nh t l i. Ví d
khi thêm tài li u 4 có ch a 2 t “t 3” và “t 4” vào t p tin ngh ch o:
Tài li u 1 Tài li u 2 Tài li u 3 Tài li u 4
1 1 0 1 0
2 1 1 0 0
3 0 1 1 1
4 1 1 1 1
ng 4-3 Thêm m t tài li u m i vào t p tin ngh ch o
Rõ ràng vi c này t n m t chi phí l n n u t p tin ngh ch o r t l n. Trong th c
, t p tin ngh ch o tài li u có th ch a hàng tr m ngàn t . Tuy nhiên, trong các h
th ng tìm ki m thông tin, ng i ta ch c p nh t l i t p tin t i m t kho ng th i gian nh
. Vì v y, t p tin ngh ch o v n c s d ng l p ch m c.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 49 Nguy n Trung Hi u - 0112216
Ph n 2 : PHÂN TÍCH VÀ THI T K
Ch ng 5: PHÂN TÍCH
1. UseCase h th ng
Hình 5-1 S Use-case c a h th ng
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 50 Nguy n Trung Hi u - 0112216
STT ACTOR Ý NGH A
1 Admin Qu n tr h th ng
2 User Ng i s d ng ch ng trình
3 Cac tai lieu Các tài li u ã c tách t
4 Cac tai lieu lien quan cau hoi
Các tài li u tr v khi ng i s d ng nh p
vào câu h i
5 p tin chi muc
p tin ch a các t khóa cùng v i các tài
li u ch a t khóa ó
ng 5-1 Danh sách các Actor
STT USECASE Ý NGH A
1 Tach tu Tách v n b n thành các t riêng bi t
2 Tao moi t p tin chi muc o m i m t t p tin ch m c
3 Cap nhat t p tin chi muc
p nh t thêm các tài li u m i vào t p tin
ch m c có s n
4 Tim kiem
Gõ vào t khóa và ch c n ng tìm ki m s
tr v m t t p các tài li u liên quan
ng 5-2 Danh sách các UseCase
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 51 Nguy n Trung Hi u - 0112216
2. L p
2.1 các l p th hi n
Hình 5-2 S các l p th hi n
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 52 Nguy n Trung Hi u - 0112216
2.2 các l p x lý
Hình 5-3 S các l p x lý
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 53 Nguy n Trung Hi u - 0112216
3. Tách t
3.1 UseCase
Hình 5-4 S Use-case tách t
3.2 Tu n t
Hình 5-5 S tu n t tách t
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 54 Nguy n Trung Hi u - 0112216
3.3 C ng tác
Hình 5-6 S c ng tác tách t
3.4 L p
Hình 5-7 S l p tách t
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 55 Nguy n Trung Hi u - 0112216
4. p ch m c
4.1 UseCase
Hình 5-8 S use-case l p ch m c
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 56 Nguy n Trung Hi u - 0112216
4.2 Tu n t
4.2.1 o m i ch m c
Hình 5-9 S tu n t t o m i ch m c
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 57 Nguy n Trung Hi u - 0112216
4.2.2 p nh t ch m c
Hình 5-10 S tu n t c p nh t ch m c
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 58 Nguy n Trung Hi u - 0112216
4.3 C ng tác
4.3.1 o m i ch m c
Hình 5-11 S c ng tác t o m i ch m c
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 59 Nguy n Trung Hi u - 0112216
4.3.2 p nh t ch m c
Hình 5-12 S c ng tác c p nh t ch m c
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 60 Nguy n Trung Hi u - 0112216
4.4 L p
Hình 5-13 S l p l p ch m c
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 61 Nguy n Trung Hi u - 0112216
5. Tìm ki m
5.1 UseCase
Hình 5-14 S use-case tìm ki m
5.2 Tu n t
Hình 5-15 S tu n t tìm ki m
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 62 Nguy n Trung Hi u - 0112216
5.3 C ng tác
Hình 5-16 S c ng tác tìm ki m
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 63 Nguy n Trung Hi u - 0112216
5.4 L p
Hình 5-17 S l p tìm ki m
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 64 Nguy n Trung Hi u - 0112216
Ch ng 6: THI T K VÀ CÀI T
Ø Ngôn ng l p trình : C#, ASP.NET
Ø Công c l p trình : Microsoft Visual Studio .NET
Ø u tr d li u : t p tin XML
Ø ng d ng : Xây d ng h th ng tìm ki m thông tin ti ng Vi t
th ng tìm ki m s c xây d ng theo mô hình không gian Vector.
Các tài li u ti ng Vi t và câu truy v n s c tách t theo ph ng pháp Longest
Matching.
1. u trúc l u tr d li u
t c t p tin v n b n, t p tin ch a các t ã c tách, t p tin ch m c o, t p
tin ch a các t không quan tr ng, t p tin l u tr t ng quan gi a câu truy v n và tài
li u … u c l u tr d i d ng Xml.
1.1 p tin l u n i dung tài li u
ây là t p tin Xml dùng l u n i dung c a các t p tin v n b n g c, m i t p tin
ch a kho ng 50 tài li u, có c u trúc c nh, trong ch ng trình nó c l u trong th
c “VanBanXML”.
1.1.1 u trúc DTD / XSD
• DTD
<!ELEMENT NEWSPAPERS (DOC*)>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 65 Nguy n Trung Hi u - 0112216
<!ELEMENT DOC (TITLE,AUTHOR,DATE,NEWS,CONTENT)>
<!ATTLIST DOC DOC_ID CDATA #REQUIRED>
<!ELEMENT TITLE (#PCDATA)>
<!ELEMENT AUTHOR (#PCDATA)>
<!ELEMENT DATE (#PCDATA)>
<!ELEMENT NEWS (#PCDATA)>
<!ELEMENT CONTENT (#PCDATA)>
• XSD
<?xml version='1.0'?>
<schema xmlns="urn:schemas-microsoft-com:xml-data"
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here -->
<ElementType name="TITLE" content="textOnly" dt:type="string"/>
<ElementType name="AUTHOR" content="textOnly" dt:type="string"/>
<ElementType name="DATE" content="textOnly" dt:type="string"/>
<ElementType name="NEWS" content="textOnly" dt:type="string"/>
<ElementType name="CONTENT" content="textOnly"
dt:type="string"/>
<AttributeType name="DOC_ID" dt:type="string"/>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 66 Nguy n Trung Hi u - 0112216
<ElementType name="DOC" content="eltOnly" order="seq">
<attribute type="DOC_ID"/>
<element type="TITLE"/>
<element type="AUTHOR"/>
<element type="DATE"/>
<element type="NEWS"/>
<element type="CONTENT"/>
</ElementType>
<ElementType name="NEWSPAPERS" content="eltOnly">
<element type="DOC" minOccurs="1" maxOccurs="*"/>
</ElementType>
</schema>
1.1.2 Tài li u XML
<NEWSPAPERS>
<DOC DOC_ID="1">
<TITLE>Thanh niên VN: ng l c cho nh ng t m nhìn m i</TITLE>
<AUTHOR>Tác gi : .Bình</AUTHOR>
<DATE>Ngày :01/12/2000</DATE>
<NEWS>Tên t báo : Tu i tr Th lo i : ,Trang : trang 1, 14</NEWS>
<CONTENT>Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn
i. (TT-Hà N i) - T i l khai m c Di n àn thanh niên (TN) VN v i ch
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 67 Nguy n Trung Hi u - 0112216
“S n sàng cho th k 21” sáng 30-11 t i Hà N i (do H i Liên hi p TN
VN ph i h p v i các c quan LHQ t i VN t ch c), ông Edouard Wattez,
u ph i viên th ng trú LHQ t i VN, TN VN có vai trò quan tr ng trong
quá trình m c a v i th gi i... . Bình.</CONTENT>
</DOC>
……
</NEWSPAPERS>
1.2 p tin sau khi tách t tài li u
ây là t p tin Xml l u các t tách c t các t p tin v n b n g c cùng v i các
ID tham chi u t i chúng. M i t p tin ch a các t c a 50 tài li u t ng ng trong t p tin
n b n g c, trong ch ng trình các t p tin này c l u th m c “TachTu”.
1.2.1 u trúc DTD / XSD
• DTD
<!ELEMENT WORDS (WORD*)>
<!ELEMENT WORD (DOC+)>
<!ATTLIST WORD Name CDATA #REQUIRED>
<!ELEMENT DOC EMPTY>
<!ATTLIST DOC DOC_ID CDATA #REQUIRED>
• XSD
<?xml version='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data"
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 68 Nguy n Trung Hi u - 0112216
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here -->
<AttributeType name="DOC_ID" dt:type="string"/>
<AttributeType name="Name" dt:type="string"/>
<ElementType name="DOC" content="eltOnly">
<attribute type="DOC_ID"/>
</ElementType>
<ElementType name="WORD" content="eltOnly">
<attribute type="Name"/>
<element type="DOC" minOccurs="1" maxOccurs="*"/>
</ElementType>
<ElementType name="WORDS" content="eltOnly">
<element type="WORD" minOccurs="1" maxOccurs="*"/>
</ElementType>
</Schema>
1.2.2 Tài li u XML
<WORDS>
<WORD Name="thành l p">
<DOC DOC_ID="2051" />
<DOC DOC_ID="2063" />
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 69 Nguy n Trung Hi u - 0112216
<DOC DOC_ID="2091" />
</WORD>
<WORD Name="trung tâm">
<DOC DOC_ID="2091" />
<DOC DOC_ID="2092" />
<DOC DOC_ID="2099" />
</WORD>
<WORD Name=" ">
<DOC DOC_ID="2076" />
<DOC DOC_ID="2079" />
<DOC DOC_ID="2084" />
<DOC DOC_ID="2086" />
<DOC DOC_ID="2091" />
<DOC DOC_ID="2094" />
<DOC DOC_ID="2095" />
<DOC DOC_ID="2096" />
<DOC DOC_ID="2099" />
</WORD>
……
</WORDS>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 70 Nguy n Trung Hi u - 0112216
1.3 p tin ch a các t không th hi n n i dung c a v n b n (stop
list)
ây là t p tin Xml ch a các t không th hi n n i dung c a v n b n, g i là danh
sách StopList, trong ch ng trình t p tin này n m trong th m c “StopList”
1.3.1 u trúc DTD / XSD
• DTD
<!ELEMENT STOP_LIST (WORD*)>
<!ELEMENT WORD EMPTY>
<!ATTLIST WORD Name CDATA #REQUIRED>
• XSD
<?xml version='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data"
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here -->
<AttributeType name="Name" dt:type="string"/>
<ElementType name="WORD" content="eltOnly">
<attribute type="Name"/>
</ElementType>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 71 Nguy n Trung Hi u - 0112216
<ElementType name="STOP_LIST" content="eltOnly">
<element type="WORD" minOccurs="1" maxOccurs="*"/>
</ElementType>
</Schema>
1.3.2 Tài li u XML
<STOP_LIST>
<WORD Name=" i" />
<WORD Name=" ng" />
<WORD Name="và" />
<WORD Name="có" />
<WORD Name="nh ng" />
<WORD Name=" " />
<WORD Name=" i" />
</STOP_LIST>
1.4 p tin ch m c o ( Inverted ).
p tin ch m c o l u các t ch m c, m i t có các tham chi u n tài li u
ch a t ó kèm theo t n s , tr ng s c a t ó trong tài li u, trong ch ng trình t p tin
này c l u trong th m c “Inverted ”.
1.4.1 u trúc DTD / XSD
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 72 Nguy n Trung Hi u - 0112216
• DTD
<!ELEMENT Inverted_File (Term*)>
<!ELEMENT Term (DOC+)>
<!ATTLIST Term Name CDATA #REQUIRED>
<!ELEMENT DOC EMPTY>
<!ATTLIST DOC D CDATA #REQUIRED>
<!ATTLIST DOC F CDATA #REQUIRED>
<!ATTLIST DOC W CDATA #REQUIRED>
• XSD
<?xml version='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data"
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here -->
<AttributeType name="D" dt:type="string"/>
<AttributeType name="F" dt:type="int"/>
<AttributeType name="W" dt:type="fixed.14.4"/>
<AttributeType name="Name" dt:type="string"/>
<ElementType name="DOC" content="eltOnly">
<attribute type="D"/>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 73 Nguy n Trung Hi u - 0112216
<attribute type="F"/>
<attribute type="W"/>
</ElementType>
<ElementType name="Term" content="eltOnly">
<attribute type="Name"/>
<element type="DOC" minOccurs="1" maxOccurs="*"/>
</ElementType>
<ElementType name="Inverted_File" content="eltOnly">
<element type="Term" minOccurs="1" maxOccurs="*"/>
</ElementType>
</Schema>
1.4.2 Tài li u XML
<Inverted_File>
<Term Name="nhân công">
<DOC D="378" F="1" W="2.5" />
<DOC D="879" F="3" W="7.49" />
<DOC D="1584" F="1" W="2.5" />
<DOC D="1627" F="1" W="2.5" />
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 74 Nguy n Trung Hi u - 0112216
<DOC D="1659" F="1" W="2.5" />
<DOC D="1708" F="1" W="2.5" />
<DOC D="2194" F="2" W="4.99" />
</Term>
<Term Name="gia truy n">
<DOC D="942" F="1" W="2.87" />
<DOC D="1670" F="1" W="2.87" />
<DOC D="2194" F="1" W="2.87" />
</Term>
……
</Inverted_File>
1.5 p tin sau khi tách t câu h i.
p tin này ch a các t tách c trong câu h i, trong ch ng trình nó c l u
trong th m c “CauHoi”
1.5.1 u trúc DTD / XSD
• DTD
<!ELEMENT WORDS (WORD*)>
<!ELEMENT WORD EMPTY>
<!ATTLIST WORD Name CDATA #REQUIRED>
• XSD
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 75 Nguy n Trung Hi u - 0112216
<?xml version='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data"
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here -->
<AttributeType name="Name" dt:type="string"/>
<ElementType name="WORD" content="eltOnly">
<attribute type="Name"/>
</ElementType>
<ElementType name="WORDS" content="eltOnly">
<element type="WORD" minOccurs="1" maxOccurs="*"/>
</ElementType>
</Schema>
1.5.2 Tài li u XML
<WORDS>
<WORD Name=" t n c" />
<WORD Name="và" />
<WORD Name="con ng i" />
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 76 Nguy n Trung Hi u - 0112216
<WORD Name="vi t nam" />
</WORDS>
1.6 p tin ch a các t c a câu h i sau khi lo i b các t trong
danh sách StopList
p tin này c l u trong th m c “CauHoi”, tên t p tin là
“CauHoiLoaiBoStopList.xml ”
1.6.1 u trúc DTD / XSD
• DTD
<!ELEMENT WORDS (WORD*)>
<!ELEMENT WORD EMPTY>
<!ATTLIST WORD Name CDATA #REQUIRED>
• XSD
<?xml version='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data"
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here -->
<AttributeType name="Name" dt:type="string"/>
<ElementType name="WORD" content="eltOnly">
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 77 Nguy n Trung Hi u - 0112216
<attribute type="Name"/>
</ElementType>
<ElementType name="WORDS" content="eltOnly">
<element type="WORD" minOccurs="1" maxOccurs="*"/>
</ElementType>
</Schema>
1.6.2 Tài li u XML
<WORDS>
<WORD Name=" t n c" />
<WORD Name="con ng i" />
<WORD Name="vi t nam" />
</WORDS>
1.7 p tin ch a các t trong câu h i và các tài li u liên quan
p tin này ch a các t trong câu h i và các tham chi u n các tài li u ch a
các t này, kèm theo t n s , tr ng s c a m i t trong tài li u t ng ng, nó c l u
trong th m c “CauHoi” và tên t p tin là “CauHoiVaTaiLieu.xml”.
1.7.1 u trúc DTD / XSD
• DTD
<!ELEMENT WORDS (WORD*)>
<!ELEMENT WORD (Doc)>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 78 Nguy n Trung Hi u - 0112216
<!ATTLIST WORD Name CDATA #REQUIRED>
<!ELEMENT Doc EMPTY>
<!ATTLIST Doc DOC_ID CDATA #REQUIRED>
<!ATTLIST Doc Frequence CDATA #REQUIRED>
<!ATTLIST Doc Weight CDATA #REQUIRED>
• XSD
<?xml version='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data"
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here -->
<AttributeType name="DOC_ID" dt:type="string"/>
<AttributeType name="Frequence" dt:type="int"/>
<AttributeType name="Weight" dt:type="fixed.14.4"/>
<AttributeType name="Name" dt:type="string"/>
<ElementType name="DOC" content="eltOnly">
<attribute type="DOC_ID"/>
<attribute type="Frequence"/>
<attribute type="Weight"/>
</ElementType>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 79 Nguy n Trung Hi u - 0112216
<ElementType name="WORD" content="eltOnly">
<attribute type="Name"/>
<element type="DOC" minOccurs="1" maxOccurs="*"/>
</ElementType>
<ElementType name="WORDS" content="eltOnly">
<element type="WORD" minOccurs="1" maxOccurs="*"/>
</ElementType>
</Schema>
1.7.2 Tài li u XML
<WORDS>
<WORD Name=" t n c">
<Doc DOC_ID="12" Frequence="2" Weight="2.48" />
<Doc DOC_ID="13" Frequence="1" Weight="1.24" />
<Doc DOC_ID="38" Frequence="1" Weight="1.24" />
<DOC DOC_ID="2446" Frequence="0" Weight="0" />
</WORD>
<WORD Name="con ng i">
<Doc DOC_ID="12" Frequence="2" Weight="3.48" />
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 80 Nguy n Trung Hi u - 0112216
<Doc DOC_ID="13" Frequence="0" Weight="0" />
<Doc DOC_ID="38" Frequence="0" Weight="0" />
<DOC DOC_ID="2446" Frequence="0" Weight="0" />
</WORD>
<WORD Name="vi t nam">
<Doc DOC_ID="12" Frequence="1" Weight="2.48" />
<Doc DOC_ID="13" Frequence="0" Weight="0" />
<Doc DOC_ID="38" Frequence="2" Weight="2.12" />
<DOC DOC_ID="2446" Frequence="1" Weight="1.25" />
</WORD>
</WORDS>
1.8 p tin ch a t ng quan gi a câu h i và các tài li u
p tin này ch a t t c các tài li u liên quan n câu h i, m i tài li u s có
ng quan t ng ng và s t trong câu h i mà tài li u ó ch a.
1.8.1 u trúc DTD / XSD
• DTD
<!ELEMENT CAU_HOI (Doc+)>
<!ATTLIST CAU_HOI Name CDATA #REQUIRED>
<!ELEMENT Doc EMPTY>
<!ATTLIST Doc DOC_ID CDATA #REQUIRED>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 81 Nguy n Trung Hi u - 0112216
<!ATTLIST Doc SIMILAR CDATA #REQUIRED>
<!ATTLIST Doc Words CDATA #REQUIRED>
• XSD
<?xml version='1.0'?>
<Schema xmlns="urn:schemas-microsoft-com:xml-data"
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<!-- contents of XML Schema document goes here -->
<AttributeType name="DOC_ID" dt:type="string"/>
<AttributeType name="SIMILAR" dt:type="fixed.14.4"/>
<AttributeType name="Words" dt:type="int"/>
<AttributeType name="Name" dt:type="string"/>
<ElementType name="Doc" content="eltOnly">
<attribute type="DOC_ID"/>
<attribute type="SIMILAR"/>
<attribute type="Words"/>
</ElementType>
<ElementType name="CAU_HOI" content="eltOnly">
<attribute type="Name"/>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 82 Nguy n Trung Hi u - 0112216
<element type="Doc" minOccurs="1" maxOccurs="*"/>
</ElementType>
</Schema>
1.8.2 Tài li u XML
<CAU_HOI Name=" t n c và con ng i Vi t Nam">
<Doc DOC_ID="12" SIMILAR="8.44" Words="3" />
<Doc DOC_ID="13" SIMILAR="1.24" Words="1" />
<Doc DOC_ID="38" SIMILAR="4.6" Words="2" />
<Doc DOC_ID="2446" SIMILAR="1.25" Words="1" />
</CAU_HOI>
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 83 Nguy n Trung Hi u - 0112216
2. Chi ti t các l p i t ng
2.1 Các l p trong quá trình tách t
2.1.1 các l p
Hình 6-1 S l p tách t
2.1.2 p tách t ghép
Hình 6-2 L p tách t ghép
p tách t ghép s có nhi m v tách m t v n b n thành các t riêng bi t.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 84 Nguy n Trung Hi u - 0112216
u vào là m t chu i v n b n và u ra là m t chu i ch a các t , m i t s cách nhau
i d u xu ng dòng ( ‘rn’ ).
Ví d :
chu i u vào = “Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn m i.”
chu i u ra = “Thanh niênrnVNrn ng l crnchornnh ngrný t ngrn
irnt m nhìnrnm irn”.
2.1.2.1 Ý ngh a c a các bi n thành ph n:
• ch : m ng các ký t c bi t (d u ch m, d u ph y, ch m than, ch m h i, hai
ch m,…) tách v n b n thành các c m t .
• hVietnamese : b ng b m l u t t c các t trong t n ti ng Vi t.
2.1.2.2 Các hàm chính :
- Hàm TachThanhCumTu( ) : tách chu i v n b n thành các c m t d a
vào các kí t c bi t nh : d u ch m, ph y, ch m h i, ch m than…
* Thu t toán :
void TachThanhCumTu (chu i v n b n)
{
while(g p t c bi t u tiên trong chu i v n b n)
{
// C t ph n u thành m t c m t .
// Gán chu i v n b n thành ph n sau.
}
}
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 85 Nguy n Trung Hi u - 0112216
Ví d :
chu i u vào = “Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn m i.”
tr v ta s có 3 chu i c m t :
chu i 1 = “Thanh niên VN”
chu i 2 = “ ng l c cho nh ng ý t ng m i”
chu i 3 = “t m nhìn m i”
- Hàm TachMangTieng( ) : tách m t c m t thành t ng ti ng d a vào kh ang
tr ng.
* Thu t toán :
void TachMangTieng(c m t )
{
while(g p ký t kho ng tr ng u tiên trong c m t )
{
// C t ph n u thành m t ti ng.
// Gán c m t thành ph n sau.
}
}
Ví d :
chu i u vào = “ ng l c cho nh ng ý t ng m i” tr v là m ng chu i ch a các
ti ng = { ng”;”l c”;”cho” “nh ng”;”ý”;”t ng”;”m i”}
- Hàm XacDinhTu( ) : g p các ti ng l i thành t , so sánh trong t n ti ng
Vi t và ta s l u l i các t này vào m ng các t .
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 86 Nguy n Trung Hi u - 0112216
* Thu t toán :
void XacDinhTu(m ng các ti ng)
{
B1 : gán t = ti ng u tiên.
B2 : so sánh t có trong t n hay không.
B3 : n u t có trong t n và có 2 ti ng tr lên thì ta s l u l i.
B4 : N u trong m ng ti ng v n còn thì t := t + ti ng ti p theo.
Ng c l i k t thúc hàm.
B5 : Quay l i B2
}
i các m ng ti ng c a ví d trên sau khi g i hàm này thì ta s có m ng các t
nh sau:
ng chu i các t ={” ng l c”;”cho” “nh ng”;”ý t ng”; ”m i”}
2.1.3 p tách t
Hình 6-3 L p tách t
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 87 Nguy n Trung Hi u - 0112216
p tách t s có nhi m v t o t p tin v n b n Xml t t p tin v n b n g c, sau
ó s trích các t trong v n b n và cu i cùng l u l i các t trích c cùng v i các tài
li u ch a t ó thành t p tin Xml tách t .
2.1.3.1 Ý ngh a c a các bi n thành ph n:
• ttg : i t ng thu c l p CTachTuGhep
2.1.3.2 Các hàm chính :
- Hàm TaoXML( ) : chuy n m t t p tin v n b n có c u trúc thành t p tin XML
* Thu t toán :
void TaoXML (t p tin v n b n)
{
T o t p tin Xml l u l i n i dung t p tin v n b n.
// D ch con tr t p tin
while(ch a h t t p tin v n b n)
{
B1 : tìm t khóa DOC l y ph n giá tr .
B2 : tìm t khóa TITLE l y ph n giá tr .
B3 : tìm t khóa AUTHOR l y ph n giá tr .
B4 : tìm t khóa DATE l y ph n giá tr .
B5 : tìm t khóa NEW l y ph n giá tr .
B6 : tìm t khóa CONTENT l y ph n giá tr .
l u l i ph n giá tr vào t p tin Xml.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 88 Nguy n Trung Hi u - 0112216
}// ENDWHILE
}
- Hàm Tachtu( ) : c ph n n i dung c a t p tin XML v n b n và dùng i
ng thu c l p CTachTuGhep trích thành các t .
* Thu t toán :
string Tachtu (t p tin v n b n Xml)
{
- y ph n n i dung (CONTENT) trong t p tin Xml
- Dùng i t ng c a l p tách t ghép tách t .
- t qu tr v s là m t m ng ch a các t riêng bi t.
}
- Hàm KetQuaToXmlWord( ) : các t sau khi trích s c l u thành t p tin
XML m i g i là “t p tin sau khi tách t tài li u”
* Thu t toán :
void KetQuaToXmlWord(chu i ch a các t )
{
B1 : T o m t t p tin Xml
B2 : Tách ra t ng t trong chu i
B3 : Ki m tra t ó có l u trong t p tin Xml ch a ?
o u ch a : l u t ó và l u tài li u t ng ng
o u r i : ki m tra tài li u ó ã c l u trong t ó ch a.
u ch a ta m i l u tài li u ó.
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 89 Nguy n Trung Hi u - 0112216
B4 : N u ch a h t chu i quay l i b c 2.
B5 : L u t p tin Xml l i.
}
2.1.4 p giao di n tách t
Hình 6-4 L p giao di n tách t
* Giao di n tách t :
Hình 6-5 Màn hình tách t
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 90 Nguy n Trung Hi u - 0112216
- Ng i dùng có th ch n ng d n t i các t p tin v n b n c n tách t .
- ListBox1 ch a các t p tin v n b n trong ng d n ã ch n.
- ListBox2 ch a các t p tin v n b n c ch n tách t .
- ListBox3 ch a các t p tin xml ã c tách t .
- ListBox4 ch a các DocID trong t p tin xml ã c tách t . Vì m t t p tin v n b n
xml s ch a nhi u tài li u và m i tài li u s có 1 DocID. Ng i dùng có th ch n
DocID nào ó xem k t qu tách t và t n s c a m i t trong tài li u ó. Sau khi
ch n m t DocID s có giao di n nh sau :
Hình 6-6 Màn hình chi ti t tách t
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Nguy n Th Thanh Hà - 0112215 91 Nguy n Trung Hi u - 0112216
- Hàm x lý TachTu_Click( ) : hàm này s tách t t t c các t p tin c ch n trong
ListBox2.
2.2 Các l p trong quá trình l p ch m c
2.2.1 các l p
Hình 6-7 S l p l p ch m c
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet
He thong tim_kiem_thong_tin_tieng_viet

More Related Content

What's hot

Luận văn: Hạn chế rủi ro tín dụng tại ngân hàng nông nghiệp và phát triển nôn...
Luận văn: Hạn chế rủi ro tín dụng tại ngân hàng nông nghiệp và phát triển nôn...Luận văn: Hạn chế rủi ro tín dụng tại ngân hàng nông nghiệp và phát triển nôn...
Luận văn: Hạn chế rủi ro tín dụng tại ngân hàng nông nghiệp và phát triển nôn...
Viết thuê trọn gói ZALO 0934573149
 
Phan tich-va-thiet-ke-he-thong-quan-ly-sinh-vien-10c9a5-139333-khotailieu.com...
Phan tich-va-thiet-ke-he-thong-quan-ly-sinh-vien-10c9a5-139333-khotailieu.com...Phan tich-va-thiet-ke-he-thong-quan-ly-sinh-vien-10c9a5-139333-khotailieu.com...
Phan tich-va-thiet-ke-he-thong-quan-ly-sinh-vien-10c9a5-139333-khotailieu.com...
Thành Được Lê
 
Luận án: Tăng cường khả năng tự tạo việc làm cho thanh thiếu niên Việt Nam
Luận án: Tăng cường khả năng tự tạo việc làm cho thanh thiếu niên Việt NamLuận án: Tăng cường khả năng tự tạo việc làm cho thanh thiếu niên Việt Nam
Luận án: Tăng cường khả năng tự tạo việc làm cho thanh thiếu niên Việt Nam
Dịch vụ viết thuê Khóa Luận - ZALO 0932091562
 
Luận án: Hoạt động tài chính của các doanh nghiệp công nghiệp trên thị trường...
Luận án: Hoạt động tài chính của các doanh nghiệp công nghiệp trên thị trường...Luận án: Hoạt động tài chính của các doanh nghiệp công nghiệp trên thị trường...
Luận án: Hoạt động tài chính của các doanh nghiệp công nghiệp trên thị trường...
Viết thuê trọn gói ZALO 0934573149
 
Luận án: Hoàn thiện quản lý nhà nước đối với cơ sở hạ tầng đô thị du lịch ở V...
Luận án: Hoàn thiện quản lý nhà nước đối với cơ sở hạ tầng đô thị du lịch ở V...Luận án: Hoàn thiện quản lý nhà nước đối với cơ sở hạ tầng đô thị du lịch ở V...
Luận án: Hoàn thiện quản lý nhà nước đối với cơ sở hạ tầng đô thị du lịch ở V...
Dịch vụ viết thuê Khóa Luận - ZALO 0932091562
 
Luận án: Quản lý rủi ro tín dụng tại Ngân hàng Thương mại CP Công thương VN
Luận án: Quản lý rủi ro tín dụng tại Ngân hàng Thương mại CP Công thương VNLuận án: Quản lý rủi ro tín dụng tại Ngân hàng Thương mại CP Công thương VN
Luận án: Quản lý rủi ro tín dụng tại Ngân hàng Thương mại CP Công thương VN
Dịch vụ viết thuê Khóa Luận - ZALO 0932091562
 
Luận án: Cơ cấu lại các ngân hàng thương mại nhà nước Việt Nam trong giai đoạ...
Luận án: Cơ cấu lại các ngân hàng thương mại nhà nước Việt Nam trong giai đoạ...Luận án: Cơ cấu lại các ngân hàng thương mại nhà nước Việt Nam trong giai đoạ...
Luận án: Cơ cấu lại các ngân hàng thương mại nhà nước Việt Nam trong giai đoạ...
Dịch vụ viết thuê Khóa Luận - ZALO 0932091562
 
NÂNG CAO NĂNG LỰC CẠNH TRANH CỦA CÁC NGÂN HÀNG THƯƠNG MẠI VIỆT NAM KHI VIỆT N...
NÂNG CAO NĂNG LỰC CẠNH TRANH CỦA CÁC NGÂN HÀNG THƯƠNG MẠI VIỆT NAM KHI VIỆT N...NÂNG CAO NĂNG LỰC CẠNH TRANH CỦA CÁC NGÂN HÀNG THƯƠNG MẠI VIỆT NAM KHI VIỆT N...
NÂNG CAO NĂNG LỰC CẠNH TRANH CỦA CÁC NGÂN HÀNG THƯƠNG MẠI VIỆT NAM KHI VIỆT N...
vietlod.com
 
Luận văn: Nâng cao năng lực cạnh tranh của các ngân hàng thương mại Việt Nam ...
Luận văn: Nâng cao năng lực cạnh tranh của các ngân hàng thương mại Việt Nam ...Luận văn: Nâng cao năng lực cạnh tranh của các ngân hàng thương mại Việt Nam ...
Luận văn: Nâng cao năng lực cạnh tranh của các ngân hàng thương mại Việt Nam ...
Viết thuê trọn gói ZALO 0934573149
 
đảM bảo tài chính cho bảo hiểm xã hội việt nam
đảM bảo tài chính cho bảo hiểm xã hội việt namđảM bảo tài chính cho bảo hiểm xã hội việt nam
đảM bảo tài chính cho bảo hiểm xã hội việt nam
https://www.facebook.com/garmentspace
 
Luận văn thạc sĩ ngân hàng hoạch định chiến lược kinh doanh của ngân hàng
Luận văn thạc sĩ ngân hàng hoạch định chiến lược kinh doanh của ngân hàngLuận văn thạc sĩ ngân hàng hoạch định chiến lược kinh doanh của ngân hàng
Luận văn thạc sĩ ngân hàng hoạch định chiến lược kinh doanh của ngân hàng
Royal Scent
 
Luận văn: Giải pháp phát triển thị trường phi nhân thọ ở VN, HAY
Luận văn: Giải pháp phát triển thị trường phi nhân thọ ở VN, HAYLuận văn: Giải pháp phát triển thị trường phi nhân thọ ở VN, HAY
Luận văn: Giải pháp phát triển thị trường phi nhân thọ ở VN, HAY
Viết thuê trọn gói ZALO 0934573149
 
Luận văn: Quản trị rủi ro hoạt động tại Ngân hàng MBBank, 9d
Luận văn: Quản trị rủi ro hoạt động tại Ngân hàng MBBank, 9dLuận văn: Quản trị rủi ro hoạt động tại Ngân hàng MBBank, 9d
Luận văn: Quản trị rủi ro hoạt động tại Ngân hàng MBBank, 9d
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Luận án: Nâng cao chất lượng đội ngũ công chức hành chính Nhà nước tỉnh Hải D...
Luận án: Nâng cao chất lượng đội ngũ công chức hành chính Nhà nước tỉnh Hải D...Luận án: Nâng cao chất lượng đội ngũ công chức hành chính Nhà nước tỉnh Hải D...
Luận án: Nâng cao chất lượng đội ngũ công chức hành chính Nhà nước tỉnh Hải D...
Dịch vụ viết thuê Khóa Luận - ZALO 0932091562
 
Bao cáo tom tat qhtt nganh thuy san
Bao cáo tom tat qhtt nganh thuy sanBao cáo tom tat qhtt nganh thuy san
Bao cáo tom tat qhtt nganh thuy san
Đỗ Thuận
 
Luận án: Nghiên cứu phát triển đầu tư trực tiếp của các doanh nghiệp Việt Nam...
Luận án: Nghiên cứu phát triển đầu tư trực tiếp của các doanh nghiệp Việt Nam...Luận án: Nghiên cứu phát triển đầu tư trực tiếp của các doanh nghiệp Việt Nam...
Luận án: Nghiên cứu phát triển đầu tư trực tiếp của các doanh nghiệp Việt Nam...
Viết thuê trọn gói ZALO 0934573149
 
Luận văn: Phát triển đối tượng tham gia bảo hiểm xã hội tự nguyện trên địa bà...
Luận văn: Phát triển đối tượng tham gia bảo hiểm xã hội tự nguyện trên địa bà...Luận văn: Phát triển đối tượng tham gia bảo hiểm xã hội tự nguyện trên địa bà...
Luận văn: Phát triển đối tượng tham gia bảo hiểm xã hội tự nguyện trên địa bà...
Dịch vụ viết thuê Khóa Luận - ZALO 0932091562
 
Xây dựng phân hệ kế toán tiền mặt tại Công ty Cổ phần đầu tư tài chính và thư...
Xây dựng phân hệ kế toán tiền mặt tại Công ty Cổ phần đầu tư tài chính và thư...Xây dựng phân hệ kế toán tiền mặt tại Công ty Cổ phần đầu tư tài chính và thư...
Xây dựng phân hệ kế toán tiền mặt tại Công ty Cổ phần đầu tư tài chính và thư...
 
Luận văn: Đổi mới cơ chế tài chính Tập đoàn Điện lực Việt Nam, HAY
Luận văn: Đổi mới cơ chế tài chính Tập đoàn Điện lực Việt Nam, HAYLuận văn: Đổi mới cơ chế tài chính Tập đoàn Điện lực Việt Nam, HAY
Luận văn: Đổi mới cơ chế tài chính Tập đoàn Điện lực Việt Nam, HAY
Dịch vụ viết thuê Khóa Luận - ZALO 0932091562
 

What's hot (19)

Luận văn: Hạn chế rủi ro tín dụng tại ngân hàng nông nghiệp và phát triển nôn...
Luận văn: Hạn chế rủi ro tín dụng tại ngân hàng nông nghiệp và phát triển nôn...Luận văn: Hạn chế rủi ro tín dụng tại ngân hàng nông nghiệp và phát triển nôn...
Luận văn: Hạn chế rủi ro tín dụng tại ngân hàng nông nghiệp và phát triển nôn...
 
Phan tich-va-thiet-ke-he-thong-quan-ly-sinh-vien-10c9a5-139333-khotailieu.com...
Phan tich-va-thiet-ke-he-thong-quan-ly-sinh-vien-10c9a5-139333-khotailieu.com...Phan tich-va-thiet-ke-he-thong-quan-ly-sinh-vien-10c9a5-139333-khotailieu.com...
Phan tich-va-thiet-ke-he-thong-quan-ly-sinh-vien-10c9a5-139333-khotailieu.com...
 
Luận án: Tăng cường khả năng tự tạo việc làm cho thanh thiếu niên Việt Nam
Luận án: Tăng cường khả năng tự tạo việc làm cho thanh thiếu niên Việt NamLuận án: Tăng cường khả năng tự tạo việc làm cho thanh thiếu niên Việt Nam
Luận án: Tăng cường khả năng tự tạo việc làm cho thanh thiếu niên Việt Nam
 
Luận án: Hoạt động tài chính của các doanh nghiệp công nghiệp trên thị trường...
Luận án: Hoạt động tài chính của các doanh nghiệp công nghiệp trên thị trường...Luận án: Hoạt động tài chính của các doanh nghiệp công nghiệp trên thị trường...
Luận án: Hoạt động tài chính của các doanh nghiệp công nghiệp trên thị trường...
 
Luận án: Hoàn thiện quản lý nhà nước đối với cơ sở hạ tầng đô thị du lịch ở V...
Luận án: Hoàn thiện quản lý nhà nước đối với cơ sở hạ tầng đô thị du lịch ở V...Luận án: Hoàn thiện quản lý nhà nước đối với cơ sở hạ tầng đô thị du lịch ở V...
Luận án: Hoàn thiện quản lý nhà nước đối với cơ sở hạ tầng đô thị du lịch ở V...
 
Luận án: Quản lý rủi ro tín dụng tại Ngân hàng Thương mại CP Công thương VN
Luận án: Quản lý rủi ro tín dụng tại Ngân hàng Thương mại CP Công thương VNLuận án: Quản lý rủi ro tín dụng tại Ngân hàng Thương mại CP Công thương VN
Luận án: Quản lý rủi ro tín dụng tại Ngân hàng Thương mại CP Công thương VN
 
Luận án: Cơ cấu lại các ngân hàng thương mại nhà nước Việt Nam trong giai đoạ...
Luận án: Cơ cấu lại các ngân hàng thương mại nhà nước Việt Nam trong giai đoạ...Luận án: Cơ cấu lại các ngân hàng thương mại nhà nước Việt Nam trong giai đoạ...
Luận án: Cơ cấu lại các ngân hàng thương mại nhà nước Việt Nam trong giai đoạ...
 
NÂNG CAO NĂNG LỰC CẠNH TRANH CỦA CÁC NGÂN HÀNG THƯƠNG MẠI VIỆT NAM KHI VIỆT N...
NÂNG CAO NĂNG LỰC CẠNH TRANH CỦA CÁC NGÂN HÀNG THƯƠNG MẠI VIỆT NAM KHI VIỆT N...NÂNG CAO NĂNG LỰC CẠNH TRANH CỦA CÁC NGÂN HÀNG THƯƠNG MẠI VIỆT NAM KHI VIỆT N...
NÂNG CAO NĂNG LỰC CẠNH TRANH CỦA CÁC NGÂN HÀNG THƯƠNG MẠI VIỆT NAM KHI VIỆT N...
 
Luận văn: Nâng cao năng lực cạnh tranh của các ngân hàng thương mại Việt Nam ...
Luận văn: Nâng cao năng lực cạnh tranh của các ngân hàng thương mại Việt Nam ...Luận văn: Nâng cao năng lực cạnh tranh của các ngân hàng thương mại Việt Nam ...
Luận văn: Nâng cao năng lực cạnh tranh của các ngân hàng thương mại Việt Nam ...
 
đảM bảo tài chính cho bảo hiểm xã hội việt nam
đảM bảo tài chính cho bảo hiểm xã hội việt namđảM bảo tài chính cho bảo hiểm xã hội việt nam
đảM bảo tài chính cho bảo hiểm xã hội việt nam
 
Luận văn thạc sĩ ngân hàng hoạch định chiến lược kinh doanh của ngân hàng
Luận văn thạc sĩ ngân hàng hoạch định chiến lược kinh doanh của ngân hàngLuận văn thạc sĩ ngân hàng hoạch định chiến lược kinh doanh của ngân hàng
Luận văn thạc sĩ ngân hàng hoạch định chiến lược kinh doanh của ngân hàng
 
Luận văn: Giải pháp phát triển thị trường phi nhân thọ ở VN, HAY
Luận văn: Giải pháp phát triển thị trường phi nhân thọ ở VN, HAYLuận văn: Giải pháp phát triển thị trường phi nhân thọ ở VN, HAY
Luận văn: Giải pháp phát triển thị trường phi nhân thọ ở VN, HAY
 
Luận văn: Quản trị rủi ro hoạt động tại Ngân hàng MBBank, 9d
Luận văn: Quản trị rủi ro hoạt động tại Ngân hàng MBBank, 9dLuận văn: Quản trị rủi ro hoạt động tại Ngân hàng MBBank, 9d
Luận văn: Quản trị rủi ro hoạt động tại Ngân hàng MBBank, 9d
 
Luận án: Nâng cao chất lượng đội ngũ công chức hành chính Nhà nước tỉnh Hải D...
Luận án: Nâng cao chất lượng đội ngũ công chức hành chính Nhà nước tỉnh Hải D...Luận án: Nâng cao chất lượng đội ngũ công chức hành chính Nhà nước tỉnh Hải D...
Luận án: Nâng cao chất lượng đội ngũ công chức hành chính Nhà nước tỉnh Hải D...
 
Bao cáo tom tat qhtt nganh thuy san
Bao cáo tom tat qhtt nganh thuy sanBao cáo tom tat qhtt nganh thuy san
Bao cáo tom tat qhtt nganh thuy san
 
Luận án: Nghiên cứu phát triển đầu tư trực tiếp của các doanh nghiệp Việt Nam...
Luận án: Nghiên cứu phát triển đầu tư trực tiếp của các doanh nghiệp Việt Nam...Luận án: Nghiên cứu phát triển đầu tư trực tiếp của các doanh nghiệp Việt Nam...
Luận án: Nghiên cứu phát triển đầu tư trực tiếp của các doanh nghiệp Việt Nam...
 
Luận văn: Phát triển đối tượng tham gia bảo hiểm xã hội tự nguyện trên địa bà...
Luận văn: Phát triển đối tượng tham gia bảo hiểm xã hội tự nguyện trên địa bà...Luận văn: Phát triển đối tượng tham gia bảo hiểm xã hội tự nguyện trên địa bà...
Luận văn: Phát triển đối tượng tham gia bảo hiểm xã hội tự nguyện trên địa bà...
 
Xây dựng phân hệ kế toán tiền mặt tại Công ty Cổ phần đầu tư tài chính và thư...
Xây dựng phân hệ kế toán tiền mặt tại Công ty Cổ phần đầu tư tài chính và thư...Xây dựng phân hệ kế toán tiền mặt tại Công ty Cổ phần đầu tư tài chính và thư...
Xây dựng phân hệ kế toán tiền mặt tại Công ty Cổ phần đầu tư tài chính và thư...
 
Luận văn: Đổi mới cơ chế tài chính Tập đoàn Điện lực Việt Nam, HAY
Luận văn: Đổi mới cơ chế tài chính Tập đoàn Điện lực Việt Nam, HAYLuận văn: Đổi mới cơ chế tài chính Tập đoàn Điện lực Việt Nam, HAY
Luận văn: Đổi mới cơ chế tài chính Tập đoàn Điện lực Việt Nam, HAY
 

Viewers also liked

[123doc.vn] anne toc do duoi chai nha xanh l m montgomery
[123doc.vn]   anne toc do duoi chai nha xanh l m montgomery[123doc.vn]   anne toc do duoi chai nha xanh l m montgomery
[123doc.vn] anne toc do duoi chai nha xanh l m montgomeryViet Nam
 
Bat loi chinh_ta_tieng_viet
Bat loi chinh_ta_tieng_vietBat loi chinh_ta_tieng_viet
Bat loi chinh_ta_tieng_vietViet Nam
 
Ch3 gian do-pha
Ch3 gian do-phaCh3 gian do-pha
Ch3 gian do-phaViet Nam
 
Search engine viet
Search engine vietSearch engine viet
Search engine vietViet Nam
 
Báo cáo thực tập tổng hợp tại tổng công ty thăm dò khai thác dầu khí
Báo cáo thực tập tổng hợp tại tổng công ty thăm dò khai thác dầu khíBáo cáo thực tập tổng hợp tại tổng công ty thăm dò khai thác dầu khí
Báo cáo thực tập tổng hợp tại tổng công ty thăm dò khai thác dầu khíViet Nam
 
[123doc.vn] doko vn 1780015 bac si ai bo lit cooc nay tru
[123doc.vn]   doko vn 1780015 bac si ai bo lit cooc nay tru[123doc.vn]   doko vn 1780015 bac si ai bo lit cooc nay tru
[123doc.vn] doko vn 1780015 bac si ai bo lit cooc nay truViet Nam
 
Lap khdakd
Lap khdakdLap khdakd
Lap khdakdViet Nam
 
Chất thải của ngành công nghiệp thuộc da và tác động của nó với môi trường
Chất thải của ngành công nghiệp thuộc da và tác động của nó với môi trườngChất thải của ngành công nghiệp thuộc da và tác động của nó với môi trường
Chất thải của ngành công nghiệp thuộc da và tác động của nó với môi trườngViet Nam
 
Bat goi tin_tren_mang
Bat goi tin_tren_mangBat goi tin_tren_mang
Bat goi tin_tren_mangViet Nam
 
He thong ho_tro_ra_quyet_dinh
He thong ho_tro_ra_quyet_dinhHe thong ho_tro_ra_quyet_dinh
He thong ho_tro_ra_quyet_dinhViet Nam
 
Lay tin tu_web
Lay tin tu_webLay tin tu_web
Lay tin tu_webViet Nam
 
Bao mat ung_dung_web
Bao mat ung_dung_webBao mat ung_dung_web
Bao mat ung_dung_webViet Nam
 
[123doc.vn] 825 han tu co ban kem nghia
[123doc.vn]   825 han tu co ban kem nghia[123doc.vn]   825 han tu co ban kem nghia
[123doc.vn] 825 han tu co ban kem nghiaViet Nam
 
Bai giang cau tao kien truc
Bai giang  cau tao kien trucBai giang  cau tao kien truc
Bai giang cau tao kien trucViet Nam
 

Viewers also liked (19)

[123doc.vn] anne toc do duoi chai nha xanh l m montgomery
[123doc.vn]   anne toc do duoi chai nha xanh l m montgomery[123doc.vn]   anne toc do duoi chai nha xanh l m montgomery
[123doc.vn] anne toc do duoi chai nha xanh l m montgomery
 
Bat loi chinh_ta_tieng_viet
Bat loi chinh_ta_tieng_vietBat loi chinh_ta_tieng_viet
Bat loi chinh_ta_tieng_viet
 
Ch3 gian do-pha
Ch3 gian do-phaCh3 gian do-pha
Ch3 gian do-pha
 
Ch6 hkm
Ch6 hkmCh6 hkm
Ch6 hkm
 
Search engine viet
Search engine vietSearch engine viet
Search engine viet
 
Chuong 06
Chuong 06Chuong 06
Chuong 06
 
Chuong 03
Chuong 03Chuong 03
Chuong 03
 
Báo cáo thực tập tổng hợp tại tổng công ty thăm dò khai thác dầu khí
Báo cáo thực tập tổng hợp tại tổng công ty thăm dò khai thác dầu khíBáo cáo thực tập tổng hợp tại tổng công ty thăm dò khai thác dầu khí
Báo cáo thực tập tổng hợp tại tổng công ty thăm dò khai thác dầu khí
 
Chuong 01
Chuong 01Chuong 01
Chuong 01
 
[123doc.vn] doko vn 1780015 bac si ai bo lit cooc nay tru
[123doc.vn]   doko vn 1780015 bac si ai bo lit cooc nay tru[123doc.vn]   doko vn 1780015 bac si ai bo lit cooc nay tru
[123doc.vn] doko vn 1780015 bac si ai bo lit cooc nay tru
 
Lap khdakd
Lap khdakdLap khdakd
Lap khdakd
 
Chất thải của ngành công nghiệp thuộc da và tác động của nó với môi trường
Chất thải của ngành công nghiệp thuộc da và tác động của nó với môi trườngChất thải của ngành công nghiệp thuộc da và tác động của nó với môi trường
Chất thải của ngành công nghiệp thuộc da và tác động của nó với môi trường
 
Bat goi tin_tren_mang
Bat goi tin_tren_mangBat goi tin_tren_mang
Bat goi tin_tren_mang
 
He thong ho_tro_ra_quyet_dinh
He thong ho_tro_ra_quyet_dinhHe thong ho_tro_ra_quyet_dinh
He thong ho_tro_ra_quyet_dinh
 
Lay tin tu_web
Lay tin tu_webLay tin tu_web
Lay tin tu_web
 
Bao mat ung_dung_web
Bao mat ung_dung_webBao mat ung_dung_web
Bao mat ung_dung_web
 
Qtsx
QtsxQtsx
Qtsx
 
[123doc.vn] 825 han tu co ban kem nghia
[123doc.vn]   825 han tu co ban kem nghia[123doc.vn]   825 han tu co ban kem nghia
[123doc.vn] 825 han tu co ban kem nghia
 
Bai giang cau tao kien truc
Bai giang  cau tao kien trucBai giang  cau tao kien truc
Bai giang cau tao kien truc
 

Similar to He thong tim_kiem_thong_tin_tieng_viet

Tim kiem ngu_nghia_tren_e_doc
Tim kiem ngu_nghia_tren_e_docTim kiem ngu_nghia_tren_e_doc
Tim kiem ngu_nghia_tren_e_docViet Nam
 
Tim kiem ngu_nghia_tren_e_doc
Tim kiem ngu_nghia_tren_e_docTim kiem ngu_nghia_tren_e_doc
Tim kiem ngu_nghia_tren_e_docDuy Vọng
 
Luận văn: Hoàn thiện chế độ bảo hiểm xã hội tai nạn lao động và bệnh nghề ngh...
Luận văn: Hoàn thiện chế độ bảo hiểm xã hội tai nạn lao động và bệnh nghề ngh...Luận văn: Hoàn thiện chế độ bảo hiểm xã hội tai nạn lao động và bệnh nghề ngh...
Luận văn: Hoàn thiện chế độ bảo hiểm xã hội tai nạn lao động và bệnh nghề ngh...
Viết thuê trọn gói ZALO 0934573149
 
Đề tài: Hoàn thiện quản trị rủi ro tín dụng tại ngân hàng Đại Á
Đề tài: Hoàn thiện quản trị rủi ro tín dụng tại ngân hàng Đại ÁĐề tài: Hoàn thiện quản trị rủi ro tín dụng tại ngân hàng Đại Á
Đề tài: Hoàn thiện quản trị rủi ro tín dụng tại ngân hàng Đại Á
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Đề tài hoàn thiện quản trị rủi ro tín dụng, ĐIỂM CAO
Đề tài hoàn thiện quản trị rủi ro tín dụng, ĐIỂM CAOĐề tài hoàn thiện quản trị rủi ro tín dụng, ĐIỂM CAO
Đề tài hoàn thiện quản trị rủi ro tín dụng, ĐIỂM CAO
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Đề tài giải pháp quản trị rủi ro tín dụng, HAY, ĐIỂM CAO
Đề tài giải pháp quản trị rủi ro tín dụng, HAY, ĐIỂM CAOĐề tài giải pháp quản trị rủi ro tín dụng, HAY, ĐIỂM CAO
Đề tài giải pháp quản trị rủi ro tín dụng, HAY, ĐIỂM CAO
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Giáo trình tin học đại cương đỗ thị mơ[bookbooming.com]
Giáo trình tin học đại cương   đỗ thị mơ[bookbooming.com]Giáo trình tin học đại cương   đỗ thị mơ[bookbooming.com]
Giáo trình tin học đại cương đỗ thị mơ[bookbooming.com]bookbooming1
 
Giáo trình tin học đại cương đỗ thị mơ[bookbooming.com]
Giáo trình tin học đại cương   đỗ thị mơ[bookbooming.com]Giáo trình tin học đại cương   đỗ thị mơ[bookbooming.com]
Giáo trình tin học đại cương đỗ thị mơ[bookbooming.com]bookbooming1
 
Luận án: Phát triển kỹ năng dạy học hợp tác cho giáo viên THCS
Luận án: Phát triển kỹ năng dạy học hợp tác cho giáo viên THCSLuận án: Phát triển kỹ năng dạy học hợp tác cho giáo viên THCS
Luận án: Phát triển kỹ năng dạy học hợp tác cho giáo viên THCS
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Quan điểm của chủ nghĩa mác Lênin về vấn đề dân tộc
Quan điểm của chủ nghĩa mác Lênin về vấn đề dân tộcQuan điểm của chủ nghĩa mác Lênin về vấn đề dân tộc
Quan điểm của chủ nghĩa mác Lênin về vấn đề dân tộc
Dịch vụ Làm Luận Văn 0936885877
 
Công Tác Đào Tạo Và Phát Triển Nguồn Nhân Lực Tại Công Ty Cổ Phần Tư Vấn Xây ...
Công Tác Đào Tạo Và Phát Triển Nguồn Nhân Lực Tại Công Ty Cổ Phần Tư Vấn Xây ...Công Tác Đào Tạo Và Phát Triển Nguồn Nhân Lực Tại Công Ty Cổ Phần Tư Vấn Xây ...
Công Tác Đào Tạo Và Phát Triển Nguồn Nhân Lực Tại Công Ty Cổ Phần Tư Vấn Xây ...
nataliej4
 
CÁC NHÂN TỐ ẢNH HƢỞNG ĐẾN PHÁT TRIỂN CÁC DOANH NGHIỆP CÔNG NGHIỆP NHỎ VÀ VỪA ...
CÁC NHÂN TỐ ẢNH HƢỞNG ĐẾN PHÁT TRIỂN CÁC DOANH NGHIỆP CÔNG NGHIỆP NHỎ VÀ VỪA ...CÁC NHÂN TỐ ẢNH HƢỞNG ĐẾN PHÁT TRIỂN CÁC DOANH NGHIỆP CÔNG NGHIỆP NHỎ VÀ VỪA ...
CÁC NHÂN TỐ ẢNH HƢỞNG ĐẾN PHÁT TRIỂN CÁC DOANH NGHIỆP CÔNG NGHIỆP NHỎ VÀ VỪA ...
phamhieu56
 
CÁC NHÂN TỐ ẢNH HƢỞNG ĐẾN PHÁT TRIỂN CÁC DOANH NGHIỆP CÔNG NGHIỆP NHỎ VÀ VỪA ...
CÁC NHÂN TỐ ẢNH HƢỞNG ĐẾN PHÁT TRIỂN CÁC DOANH NGHIỆP CÔNG NGHIỆP NHỎ VÀ VỪA ...CÁC NHÂN TỐ ẢNH HƢỞNG ĐẾN PHÁT TRIỂN CÁC DOANH NGHIỆP CÔNG NGHIỆP NHỎ VÀ VỪA ...
CÁC NHÂN TỐ ẢNH HƢỞNG ĐẾN PHÁT TRIỂN CÁC DOANH NGHIỆP CÔNG NGHIỆP NHỎ VÀ VỪA ...
TiLiu5
 
Luận án: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doa...
Luận án: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doa...Luận án: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doa...
Luận án: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doa...
Viết thuê trọn gói ZALO 0934573149
 
ĐỀ XUẤT CÁC GIẢI PHÁP NÂNG CAO ĐỘ TIN CẬY CỦA LƯỚI ĐIỆN PHÂN PHỐI HUYỆN QUẢNG...
ĐỀ XUẤT CÁC GIẢI PHÁP NÂNG CAO ĐỘ TIN CẬY CỦA LƯỚI ĐIỆN PHÂN PHỐI HUYỆN QUẢNG...ĐỀ XUẤT CÁC GIẢI PHÁP NÂNG CAO ĐỘ TIN CẬY CỦA LƯỚI ĐIỆN PHÂN PHỐI HUYỆN QUẢNG...
ĐỀ XUẤT CÁC GIẢI PHÁP NÂNG CAO ĐỘ TIN CẬY CỦA LƯỚI ĐIỆN PHÂN PHỐI HUYỆN QUẢNG...
nataliej4
 
Luận văn: Quản trị rủi ro Tín dụng tại Ngân hàng Vietinbank, 9d
Luận văn: Quản trị rủi ro Tín dụng tại Ngân hàng Vietinbank, 9dLuận văn: Quản trị rủi ro Tín dụng tại Ngân hàng Vietinbank, 9d
Luận văn: Quản trị rủi ro Tín dụng tại Ngân hàng Vietinbank, 9d
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Ứng dụng Etabs 9.7 trong tính toán công trình - Trần An Bình
Ứng dụng Etabs 9.7 trong tính toán công trình - Trần An BìnhỨng dụng Etabs 9.7 trong tính toán công trình - Trần An Bình
Ứng dụng Etabs 9.7 trong tính toán công trình - Trần An Bình
Huytraining
 
Luận án: Quản trị rủi ro lãi suất tại các Ngân hàng Thương mại VN
Luận án: Quản trị rủi ro lãi suất tại các Ngân hàng Thương mại VNLuận án: Quản trị rủi ro lãi suất tại các Ngân hàng Thương mại VN
Luận án: Quản trị rủi ro lãi suất tại các Ngân hàng Thương mại VN
Viết thuê trọn gói ZALO 0934573149
 
Chương trình quản lý thực phẩm hàng ngày tại một trường mầm non
Chương trình quản lý thực phẩm hàng ngày tại một trường mầm nonChương trình quản lý thực phẩm hàng ngày tại một trường mầm non
Chương trình quản lý thực phẩm hàng ngày tại một trường mầm non
Dịch vụ viết bài trọn gói ZALO: 0909232620
 
Đề tài: Quản lý thực phẩm hàng ngày tại trường mầm non, HAY
Đề tài: Quản lý thực phẩm hàng ngày tại trường mầm non, HAYĐề tài: Quản lý thực phẩm hàng ngày tại trường mầm non, HAY
Đề tài: Quản lý thực phẩm hàng ngày tại trường mầm non, HAY
Dịch vụ viết bài trọn gói ZALO 0917193864
 

Similar to He thong tim_kiem_thong_tin_tieng_viet (20)

Tim kiem ngu_nghia_tren_e_doc
Tim kiem ngu_nghia_tren_e_docTim kiem ngu_nghia_tren_e_doc
Tim kiem ngu_nghia_tren_e_doc
 
Tim kiem ngu_nghia_tren_e_doc
Tim kiem ngu_nghia_tren_e_docTim kiem ngu_nghia_tren_e_doc
Tim kiem ngu_nghia_tren_e_doc
 
Luận văn: Hoàn thiện chế độ bảo hiểm xã hội tai nạn lao động và bệnh nghề ngh...
Luận văn: Hoàn thiện chế độ bảo hiểm xã hội tai nạn lao động và bệnh nghề ngh...Luận văn: Hoàn thiện chế độ bảo hiểm xã hội tai nạn lao động và bệnh nghề ngh...
Luận văn: Hoàn thiện chế độ bảo hiểm xã hội tai nạn lao động và bệnh nghề ngh...
 
Đề tài: Hoàn thiện quản trị rủi ro tín dụng tại ngân hàng Đại Á
Đề tài: Hoàn thiện quản trị rủi ro tín dụng tại ngân hàng Đại ÁĐề tài: Hoàn thiện quản trị rủi ro tín dụng tại ngân hàng Đại Á
Đề tài: Hoàn thiện quản trị rủi ro tín dụng tại ngân hàng Đại Á
 
Đề tài hoàn thiện quản trị rủi ro tín dụng, ĐIỂM CAO
Đề tài hoàn thiện quản trị rủi ro tín dụng, ĐIỂM CAOĐề tài hoàn thiện quản trị rủi ro tín dụng, ĐIỂM CAO
Đề tài hoàn thiện quản trị rủi ro tín dụng, ĐIỂM CAO
 
Đề tài giải pháp quản trị rủi ro tín dụng, HAY, ĐIỂM CAO
Đề tài giải pháp quản trị rủi ro tín dụng, HAY, ĐIỂM CAOĐề tài giải pháp quản trị rủi ro tín dụng, HAY, ĐIỂM CAO
Đề tài giải pháp quản trị rủi ro tín dụng, HAY, ĐIỂM CAO
 
Giáo trình tin học đại cương đỗ thị mơ[bookbooming.com]
Giáo trình tin học đại cương   đỗ thị mơ[bookbooming.com]Giáo trình tin học đại cương   đỗ thị mơ[bookbooming.com]
Giáo trình tin học đại cương đỗ thị mơ[bookbooming.com]
 
Giáo trình tin học đại cương đỗ thị mơ[bookbooming.com]
Giáo trình tin học đại cương   đỗ thị mơ[bookbooming.com]Giáo trình tin học đại cương   đỗ thị mơ[bookbooming.com]
Giáo trình tin học đại cương đỗ thị mơ[bookbooming.com]
 
Luận án: Phát triển kỹ năng dạy học hợp tác cho giáo viên THCS
Luận án: Phát triển kỹ năng dạy học hợp tác cho giáo viên THCSLuận án: Phát triển kỹ năng dạy học hợp tác cho giáo viên THCS
Luận án: Phát triển kỹ năng dạy học hợp tác cho giáo viên THCS
 
Quan điểm của chủ nghĩa mác Lênin về vấn đề dân tộc
Quan điểm của chủ nghĩa mác Lênin về vấn đề dân tộcQuan điểm của chủ nghĩa mác Lênin về vấn đề dân tộc
Quan điểm của chủ nghĩa mác Lênin về vấn đề dân tộc
 
Công Tác Đào Tạo Và Phát Triển Nguồn Nhân Lực Tại Công Ty Cổ Phần Tư Vấn Xây ...
Công Tác Đào Tạo Và Phát Triển Nguồn Nhân Lực Tại Công Ty Cổ Phần Tư Vấn Xây ...Công Tác Đào Tạo Và Phát Triển Nguồn Nhân Lực Tại Công Ty Cổ Phần Tư Vấn Xây ...
Công Tác Đào Tạo Và Phát Triển Nguồn Nhân Lực Tại Công Ty Cổ Phần Tư Vấn Xây ...
 
CÁC NHÂN TỐ ẢNH HƢỞNG ĐẾN PHÁT TRIỂN CÁC DOANH NGHIỆP CÔNG NGHIỆP NHỎ VÀ VỪA ...
CÁC NHÂN TỐ ẢNH HƢỞNG ĐẾN PHÁT TRIỂN CÁC DOANH NGHIỆP CÔNG NGHIỆP NHỎ VÀ VỪA ...CÁC NHÂN TỐ ẢNH HƢỞNG ĐẾN PHÁT TRIỂN CÁC DOANH NGHIỆP CÔNG NGHIỆP NHỎ VÀ VỪA ...
CÁC NHÂN TỐ ẢNH HƢỞNG ĐẾN PHÁT TRIỂN CÁC DOANH NGHIỆP CÔNG NGHIỆP NHỎ VÀ VỪA ...
 
CÁC NHÂN TỐ ẢNH HƢỞNG ĐẾN PHÁT TRIỂN CÁC DOANH NGHIỆP CÔNG NGHIỆP NHỎ VÀ VỪA ...
CÁC NHÂN TỐ ẢNH HƢỞNG ĐẾN PHÁT TRIỂN CÁC DOANH NGHIỆP CÔNG NGHIỆP NHỎ VÀ VỪA ...CÁC NHÂN TỐ ẢNH HƢỞNG ĐẾN PHÁT TRIỂN CÁC DOANH NGHIỆP CÔNG NGHIỆP NHỎ VÀ VỪA ...
CÁC NHÂN TỐ ẢNH HƢỞNG ĐẾN PHÁT TRIỂN CÁC DOANH NGHIỆP CÔNG NGHIỆP NHỎ VÀ VỪA ...
 
Luận án: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doa...
Luận án: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doa...Luận án: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doa...
Luận án: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doa...
 
ĐỀ XUẤT CÁC GIẢI PHÁP NÂNG CAO ĐỘ TIN CẬY CỦA LƯỚI ĐIỆN PHÂN PHỐI HUYỆN QUẢNG...
ĐỀ XUẤT CÁC GIẢI PHÁP NÂNG CAO ĐỘ TIN CẬY CỦA LƯỚI ĐIỆN PHÂN PHỐI HUYỆN QUẢNG...ĐỀ XUẤT CÁC GIẢI PHÁP NÂNG CAO ĐỘ TIN CẬY CỦA LƯỚI ĐIỆN PHÂN PHỐI HUYỆN QUẢNG...
ĐỀ XUẤT CÁC GIẢI PHÁP NÂNG CAO ĐỘ TIN CẬY CỦA LƯỚI ĐIỆN PHÂN PHỐI HUYỆN QUẢNG...
 
Luận văn: Quản trị rủi ro Tín dụng tại Ngân hàng Vietinbank, 9d
Luận văn: Quản trị rủi ro Tín dụng tại Ngân hàng Vietinbank, 9dLuận văn: Quản trị rủi ro Tín dụng tại Ngân hàng Vietinbank, 9d
Luận văn: Quản trị rủi ro Tín dụng tại Ngân hàng Vietinbank, 9d
 
Ứng dụng Etabs 9.7 trong tính toán công trình - Trần An Bình
Ứng dụng Etabs 9.7 trong tính toán công trình - Trần An BìnhỨng dụng Etabs 9.7 trong tính toán công trình - Trần An Bình
Ứng dụng Etabs 9.7 trong tính toán công trình - Trần An Bình
 
Luận án: Quản trị rủi ro lãi suất tại các Ngân hàng Thương mại VN
Luận án: Quản trị rủi ro lãi suất tại các Ngân hàng Thương mại VNLuận án: Quản trị rủi ro lãi suất tại các Ngân hàng Thương mại VN
Luận án: Quản trị rủi ro lãi suất tại các Ngân hàng Thương mại VN
 
Chương trình quản lý thực phẩm hàng ngày tại một trường mầm non
Chương trình quản lý thực phẩm hàng ngày tại một trường mầm nonChương trình quản lý thực phẩm hàng ngày tại một trường mầm non
Chương trình quản lý thực phẩm hàng ngày tại một trường mầm non
 
Đề tài: Quản lý thực phẩm hàng ngày tại trường mầm non, HAY
Đề tài: Quản lý thực phẩm hàng ngày tại trường mầm non, HAYĐề tài: Quản lý thực phẩm hàng ngày tại trường mầm non, HAY
Đề tài: Quản lý thực phẩm hàng ngày tại trường mầm non, HAY
 

More from Viet Nam

Nnt gt lich_sunb_quyen149
Nnt gt lich_sunb_quyen149Nnt gt lich_sunb_quyen149
Nnt gt lich_sunb_quyen149Viet Nam
 
Nnt gt lich_sunb_quyen145
Nnt gt lich_sunb_quyen145Nnt gt lich_sunb_quyen145
Nnt gt lich_sunb_quyen145Viet Nam
 
Nnt gt lich_sunb_quyen144
Nnt gt lich_sunb_quyen144Nnt gt lich_sunb_quyen144
Nnt gt lich_sunb_quyen144Viet Nam
 
Nnt gt lich_sunb_quyen143
Nnt gt lich_sunb_quyen143Nnt gt lich_sunb_quyen143
Nnt gt lich_sunb_quyen143Viet Nam
 
Nnt gt lich_sunb_quyen142
Nnt gt lich_sunb_quyen142Nnt gt lich_sunb_quyen142
Nnt gt lich_sunb_quyen142Viet Nam
 
Nnt gt lich_sunb_quyen139
Nnt gt lich_sunb_quyen139Nnt gt lich_sunb_quyen139
Nnt gt lich_sunb_quyen139Viet Nam
 
Nnt gt lich_sunb_quyen138
Nnt gt lich_sunb_quyen138Nnt gt lich_sunb_quyen138
Nnt gt lich_sunb_quyen138Viet Nam
 
Nnt gt lich_sunb_quyen137
Nnt gt lich_sunb_quyen137Nnt gt lich_sunb_quyen137
Nnt gt lich_sunb_quyen137Viet Nam
 
Nnt gt lich_sunb_quyen135
Nnt gt lich_sunb_quyen135Nnt gt lich_sunb_quyen135
Nnt gt lich_sunb_quyen135Viet Nam
 
Nnt gt lich_sunb_quyen132
Nnt gt lich_sunb_quyen132Nnt gt lich_sunb_quyen132
Nnt gt lich_sunb_quyen132Viet Nam
 
Nnt gt lich_sunb_quyen127
Nnt gt lich_sunb_quyen127Nnt gt lich_sunb_quyen127
Nnt gt lich_sunb_quyen127Viet Nam
 
Nnt gt lich_sunb_quyen126
Nnt gt lich_sunb_quyen126Nnt gt lich_sunb_quyen126
Nnt gt lich_sunb_quyen126Viet Nam
 
Nnt gt lich_sunb_quyen124
Nnt gt lich_sunb_quyen124Nnt gt lich_sunb_quyen124
Nnt gt lich_sunb_quyen124Viet Nam
 
Nnt gt lich_sunb_quyen122
Nnt gt lich_sunb_quyen122Nnt gt lich_sunb_quyen122
Nnt gt lich_sunb_quyen122Viet Nam
 
Nnt gt lich_sunb_quyen121
Nnt gt lich_sunb_quyen121Nnt gt lich_sunb_quyen121
Nnt gt lich_sunb_quyen121Viet Nam
 
Nnt gt lich_sunb_quyen120
Nnt gt lich_sunb_quyen120Nnt gt lich_sunb_quyen120
Nnt gt lich_sunb_quyen120Viet Nam
 
Nnt gt lich_sunb_quyen119
Nnt gt lich_sunb_quyen119Nnt gt lich_sunb_quyen119
Nnt gt lich_sunb_quyen119Viet Nam
 
Nnt gt lich_sunb_quyen118
Nnt gt lich_sunb_quyen118Nnt gt lich_sunb_quyen118
Nnt gt lich_sunb_quyen118Viet Nam
 
Nnt gt lich_sunb_quyen117
Nnt gt lich_sunb_quyen117Nnt gt lich_sunb_quyen117
Nnt gt lich_sunb_quyen117Viet Nam
 
Nnt gt lich_sunb_quyen116
Nnt gt lich_sunb_quyen116Nnt gt lich_sunb_quyen116
Nnt gt lich_sunb_quyen116Viet Nam
 

More from Viet Nam (20)

Nnt gt lich_sunb_quyen149
Nnt gt lich_sunb_quyen149Nnt gt lich_sunb_quyen149
Nnt gt lich_sunb_quyen149
 
Nnt gt lich_sunb_quyen145
Nnt gt lich_sunb_quyen145Nnt gt lich_sunb_quyen145
Nnt gt lich_sunb_quyen145
 
Nnt gt lich_sunb_quyen144
Nnt gt lich_sunb_quyen144Nnt gt lich_sunb_quyen144
Nnt gt lich_sunb_quyen144
 
Nnt gt lich_sunb_quyen143
Nnt gt lich_sunb_quyen143Nnt gt lich_sunb_quyen143
Nnt gt lich_sunb_quyen143
 
Nnt gt lich_sunb_quyen142
Nnt gt lich_sunb_quyen142Nnt gt lich_sunb_quyen142
Nnt gt lich_sunb_quyen142
 
Nnt gt lich_sunb_quyen139
Nnt gt lich_sunb_quyen139Nnt gt lich_sunb_quyen139
Nnt gt lich_sunb_quyen139
 
Nnt gt lich_sunb_quyen138
Nnt gt lich_sunb_quyen138Nnt gt lich_sunb_quyen138
Nnt gt lich_sunb_quyen138
 
Nnt gt lich_sunb_quyen137
Nnt gt lich_sunb_quyen137Nnt gt lich_sunb_quyen137
Nnt gt lich_sunb_quyen137
 
Nnt gt lich_sunb_quyen135
Nnt gt lich_sunb_quyen135Nnt gt lich_sunb_quyen135
Nnt gt lich_sunb_quyen135
 
Nnt gt lich_sunb_quyen132
Nnt gt lich_sunb_quyen132Nnt gt lich_sunb_quyen132
Nnt gt lich_sunb_quyen132
 
Nnt gt lich_sunb_quyen127
Nnt gt lich_sunb_quyen127Nnt gt lich_sunb_quyen127
Nnt gt lich_sunb_quyen127
 
Nnt gt lich_sunb_quyen126
Nnt gt lich_sunb_quyen126Nnt gt lich_sunb_quyen126
Nnt gt lich_sunb_quyen126
 
Nnt gt lich_sunb_quyen124
Nnt gt lich_sunb_quyen124Nnt gt lich_sunb_quyen124
Nnt gt lich_sunb_quyen124
 
Nnt gt lich_sunb_quyen122
Nnt gt lich_sunb_quyen122Nnt gt lich_sunb_quyen122
Nnt gt lich_sunb_quyen122
 
Nnt gt lich_sunb_quyen121
Nnt gt lich_sunb_quyen121Nnt gt lich_sunb_quyen121
Nnt gt lich_sunb_quyen121
 
Nnt gt lich_sunb_quyen120
Nnt gt lich_sunb_quyen120Nnt gt lich_sunb_quyen120
Nnt gt lich_sunb_quyen120
 
Nnt gt lich_sunb_quyen119
Nnt gt lich_sunb_quyen119Nnt gt lich_sunb_quyen119
Nnt gt lich_sunb_quyen119
 
Nnt gt lich_sunb_quyen118
Nnt gt lich_sunb_quyen118Nnt gt lich_sunb_quyen118
Nnt gt lich_sunb_quyen118
 
Nnt gt lich_sunb_quyen117
Nnt gt lich_sunb_quyen117Nnt gt lich_sunb_quyen117
Nnt gt lich_sunb_quyen117
 
Nnt gt lich_sunb_quyen116
Nnt gt lich_sunb_quyen116Nnt gt lich_sunb_quyen116
Nnt gt lich_sunb_quyen116
 

He thong tim_kiem_thong_tin_tieng_viet

  • 1. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 1 Nguy n Trung Hi u - 0112216 I C M N Chúng em xin g i l i c m n chân thành nh t n th y H B o Qu c, ng i ã n tình h ng d n, giúp chúng em trong su t th i gian th c hi n lu n v n này. Chúng con c m n Cha, M và gia ình, nh ng ng i ã d y d , khuy n khích, ng viên chúng con trong nh ng lúc khó kh n, t o m i u ki n cho chúng con nghiên c u h c t p. Chúng em c m n các th y, cô trong khoa Công Ngh Thông Tin ã dìu d t, gi ng d y chúng em, giúp chúng em có nh ng ki n th c quý báu trong nh ng n m h c qua. m n ch Lê Thúy Ng c và các b n ã t n tình óng góp ý ki n cho lu n v n a chúng tôi. c dù r t c g ng nh ng lu n v n c a chúng em không tránh kh i sai sót, mong nh n c s thông c m và góp ý c a th y cô và các b n. Tháng 7 n m 2005 Sinh viên Nguy n Th Thanh Hà – Nguy n Trung Hi u
  • 2. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 2 Nguy n Trung Hi u - 0112216 NH N XÉT C A GIÁO VIÊN H NG D N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………….... …………………………………………………………………………………… Ngày…… tháng……n m 2005 Ký tên
  • 3. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 3 Nguy n Trung Hi u - 0112216 NH N XÉT C A GIÁO VIÊN PH N BI N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………….... …………………………………………………………………………………… Ngày…… tháng……n m 2005 Ký tên
  • 4. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 4 Nguy n Trung Hi u - 0112216 C L C DANH SÁCH CÁC B NG...................................................................................8 DANH SÁCH CÁC HÌNH V ..............................................................................8 Ph n 1 : TÌM HI U LÝ THUY T..........................................................................11 Ch ng 1: T NG QUAN V TÌM KI M THÔNG TIN...................................11 1. Gi i thi u v tìm ki m thông tin......................................................................11 1.1 Khái ni m v tìm ki m thông tin................................................................11 1.2 M t s v n trong vi c tìm ki m thông tin: .............................................11 2. H tìm ki m thông tin – IRS............................................................................12 3. Các thành ph n c a m t h tìm ki m thông tin [1.1]........................................13 4. So sánh IRS v i các h th ng thông tin khác ...................................................14 4.1 H qu n tr c s d li u (DBMS)..............................................................15 4.2 H qu n lý thông tin (IMS) ........................................................................15 4.3 H h tr ra quy t nh (DSS)....................................................................16 4.4 H tr l i câu h i (QAS) ............................................................................16 4.5 So sánh IRS v i các h th ng thông tin khác..............................................17 Ch ng 2: XÂY D NG M T H TH NG TÌM KI M THÔNG TIN............18 1. Ki n trúc c a h tìm ki m thông tin. [1.3]........................................................18 2. M t s mô hình xây d ng m t h tìm ki m thông tin [1.2]..........................19 2.1 Mô hình không gian vector ........................................................................19 2.2 Tìm ki m Boolean .....................................................................................21 2.3 Tìm ki m Boolean m r ng .......................................................................22 2.4 M r ng trong vi c thêm vào tr ng s c a câu h i.....................................23 2.4.1 M r ng cho s t tu ý ......................................................................23 2.4.2 Thêm toán t t ng ..........................................................................24 2.5 Mô hình xác su t........................................................................................24 2.6 ánh giá chung v các mô hình .................................................................25 3. Các b c xây d ng m t h tìm ki m thông tin. [3.2]...................................25 3.1 Tách t t ng cho t p các tài li u............................................................25 3.2 L p ch m c cho tài li u.............................................................................25 3.3 Tìm ki m ...................................................................................................26 3.4 S p x p các tài li u tr v (Ranking)..........................................................26 4. Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki m thông tin ti ng Vi t .....................................................................................................................26 4.1 Khó kh n trong vi c tách t ti ng Vi t.......................................................27 4.2 V n b ng mã ti ng Vi t.........................................................................27
  • 5. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 5 Nguy n Trung Hi u - 0112216 4.3 Các khó kh n khác.....................................................................................27 Ch ng 3: TÁCH T T NG........................................................................29 1. Tách t trong Ti ng Anh .................................................................................29 2. Tách t trong Ti ng Vi t .................................................................................29 2.1 M t s c m chính v t ti ng Vi t [2.2]..............................................29 2.1.1 Ti ng...................................................................................................29 2.1.2 T .......................................................................................................30 2.2 Tách t t ng ti ng Vi t .........................................................................30 3. Các ph ng pháp tách t ti ng Vi t.................................................................30 3.1 fnTBL (Fast Transformation-based learning) [3.1].....................................30 3.1.1 Mô t ...................................................................................................30 3.1.2 Áp d ng tách t ti ng Vi t...................................................................31 3.2 Longest Matching [1.4]..............................................................................37 3.3 K t h p gi a fnTBL và Longest Matching.................................................37 Ch ng 4: L P CH M C ..................................................................................38 1. Khái quát v h th ng l p ch m c...................................................................38 2. Ph ng pháp l p ch m c [1.1]........................................................................38 2.1 Xác nh các t ch m c.............................................................................38 2.2 Các ph ng pháp tính tr ng s c a t ........................................................40 2.2.1 T n s tài li u ngh ch o....................................................................40 2.2.2 nhi u tín hi u (The Signal – Noise Ratio) ......................................40 2.2.3 Giá tr phân bi t t (The Term Discrimination Value) .........................42 2.3 L p ch m c t ng cho tài li u ti ng Anh................................................43 3. L p ch m c cho tài li u ti ng Vi t ..................................................................45 4. T p tin ngh ch o tài li u ...............................................................................46 4.1 Phân bi t gi a t p tin ngh ch o và t p tin tr c ti p..................................46 4.2 T i sao s d ng t p tin ngh ch o l p ch m c .....................................47 Ph n 2 : PHÂN TÍCH VÀ THI T K ....................................................................49 Ch ng 5: PHÂN TÍCH.......................................................................................49 1. S UseCase h th ng..................................................................................49 2. S L p........................................................................................................51 2.1 S các l p th hi n................................................................................51 2.2 S các l p x lý ....................................................................................52 3. Tách t ............................................................................................................53 3.1 S UseCase...........................................................................................53 3.2 S Tu n t ............................................................................................53
  • 6. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 6 Nguy n Trung Hi u - 0112216 3.3 S C ng tác...........................................................................................54 3.4 S L p..................................................................................................54 4. L p ch m c.....................................................................................................55 4.1 S UseCase...........................................................................................55 4.2 S Tu n t ............................................................................................56 4.2.1 T o m i ch m c .................................................................................56 4.2.2 C p nh t ch m c.................................................................................57 4.3 S C ng tác...........................................................................................58 4.3.1 T o m i ch m c .................................................................................58 4.3.2 C p nh t ch m c.................................................................................59 4.4 S L p..................................................................................................60 5. Tìm ki m.........................................................................................................61 5.1 S UseCase...........................................................................................61 5.2 S Tu n t ............................................................................................61 5.3 S C ng tác...........................................................................................62 5.4 S L p..................................................................................................63 Ch ng 6: THI T K VÀ CÀI T..................................................................64 1. C u trúc l u tr d li u....................................................................................64 1.1 T p tin l u n i dung tài li u.......................................................................64 1.1.1 C u trúc DTD / XSD...........................................................................64 1.1.2 Tài li u XML ......................................................................................66 1.2 T p tin sau khi tách t tài li u ....................................................................67 1.2.1 C u trúc DTD / XSD...........................................................................67 1.2.2 Tài li u XML ......................................................................................68 1.3 T p tin ch a các t không th hi n n i dung c a v n b n (stop list)...........70 1.3.1 C u trúc DTD / XSD...........................................................................70 1.3.2 Tài li u XML ......................................................................................71 1.4 T p tin ch m c o ( Inverted ). ................................................................71 1.4.1 C u trúc DTD / XSD...........................................................................71 1.4.2 Tài li u XML ......................................................................................73 1.5 T p tin sau khi tách t câu h i....................................................................74 1.5.1 C u trúc DTD / XSD...........................................................................74 1.5.2 Tài li u XML ......................................................................................75 1.6 T p tin ch a các t c a câu h i sau khi lo i b các t trong danh sách StopList ...........................................................................................................76 1.6.1 C u trúc DTD / XSD...........................................................................76 1.6.2 Tài li u XML ......................................................................................77 1.7 T p tin ch a các t trong câu h i và các tài li u liên quan..........................77 1.7.1 C u trúc DTD / XSD...........................................................................77
  • 7. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 7 Nguy n Trung Hi u - 0112216 1.7.2 Tài li u XML ......................................................................................79 1.8 T p tin ch a t ng quan gi a câu h i và các tài li u.............................80 1.8.1 C u trúc DTD / XSD...........................................................................80 1.8.2 Tài li u XML ......................................................................................82 2. Chi ti t các l p i t ng ................................................................................83 2.1 Các l p trong quá trình tách t ...................................................................83 2.1.1 S các l p......................................................................................83 2.1.2 L p tách t ghép..................................................................................83 2.1.3 L p tách t ..........................................................................................86 2.1.4 L p giao di n tách t ...........................................................................89 2.2 Các l p trong quá trình l p ch m c ...........................................................91 2.2.1 S các l p.......................................................................................91 2.2.2 L p l p ch m c...................................................................................92 2.2.3 L p giao di n t o m i ch m c ............................................................94 2.2.4 L p giao di n c p nh t ch m c...........................................................96 2.3 Các l p trong quá trình tìm ki m................................................................98 2.3.1 S các l p.......................................................................................98 2.3.2 L p tìm ki m.......................................................................................99 2.3.3 L p giao di n tìm ki m .....................................................................105 3. M t s màn hình giao di n khác ....................................................................109 3.1 Màn hình chính c a ch ng trình.............................................................109 3.2 Màn hình tìm ki m nhi u câu h i.............................................................110 3.3 Màn hình tìm ki m chính ( giao di n Web)..............................................112 3.4 Màn hình tr v các tài li u tìm c ( giao di n Web) ............................113 3.5 Màn hình chi ti t c a m t tài li u ( giao di n Web)..................................114 Ph n 3 : T NG K T..............................................................................................115 1. Ch ng trình th nghi m...............................................................................115 2. ánh giá k t qu t c .............................................................................115 3. H ng phát tri n............................................................................................116 TÀI LI U THAM KH O .................................................................................117 1. Sách...............................................................................................................117 2. Lu n v n........................................................................................................117 3. Website .........................................................................................................117
  • 8. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 8 Nguy n Trung Hi u - 0112216 DANH SÁCH CÁC B NG ng 1-1 So sánh IRS v i các h th ng thông tin khác ..........................................................17 ng 4-1 Cách t p tin ngh ch o l u tr ...............................................................................47 ng 4-2 Cách t p tin tr c ti p l u tr ...................................................................................47 ng 4-3 Thêm m t tài li u m i vào t p tin ngh ch o.........................................................48 ng 5-1 Danh sách các Actor...............................................................................................50 ng 5-2 Danh sách các UseCase..........................................................................................50 DANH SÁCH CÁC HÌNH V Hình 1-1 Môi tr ng c a h tìm ki m thông tin.....................................................................13 Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin..........................................14 Hình 2-1 H tìm ki m thông tin tiêu bi u...............................................................................18 Hình 3-1 Quá trình h c..........................................................................................................35 Hình 3-2 Giai n xác nh t cho tài li u m i.....................................................................36 Hình 4-1 Các t c s p theo th t ....................................................................................39 Hình 4-2 Quá trình ch n t làm ch m c................................................................................45 Hình 5-1 S Use-case c a h th ng...................................................................................49 Hình 5-2 S các l p th hi n.............................................................................................51 Hình 5-3 S các l p x lý.................................................................................................52 Hình 5-4 S Use-case tách t ............................................................................................53 Hình 5-5 S tu n t tách t ...............................................................................................53 Hình 5-6 S c ng tác tách t .............................................................................................54 Hình 5-7 S l p tách t .....................................................................................................54 Hình 5-8 S use-case l p ch m c .....................................................................................55 Hình 5-9 S tu n t t o m i ch m c ................................................................................56 Hình 5-10 S tu n t c p nh t ch m c ............................................................................57 Hình 5-11 S c ng tác t o m i ch m c ............................................................................58 Hình 5-12 S c ng tác c p nh t ch m c ...........................................................................59 Hình 5-13 S l p l p ch m c ...........................................................................................60 Hình 5-14 S use-case tìm ki m .......................................................................................61 Hình 5-15 S tu n t tìm ki m..........................................................................................61 Hình 5-16 S c ng tác tìm ki m .......................................................................................62 Hình 5-17 S l p tìm ki m ...............................................................................................63 Hình 6-1 S l p tách t .....................................................................................................83 Hình 6-2 L p tách t ghép.....................................................................................................83
  • 9. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 9 Nguy n Trung Hi u - 0112216 Hình 6-3 L p tách t .............................................................................................................86 Hình 6-4 L p giao di n tách t ..............................................................................................89 Hình 6-5 Màn hình tách t .....................................................................................................89 Hình 6-6 Màn hình chi ti t tách t .........................................................................................90 Hình 6-7 S l p l p ch m c .............................................................................................91 Hình 6-8 L p l p ch m c......................................................................................................92 Hình 6-9 L p giao di n t o m i ch m c................................................................................94 Hình 6-10 Màn hình t o m i ch m c ....................................................................................95 Hình 6-11 L p Màn hình c p nh t ch m c............................................................................96 Hình 6-12 Màn hình c p nh t ch m c ...................................................................................97 Hình 6-13 S l p tìm ki m ...............................................................................................98 Hình 6-14 L p x lý tìm ki m...............................................................................................99 Hình 6-15 L p giao di n tìm ki m.......................................................................................105 Hình 6-16 Màn hình tìm ki m .............................................................................................106 Hình 6-17 Xem t khóa câu h i...........................................................................................106 Hình 6-18 Xem t khóa tài li u ...........................................................................................107 Hình 6-19 Màn hình chính...................................................................................................109 Hình 6-20 Màn hình tìm ki m nhi u câu h i........................................................................110 Hình 6-21 Giao di n tìm ki m trên Web..............................................................................112 Hình 6-22 Giao di n các tài li u tr v sau khi tìm ki m......................................................113 Hình 6-23 Giao di n chi ti t n i dung c a tài li u ................................................................114
  • 10. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 10 Nguy n Trung Hi u - 0112216 U Trong th i i bùng n thông tin nh hi n nay, thông tin c l u tr trên máy tính ngày càng nhi u do ó vi c tìm ki m thông tin chính xác là nhu c u thi t y u i i m i ng i trong m i l nh v c. Internet hi n nay ã tr thành m t kho t li u kh ng mà vi c tìm ki m thông tin trên kho t li u này c n ph i c h tr b i các công c tìm ki m (search engine) t t. Các h th ng tìm ki m thông tin thông d ng nh Google, Yahoo Search ã áp ng c ph n nào nhu c u ó c a m i ng i. Tuy nhiên, các h th ng này c xây d ng x lý và tìm ki m các v n b n ti ng Châu Âu, chúng ch a th t s phù h p cho các v n b n ti ng Vi t. Do ó nhu c u ph i có m t công c tìm ki m “hi u” và x lý t t các v n b n tí ng Vi t. Các h tìm ki m thông tin u ph i th c hi n giai n l p ch m c (indexing) cho v n b n trích các t ch m c (index term) bi u di n t t nh t n i dung c a v n n. Giai n này ph thu c vào ngôn ng c a v n b n và ph ng pháp x lý t ng ngôn ng ó. Hi n nay ch a có nhi u h th ng tìm ki m thông tin trên kho tài li u ti ng Vi t có khai thác các c tr ng c a ti ng Vi t cho vi c l p ch m c. Vì v y m c tiêu c a lu n v n này nh m xây d ng m t h th ng tìm ki m thông tin b ng ti ng Vi t có s d ng các k t qu c a x lý ngôn ng t nhiên t ng xác nh c các ch m c là các t (word) hay t ghép (compound word) c a ti ng Vi t.
  • 11. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 11 Nguy n Trung Hi u - 0112216 Ph n 1 : TÌM HI U LÝ THUY T Ch ng 1: NG QUAN V TÌM KI M THÔNG TIN 1. Gi i thi u v tìm ki m thông tin 1.1 Khái ni m v tìm ki m thông tin Tìm ki m thông tin là tìm ki m trong m t t p tài li u l y ra các thông tin mà ng i tìm ki m quan tâm. 1.2 t s v n trong vi c tìm ki m thông tin: t nh ng n m 40, các v n trong vi c l u tr thông tin và tìm ki m thông tin ã thu hút s chú ý r t l n. V i m t l ng thông tin kh ng l thì vi c tìm ki m chính xác và nhanh chóng càng tr nên khó kh n h n. V i s ra i c a máy tính, r t nhi u ý t ng l n c a ra nh m cung c p m t h th ng tìm ki m thông minh và chính xác. Tuy nhiên, v n tìm ki m sao cho hi u qu v n ch a c gi i quy t. nguyên t c, vi c l u tr thông tin và tìm ki m thông tin thì n gi n. Gi s có m t kho ch a các tài li u và m t ng i mu n tìm các tài li u liên quan n yêu c u a mình. Ng i ó có th c t t c các tài li u trong kho, gi l i các tài li u liên quan và b i các tài li u không liên quan. Rõ ràng gi i pháp này không th c t b i vì t n r t nhi u th i gian.
  • 12. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 12 Nguy n Trung Hi u - 0112216 i s ra i c a máy vi tính t c cao, máy tính có th “ c” thay cho con ng i trích ra các tài li u có liên quan trong toàn b t p d li u. Tuy nhiên v n lúc này là làm sao xác nh c tài li u nào liên quan n câu h i. M c ích c a t h th ng tìm ki m thông tin t ng là truy l c c t t c các tài li u có liên quan n yêu c u. 2. tìm ki m thông tin – IRS Sau ây là nh ngh a v h th ng tìm ki m thông tin c a m t s tác gi : [2.1] Salton (1989): “H th ng tìm ki m thông tin x lý các t p tin l u tr và nh ng yêu c u v thông tin, xác nh và tìm t các t p tin nh ng thông tin phù h p v i nh ng yêu c u v thông tin. Vi c truy tìm nh ng thông tin c thù ph thu c vào s t ng t gi a các thông tin c l u tr và các yêu c u, c ánh giá b ng cách so sánh các giá tr c a các thu c tính i v i thông tin c l u tr và các yêu c u v thông tin.” Kowalski (1997) : “H th ng truy tìm thông tin là m t h th ng có kh n ng l u tr , truy tìm và duy trì thông tin. Thông tin trong nh ng tr ng h p này có th bao g m v n b n, hình nh, âm thanh, video và nh ng i t ng a ph ng ti n khác.” Hi u n gi n th ng tìm ki m thông tin là m t h th ng h tr cho ng i d ng tìm ki m thông tin m t cách nhanh chóng và d dàng. Ng i s d ng có th a vào nh ng câu h i, nh ng yêu c u (d ng ngôn ng t nhiên) và h th ng s tìm ki m trong t p các tài li u (d ng ngôn ng t nhiên) ã c l u tr tìm ra nh ng
  • 13. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 13 Nguy n Trung Hi u - 0112216 tài li u có liên quan, sau ó s s p x p các tài li u theo m c liên quan gi m d n và tr v cho ng i s d ng. 3. Các thành ph n c a m t h tìm ki m thông tin [1.1] m: t p các tài li u (DOCS) ã c l u tr trong kho d li u, t p các yêu c u (REQS) c a ng i dùng, và m t s ph ng pháp tính t ng quan (SIMILAR) xác nh các tài li u áp ng cho các yêu c u. Hình 1-1 Môi tr ng c a h tìm ki m thông tin Theo lý thuy t thì m i liên h gi a các câu h i và các tài li u có th so sánh m t cách tr c ti p. Nh ng trên th c t thì u này không th c vì các câu h i và các t p tài li u u d ng v n b n, ch có con ng i c vào thì th y ngay c m i liên h gi a chúng, nh ng ây ch là m t h th ng máy móc không th suy lu n nh con ng i c. Chính vì th xác nh c m i liên h gi a các câu h i và các t p tài li u ph i qua m t b c trung gian.
  • 14. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 14 Nguy n Trung Hi u - 0112216 Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin Tr c h t chuy n i các câu h i thành các t riêng bi t bi u hi n cho n i dung c a câu h i g i là ngôn ng ch m c (Indexing language - LANG). Tách t trong các t p tài li u và l p ch m c cho tài li u. Lúc này có th so sánh tr c ti p gi a các t a câu h i và các t ch m c c a t p tài li u. Và t ó ta s d dàng h n xác nh t ng quan gi a các câu h i và t p tài li u. 4. So sánh IRS v i các h th ng thông tin khác th ng tìm ki m thông tin c ng t ng t nh nhi u h th ng x lý thông tin khác. Hi n nay các h th ng thông tin quan tr ng nh t là: h qu n tr c s d li u (DBMS), h qu n lý thông tin (MIS), h h tr ra quy t nh (DSS), h tr l i câu h i (QAS) và h tìm ki m thông tin (IR).
  • 15. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 15 Nguy n Trung Hi u - 0112216 4.1 qu n tr c s d li u (DBMS) t c h th ng thông tin t ng nào c ng d a trên m t t p các m c c l u tr (g i là s d li u) c n thi t cho vi c truy c p. Do ó h qu n tr c s d li u n gi n là m t h th ng c thi t k nh m thao tác và duy trì u khi n c s d li u. DBMS t ch c l u tr các d li u c a mình d i d ng các b ng. M i m t c s li u c l u tr thành nhi u b ng khác nhau. M i m t c t trong b ng là m t thu c tính, và m i m t dòng là m t b d li u c th . Trong m i m t b ng có m t thu c tính duy nh t i di n cho b ng, nó không c trùng l p và ta g i ó là khoá chính. Các ng có m i liên h v i nhau thông qua các khoá ngo i. DBMS có m t t p các l nh tr cho ng i s d ng truy v n n d li u c a mình. Vì v y mu n truy v n n CSDL trong DBMS ta ph i h c h t các t p l nh này. Nh ng ng c l i nó s cung c p cho ta các d li u y và hoàn toàn chính xác. Hi n nay DBMS c s d ng r ng rãi trên th gi i. M t s DBMS thông d ng : Access, SQL Server, Oracle. 4.2 qu n lý thông tin (IMS) qu n lý thông tin là h qu n tr c s d li u nh ng có thêm nhi u ch c nh ng v vi c qu n lý. Nh ng ch c n ng qu n lý này ph thu c vào giá tr c a nhi u ki u d li u khác nhau. Nói chung b t k h th ng nào có m c ích c bi t ph c v cho vi c qu n lý thì ta g i nó là h qu n lý thông tin.
  • 16. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 16 Nguy n Trung Hi u - 0112216 4.3 h tr ra quy t nh (DSS) h tr ra quy t nh s d a vào các t p lu t c h c, t nh ng lu t ã h c rút ra nh ng lu t m i, sau khi g p m t v n nó s c n c vào vào t p các lu t a ra nh ng quy t nh thay cho con ng i. th ng này ang c áp d ng nhi u cho công vi c nh n d ng và chu n óan nh. 4.4 tr l i câu h i (QAS) tr l i câu h i cung c p vi c truy c p n các thông tin b ng ngôn ng t nhiên. Vi c l u tr c s d li u th ng bao g m m t s l ng l n các v n liên quan n các l nh v c riêng bi t và các ki n th c t ng quát. Câu h i c a ng i dùng có th d ng ngôn ng t nhiên. Công vi c c a h tr l i câu h i là phân tích câu truy n c a ng i dùng, so sánh v i các tri th c c l u tr , và t p h p các v n có liên quan l i a ra câu tr l i thích h p. Tuy nhiên, h tr l i câu h i ch còn ang th nghi m. Vi c xác nh ý ngh a a ngôn ng t nhiên d ng nh v n là ch ng ng i l n có th s d ng r ng rãi h th ng này.
  • 17. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 17 Nguy n Trung Hi u - 0112216 4.5 So sánh IRS v i các h th ng thông tin khác IRS DBMS QAS MIS Tìm ki m i dung trong các tài li u. Các ph n t có ki u d li u ã c nh ngh a. Các s ki n rõ ràng. u tr Các v n b n ngôn ng t nhiên. Các ph n t li u ng b ng. Các s ki n rõ ràng và các ki n th c ng quát. lý Các câu truy n không chính xác. Các câu truy n có c u trúc. Các câu truy n không gi i h n. Gi ng DBMS nh ng h tr thêm nh ng th t c( Tính ng, tính trung bình, phép chi u…) ng 1-1 So sánh IRS v i các h th ng thông tin khác
  • 18. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 18 Nguy n Trung Hi u - 0112216 Ch ng 2: XÂY D NG M T H TH NG TÌM KI M THÔNG TIN 1. Ki n trúc c a h tìm ki m thông tin. [1.3] t h th ng thông tin tiêu bi u nh sau: Hình 2-1 H tìm ki m thông tin tiêu bi u th ng tìm ki m thông tin g m có 3 b ph n chính : b ph n phân tích v n n, b ph n l p ch m c, b ph n so kh p và s p x p các tài li u tr v .
  • 19. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 19 Nguy n Trung Hi u - 0112216 (1) ph n phân tích v n b n: b ph n này có nhi m v phân tích các v n n thu th p c thành các t riêng bi t. T ng t , khi ng i dùng nh p câu truy v n thì câu truy v n c ng c phân tích thành các t riêng bi t. (2) ph n l p ch m c : các t trích c t các v n b n thu th p c s c b ph n này l a ch n làm các t ch m c. Các t ch m c ph i là các t th hi n c n i dung c a v n b n. (3) ph n so kh p và s p x p các tài li u tr v : Các t trích c t câu truy v n và các t ch m c c a v n b n s c so kh p v i nhau tìm ra các tài li u liên quan n câu truy v n. M i tài li u có m t t ng quan v i câu h i. Các tài li u này s c s p x p theo t ng quan gi m d n và tr v cho ng i s d ng. 2. t s mô hình xây d ng m t h tìm ki m thông tin [1.2] c tiêu c a các h th ng tìm ki m thông tin là tr v các tài li u càng liên quan n câu h i càng t t. Vì th ng i ta ã a ra r t nhi u mô hình tìm ki m nh m tính toán m t cách chính xác t ng quan này. Sau ây là m t s mô hình tìm ki m b n: 2.1 Mô hình không gian vector Mô hình không gian vector tính toán t ng quan gi a câu h i và tài li u b ng cách nh ngh a m t vector bi u di n cho m i tài li u, và m t vector bi u di n cho câu i [ Salton, 1875]. Mô hình d a trên ý t ng chính là ý ngh a c a m t tài li u thì ph thu c vào các t c s d ng bên trong nó. Vector tài li u và vector câu h i sau ó s c tính toán xác nh t ng quan gi a chúng. t ng quan càng l n ch ng tài li u ó càng liên quan n câu h i.
  • 20. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 20 Nguy n Trung Hi u - 0112216 Gi s m t t p tài li u ch g m có hai t là t1 và t2. Vector xây d ng c s m có 2 thành ph n: thành ph n th nh t bi u di n s xu t hi n c a t1, và thành ph n th hai bi u di n cho s xu t hi n c a t2. Cách n gi n nh t xây d ng vector là ánh 1 vào thành ph n t ng ng n u t ó xu t hi n, và ánh 0 n u t ó không xu t hi n. Gi s tài li u ch g m có 2 t t1. Ta bi u di n cho tài li u này b i vector nh phân nh sau: <1,0> Tuy nhiên, bi u di n nh v y không cho th y c t n s xu t hi n c a m i t trong tài li u. Trong tr ng h p này, vector nên c bi u di n nh sau: <2,0> i v i m t câu h i ã cho, thay vì ch c n c so sánh các t trong tài li u v i p các t trong câu h i, ta nên xem xét n t m quan tr ng c a m i t . Ý t ng chính là m t t xu t hi n t p trung trong m t s tài li u thì có tr ng s cao h n so v i m t t phân b trong nhi u tài li u. Tr ng s c tính d a trên t n s tài li u ngh ch o (Inverse Document Frequency) liên quan n các t c cho: n: s t phân bi t trong t p tài li u tfij : s l n xu t hi n c a t tj trong tài li u Di (t n s ) dfj : s tài li u có ch a t tj idfj = 10log j d df trong ó d là t ng s tài li u Vector c xây d ng cho m i tài li u g m có n thành ph n, m i thành ph n là giá tr tr ng s ã c tính toán cho m i t trong t p tài li u. Các t trong tài li u c gán tr ng s t ng d a vào t n s xu t hi n c a chúng trong t p tài li u và s xu t hi n c a m i t trong m t tài li u riêng bi t. Tr ng s c a m t t t ng n u t ó xu t hi n th ng xuyên trong m t tài li u và gi m n u t ó xu t hi n th ng xuyên
  • 21. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 21 Nguy n Trung Hi u - 0112216 trong t t c các tài li u. tính tr ng s c a t th tj trong tài li u Di, d a vào công th c: dij = tfij * idfj dij : là tr ng s c a t tj trong tài li u Di i v i h th ng tìm ki m thông tin theo mô hình vector, m i tài li u là m t vector có d ng : Di(di1, di2 , …, din ) . T ng t , câu truy v n Q c ng là m t vector có ng : Q(wq1, wq2, …, wqn) wqj : là tr ng s c a t tj trong câu truy v n Q. t ng quan (SC: similarity coeficient) gi a câu truy v n Q và tài li u Di c tính nh sau: SC(Q,Di) = ij 1 w * n qj j d = ∑ 2.2 Tìm ki m Boolean Mô hình tìm ki m Boolean khá n gi n. Câu h i a vào ph i d ng bi u th c Boolean. Ngh a là ph i th a: Ø Ng ngh a rõ ràng Ø Hình th c ng n g n Do các t ho c xu t hi n ho c là không xu t hi n, nên tr ng s wij ε {0,1} Gi s a vào m t câu h i d ng bi u th c Boolean nh sau: t1 and t2. Sau khi tìm ki m ta xác nh c các tài li u liên quan n t1 là { d1, d3, d5} và các tài li u liên
  • 22. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 22 Nguy n Trung Hi u - 0112216 quan n t2 là {d3, d5, d7}. Nh v y v i phép and, các tài li u th a yêu c u c a ng i dùng là {d3, d5}. Ph ng pháp này có m t s khuy t m nh sau: Ø Các tài li u tr v không c s p x p (ranking) Ø Câu h i tìm ki m òi h i ph i úng nh d ng c a bi u th c Boolean gây khó kh n cho ng i dùng Ø t qu tr v có th là quá ít ho c quá nhi u tài li u 2.3 Tìm ki m Boolean m r ng Mô hình tìm ki m Boolean không h tr vi c s p x p k t qu tr v b i vì các tài li u ho c th a ho c không th a yêu c u Boolean. T t c các tài li u th a mãn u c tr v , nh ng không có s c l ng nào c tính toán cho s liên quan c a chúng i v i câu h i. Mô hình tìm ki m Boolean m r ng ra i nh m h tr vi c s p x p (ranking) t qu tr v d a trên ý t ng c b n là ánh tr ng s cho m i t trong câu h i và trong tài li u. Gi s m t câu h i yêu c u (t1 OR t2) và m t tài li u D có ch a t1 v i tr ng s w1 và t2 v i tr ng s w2 . N u w1 và w2 u b ng 1 thì tài li u nào có ch a c hai t này s có th t s p x p cao nh t. Tài li u nào không ch a m t trong hai t này có th t s p x p th p nh t. Ý t ng n gi n là tính kho ng cách Eclide t m (w1, w2) t i g c: SC(Q,Di) = 2 2 1 2(w ) (w )+ i tr ng s 0.5 và 0.5, SC(Q,Di) = 2 2 (0.5) (0.5)+ =0.707 SC cao nh t n u w1 và w2 u b ng 1. Khi ó:
  • 23. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 23 Nguy n Trung Hi u - 0112216 SC(Q,Di) = 2 = 1.414 a SC vào kho ng [0,1], SC c tính nh sau: SC( Q t1 v t2 , di) = 2 2 1 2(w ) (w ) 2 + Công th c này gi s là câu h i ch có toán t OR . i v i toán t AND, thay vì tính kho ng cách t i g c, ta s tính kho ng cách n m (1,1). Câu h i nào càng n n m (1,1) thì nó càng tho yêu c u c a toán t AND: SC(Q t1 ^ t2, di) = 1- 2 2 1 2(1-w ) (1 w ) 2 + − 2.4 r ng trong vi c thêm vào tr ng s c a câu h i u câu h i có tr ng s là q1 và q2 thì t ng quan s c tính nh sau: SC(Q q1 v q2, di) = 2 2 2 2 1 1 2 2 2 2 1 2 q w q w q q + + SC(Q q1 ^ q2, di) = 1- ( 2 2 2 2 1 1 2 2 2 2 1 2 q (1-w ) (1 )q w q q + − + ) 2.4.1 r ng cho s t tu ý tính kho ng cách Euclide trong không gian a chi u, tham s p c s ng. Tham s p ch s bi n i t m quan tr ng c a tr ng s trong vi c ánh giá thích h p. t ng quan SC t ng quát nh sau:
  • 24. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 24 Nguy n Trung Hi u - 0112216 SC(D, Q ( q i v q j ) ) = 1 p p p p p i i j j p p i j q w q q q w +   +   SC(D, Q ( q i ^ q j ) ) = 1 - 1 p p p p p i i j j p p i j q (1-w ) q (1 w ) q q  + −   +   u p → ∞ : chuy n v h th ng Boolean thông th ng (không có tr ng s ) u p = 1 : chuy n v h th ng không gian vector 2.4.2 Thêm toán t t ng Các chi n l c tìm ki m không òi h i ng i dùng nh n bi t các toán t ph c p. Tr ng s có th c gán t ng và tài li u c s p x p b ng cách chèn toán t OR vào gi a các t . B t k tài li u nào có ch a ít nh t m t t trong câu h i s c s p th t v i m t s m l n h n 0. 2.5 Mô hình xác su t Mô hình tìm ki m xác su t tính toán t ng quan gi a câu h i và tài li u d a vào xác su t mà tài li u ó liên quan n câu h i. Các lý thuy t v xác su t c áp ng tính toán liên quan gi a câu h i và tài li u. Các t trong câu h i c xem là u m i xác nh tài li u liên quan. Ý t ng chính là tính xác su t c a m i t trong câu h i và sau ó s d ng chúng tính xác su t mà tài li u liên quan n câu i.
  • 25. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 25 Nguy n Trung Hi u - 0112216 2.6 ánh giá chung v các mô hình Ø Mô hình Boolean c xem là mô hình y u nh t trong các mô hình b i vì nh ã trình bày nó còn r t nhi u khuy t m. Ø Theo kinh nghi m c a Salton và Buckley thì nhìn chung mô hình vector làm t t h n mô hình xác su t. Lu n v n c a chúng em s d ng mô hình không gian vector xây d ng m t th ng tìm ki m thông tin ti ng Vi t. 3. Các b c xây d ng m t h tìm ki m thông tin. [3.2] 3.1 Tách t t ng cho t p các tài li u i v i ti ng Anh, ta tách t d a vào kho ng tr ng. Tuy nhiên i v i ti ng Vi t, giai n này t ng i khó kh n. C u trúc ti ng Vi t r t ph c t p, không ch n thu n d a vào kho ng tr ng tách t . Hi n nay có r t nhi u công c dùng tách t ti ng Vi t, m i ph ng pháp có u, khuy t m riêng. Các ph ng pháp này s c trình bày chi ti t h n ch ng III : Tách t t ng. 3.2 p ch m c cho tài li u Sau khi có c t p các t ã c trích, ta s ch n các t làm t ch m c. Tuy nhiên, không ph i t nào c ng c ch n làm t ch m c. Các t có kh n ng i di n cho tài li u s c ch n, các t này c g i là key word, do ó tr c khi l p ch c s là giai n ti n x lý i v i các t trích c ch n ra các key word thích p. Ta s lo i b danh sách các t ít có kh n ng i di n cho n i dung v n b n d a
  • 26. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 26 Nguy n Trung Hi u - 0112216 vào danh sách g i là stop list. i v i ti ng Anh hay ti ng Vi t u có danh sách stop list. Chi ti t v quá trình l p ch m c s c mô t ch ng IV: L p ch m c. 3.3 Tìm ki m Ng i dùng nh p câu h i và yêu c u tìm ki m, câu h i mà ng i dùng nh p vào ng s c x lý, ngh a là ta s tách t cho câu h i. Ph ng pháp tách t cho câu h i ng nên là ph ng pháp tách t cho các tài li u thu th p c m b o s t ng thích. Sau ó, h th ng s tìm ki m trong t p tin ch m c xác nh các tài li u liên quan n câu h i c a ng i dùng. 3.4 p x p các tài li u tr v (Ranking) Các tài li u sau khi ã xác nh là liên quan n câu h i c a ng i dùng s c p x p l i, b i vì trong các tài li u ó có nh ng tài li u liên quan n câu h i nhi u n. H th ng s d a vào m t s ph ng pháp xác nh tài li u nào liên quan nhi u nh t, s p x p l i (ranking) và tr v cho ng i dùng theo th t u tiên. 4. Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki m thông tin ti ng Vi t Hi n nay, chúng ta ã quen thu c v i r t nhi u công c h tr vi c tìm ki m thông tin nh Google, Yahoo Search, AltaVista, …. Tuy nhiên, ây là các công c c a ng i n c ngoài nên chúng ch gi i quy t t t i v i các yêu c u c a h . Chúng ta ng có m t s công c h tr tìm ki m thông tin ti ng Vi t nh : Vinaseek, NetNam,…Các công c này c ng tách t ch y u d a vào kho ng tr ng nên vi c tìm ki m c ng ch a c c i thi n. Nhìn chung, xây d ng m t h th ng tìm ki m thông
  • 27. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 27 Nguy n Trung Hi u - 0112216 tin ti ng Vi t, chúng ta g p khó kh n trong vi c tách t ti ng Vi t và xác nh b ng mã ti ng Vi t. 4.1 Khó kh n trong vi c tách t ti ng Vi t Có th nói tách t là giai n khó kh n nh t khi xây d ng m t h tìm ki m thông tin ti ng Vi t. i v i ti ng Anh, vi c xác nh t ch n gi n d a vào kho ng tr ng tách t . Ví d , câu: “I am a student” s c tách thành 4 t : I, am, a, student. Tuy nhiên, i v i ti ng Vi t, tách d a vào kho ng tr ng ch thu c các ti ng. T có th c ghép t m t hay nhi u ti ng. T ph i có ý ngh a hoàn ch nh và có c u t o n nh. Câu: “Tôi là m t sinh viên” c tách thành 4 t : Tôi, là, m t, sinh viên. Trong ó, t “sinh viên” c hình thành t 2 ti ng: sinh và viên. Hi n nay, có r t nhi u ph ng pháp c s d ng tách t ti ng Vi t. Tuy nhiên, v i s ph c t p c a ng pháp ti ng Vi t nên ch a có ph ng pháp nào t c chính xác 100%. Và vi c l a ch n ph ng pháp nào là t t nh t c ng ang là v n tranh cãi. 4.2 n b ng mã ti ng Vi t Không nh ti ng Anh, ti ng Vi t có r t nhi u b ng mã òi h i ph i x lý. M t công c tìm ki m ti ng Vi t h tr b ng mã r t t t nh Vinaseek, h tr m i b ng mã (VNI, TCVN3, ViQR,…). 4.3 Các khó kh n khác Ø Ti ng Vi t có các t ng ngh a nh ng khác âm. Các công c hi n nay không tr vi c xác nh các t ng ngh a. Vì v y, k t qu tr v s không y .
  • 28. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 28 Nguy n Trung Hi u - 0112216 Ø Ng c l i, có nh ng t ng âm khác ngh a. Các h th ng s tr v các tài li u có ch a các t ã c tách trong câu h i mà không c n xác nh chúng có th c liên quan hay không. Vì v y, k t qu tr v s không chính xác. Ø t s t xu t hi n r t nhi u nh ng không có ý ngh a trong tài li u. Các t nh : và, v i, nh ng,… có t n s xu t hi n r t l n trong b t c v n b n nào. N u tìm cách tr v các tài li u có ch a nh ng t này s thu c k t qu vô ích, không n thi t. Do ó, chúng ta c n tìm cách lo i b các t này tr c khi tìm ki m.
  • 29. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 29 Nguy n Trung Hi u - 0112216 Ch ng 3: TÁCH T T NG Tr c khi l p ch m c là giai n tách t cho các tài li u, ây là công vi c quan tr ng trong m t h th ng tìm ki m thông tin. i v i ti ng Anh ch n gi n d a vào kho ng tr ng tách t . Nh ng i v i ti ng Vi t không th d a vào kho ng tr ng c vì ti ng Vi t là ngôn ng n l p. Hi n nay, có r t nhi u ph ng pháp c xu t tách t cho ti ng Vi t, nh ng v n ch a th ng nh t là ph ng pháp nào t t nh t. Ch ng này s trình bày chi ti t v m t s ph ng pháp tách t . 1. Tách t trong Ti ng Anh Do c m ng pháp c a ti ng Anh, tách t ch n gi n d a vào kho ng tr ng phân bi t t . 2. Tách t trong Ti ng Vi t 2.1 t s c m chính v t ti ng Vi t [2.2] 2.1.1 Ti ng m t ng âm, ti ng là âm ti t. Âm ti t bao g m nh ng n v b c th p h n g i là âm v . M i âm v c ghi b ng m t ký t g i là ch .
  • 30. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 30 Nguy n Trung Hi u - 0112216 m t ng ngh a, ti ng là n v nh nh t có ngh a, nh ng c ng có m t s ti ng không có ngh a. giá tr ng pháp, ti ng là n v c u t o t . S d ng ti ng t o thành t , ta có hai tr ng h p nh sau: Ø m t ti ng: g i là t n. Tr ng h p này m t t ch có m t ti ng. Ví d nh : ông, bà, … Ø hai ti ng tr lên: g i là t ph c. Tr ng h p này m t t có th có hai hay nhi u ti ng tr lên. Ví d nh : xã h i, an ninh, h p tác xã,… 2.1.2 là n v nh nh t t o thành câu. Trong t câu, chúng ta dùng t ch không dùng ti ng. 2.2 Tách t t ng ti ng Vi t Tách t t ng ti ng Vi t d a trên m t s ph ng pháp có s n. Sau ây chúng ta s nghiên c u m t s ph ng pháp c s d ng tách t cho các v n b n ti ng Vi t. 3. Các ph ng pháp tách t ti ng Vi t 3.1 fnTBL (Fast Transformation-based learning) [3.1] 3.1.1 Mô t
  • 31. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 31 Nguy n Trung Hi u - 0112216 Ý t ng chính c a ph ng pháp h c d a trên s bi n i (TBL) là gi i quy t t v n nào ó ta s áp d ng các phép bi n i, t i m i b c, phép bi n i nào cho t qu t t nh t s c ch n và c áp d ng l i v i v n ã a ra. Thu t toán k t thúc khi không còn phép bi n i nào c ch n. H th ng fnTBL g m hai t p tin chính: Ø p tin d li u h c (Training): T p tin d li u h c c làm th công, òi h i chính xác. M i m u (template) c t trên m t dòng riêng bi t. Ví d : t p li u h c cho vi c xác nh t lo i c a m t v n b n có th có nh d ng nh sau: Công ty danhtu An ông danhturieng dongtu giám sát dongtu Trong ví d này m i m u g m có hai ph n: ph n u tiên là t , ph n th hai là t lo i t ng ng. Ø p tin ch a các m u lu t (rule-template): M i lu t c t trên m t dòng, h th ng fTBL s d a vào các m u lu t áp d ng vào t p tin d li u h c. Ví d : chunk_-2 chunk_-1 => chunk Áp d ng i v i vi c xác nh t lo i, v i chunk_-2 = ng t , chunk_- 1= s t , chunk=danh t thì lu t trên có ý ngh a nh sau: n u hai t tr c ó là ng t và s t thì chuy n t lo i hi n hành thành danh t . 3.1.2 Áp d ng tách t ti ng Vi t
  • 32. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 32 Nguy n Trung Hi u - 0112216 Sau khi nghiên c u v fnTBL, chúng em nh n th y có th áp d ng ph ng pháp này tách t cho ti ng Vi t, ch c n thay i m t s nh d ng cho phù h p. Ø Xây d ng t p tin d li u h c: p tin d li u cho vi c tách t ti ng Vi t có d ng nh sau: Vì B sao B công B ty I Vi t B Hà I B t B vào B tình B tr ng I …. Các ký t B, I g i là các chunk và có ý ngh a nh sau: Ti ng có chunk=B ngh a là ti ng ó b t u m t t (begin) Ti ng có chunk=I ngh a là ti ng ó n m trong m t t (inside) Trong ví d trên, ta có c các t : Vì, sao, công ty, Vi t Hà, b , t, vào, tình tr ng, … Ø Xây d ng t p tin ch a các m u lu t: Sau khi tìm hi u v t trong ti ng Vi t, chúng em xây d ng c 3 lu t áp d ng cho vi c tách t ti ng Vi t nh sau: chunk_0 word_0 => chunk
  • 33. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 33 Nguy n Trung Hi u - 0112216 chunk_0 word_-1 word_0 => chunk chunk_0 word_0 word_1 => chunk 3.1.2.1 Quá trình h c (1) T t p d li u h c xây d ng t n các t (2) Kh i t o các t (3) Rút ra t p lu t b c (1) t t p d li u h c ã có s n, s d ng ph ng pháp th ng kê ta s có t n các ti ng (Lexicon). Các ti ng có th xu t hi n trong các t v i các chunk khác nhau, ta s ghi nh n l i s l n xu t hi n c a m i ti ng v i các chunk t ng ng. Ví d , i v i t “công ty” thì ti ng “công” có chunk=B nh ng trong t “c a công” thì ti ng công có chunk=I. b c (2) t t p d li u h c, t o ra t p d li u h c không có chunk b ng cách xóa h t các chunk t ng ng. T p d li u m i này s c s d ng kh i t o l i các chunk thông d ng nh t d a vào t n. b c (3) so sánh t p d li u h c v i t p d li u ang xét, d a vào các m u lu t ã cho, ta s rút ra c các lu t ng viên, ng v i m i lu t ng viên ta l i áp d ng vào t p d li u ang xét và tính m cho nó (d a vào s l i phát sinh khi so sánh v i p d li u h c là t p d li u chu n). Ch n lu t có m cao nh t và l n h n m t ng ng cho tr c a vào danh sách lu t c ch n. t qu ta s c m t t p các lu t c ch n. Các lu t có d ng nh sau: SCORE:414 RULE: chunk_0=B word_0=t => chunk=I SCORE:312 RULE: chunk_0=B word_-1=c a word_0=công=>chunk=I
  • 34. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 34 Nguy n Trung Hi u - 0112216 SCORE:250 RULE: chunk_0=B word_0=hóa => chunk=I SCORE:231 RULE: chunk_0=B word_0= ng => chunk=I SCORE:205 RULE: chunk_0=B word_0=nghi p => chunk=I SCORE:175 RULE: chunk_0=B word_-1=phát word_0=tri n => chunk=I SCORE:133 RULE: chunk_0=B word_-1=xã word_0=h i => chunk=I SCORE:109 RULE: chunk_0=B word_-1= u word_0=t => chunk=I SCORE:100 RULE: chunk_0=B word_0=th => chunk=I dòng 2 ta có lu t: n u t hi n hành là “công” (word_0=công) và t tr c ó là “c a” (word_-1=c a) và chunk c a t hi n hành là B ( chunk_0=B) thì chuy n chunk a t hi n hành là I , ngh a là “c a công” ph i là m t t . Toàn b quá trình h c c mô t nh sau:
  • 35. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 35 Nguy n Trung Hi u - 0112216 Hình 3-1 Quá trình h c 3.1.2.2 Xác nh t cho tài li u m i (1) Tài li u m i a vào ph i có nh d ng gi ng nh t p tin d li u h c, ngh a là m i ti ng trên m t dòng. (2) D a vào t n, gán chunk thông d ng nh t cho các ti ng trong tài li u m i
  • 36. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 36 Nguy n Trung Hi u - 0112216 (3) Áp d ng các lu t có c t giai n h c vào tài li u ang xét ta s tách c các t hoàn ch nh. Giai n xác nh t cho tài li u m i c mô t nh sau: Hình 3-2 Giai n xác nh t cho tài li u m i
  • 37. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 37 Nguy n Trung Hi u - 0112216 3.2 Longest Matching [1.4] Ph ng pháp Longest Matching tách t d a vào t n có s n. Theo ph ng pháp này, tách t ti ng Vi t ta i t trái sang ph i và ch n t có nhi u âm ti t nh t mà có m t trong t n, r i c ti p t c cho t k ti p cho n h t câu. V i cách này, ta d dàng tách c chính xác các ng /câu nh : ”h p tác| mua bán”; “thành l p| n c|Vi t Nam| dân ch |c ng hòa”…Tuy nhiên, ph ng pháp này s tách t sai trong tr ng h p nh : “h c sinh |h c sinh |h c”; “m t| ông | quan tài | gi i”, “tr c | bàn là | m t | ly| n c”,… 3.3 t h p gi a fnTBL và Longest Matching Chúng ta có th k t h p gi a hai ph ng pháp fnTBL và Longest Matching có c k t qu tách t t t nh t. u tiên ta s tách t b ng Longest Matching, u ra a ph ng pháp này s là u vào cho ph ng pháp fnTBL h c lu t.
  • 38. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 38 Nguy n Trung Hi u - 0112216 Ch ng 4: P CH M C 1. Khái quát v h th ng l p ch m c t cách t ng t c tìm ki m thông tin lên là t o ch m c cho các tài li u. Tuy nhiên, vi c l p ch m c có m t nh c m l n, ó là khi thêm m t tài li u m i, ph i c p nh t l i t p tin ch m c. Nh ng i v i h th ng tìm ki m thông tin, ch c n p nh t l i t p tin ch m c vào m t kho ng th i gian nh k . Do ó, ch m c là m t công c r t có giá tr . p ch m c bao g m các công vi c sau: Ø Xác nh các t có kh n ng i di n cho n i dung c a tài li u Ø ánh tr ng s cho các t này, tr ng s ph n ánh t m quan tr ng c a t trong m t tài li u. 2. Ph ng pháp l p ch m c [1.1] 2.1 Xác nh các t ch m c Ø Cho m t t p g m có n tài li u. V i m i tài li u, tính t n s c a m i t riêng bi t trong tài li u ó. G i FREQik: là t n s xu t hi n c a t k trong tài li u i. Ø Xác nh t n s c a t k trong t p tài li u, ký hi u là TOTFREQk b ng cách tính t ng t n s xu t hi n c a k trong t t c n tài li u:
  • 39. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 39 Nguy n Trung Hi u - 0112216 TOTFREQK = ik 1 FREQ n i= ∑ Ø p x p các t gi m d n d a vào t n s xu t hi n c a nó trong t p tài li u. Xác nh giá tr ng ng cao và lo i b t t c các t có t n s xu t hi n l n h n giá tr này. Ø ng t , lo i b các t có t n s th p . Ngh a là, xác nh ng ng th p và lo i b t t c các t có t n s xu t hi n nh h n giá tr này. u này s lo i b các ít xu t hi n trong t p tài li u, nên s có m t c a các t này c ng không nh h ng n vi c th c hi n truy v n. Ø Các t có t n s xu t hi n trung bình còn l i s c s d ng làm t ch c. Hình 4-1 Các t c s p theo th t
  • 40. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 40 Nguy n Trung Hi u - 0112216 2.2 Các ph ng pháp tính tr ng s c a t Tr ng s c a m t t ph n ánh t m quan tr ng c a t ó trong tài li u. Ý t ng chính là m t t xu t hi n th ng xuyên trong t t c các tài li u thì ít quan tr ng h n là ch xu t hi n t p trung trong m t s tài li u. 2.2.1 n s tài li u ngh ch o ây là ph ng pháp tính tr ng s mà mô hình không gian vector ã s d ng tính tr ng s c a t trong tài li u. n: s t phân bi t trong t p tài li u FREQik : s l n xu t hi n c a t k trong tài li u Di (t n s t ) DOCFREQk : s tài li u có ch a t k Khi ó, tr ng s c a t k trong tài li u Di c tính nh sau: WEIGHTik = FREQik * [log (n) – log (DOCFREQk)] Tr ng s c a t k trong tài li u Di t ng n u t n s xu t hi n c a t k trong tài li u i t ng và gi m n u t ng s tài li u có ch a t k t ng. 2.2.2 nhi u tín hi u (The Signal – Noise Ratio) t quan m t ng t c xem xét ó là d a vào thông tin ánh giá t m quan tr ng c a t . Trong th c t , n i dung thông tin c a m t n hay m t t có th xác nh d a vào xác su t xu t hi n c a các t trong v n b n ã cho. Rõ ràng, xác su t xu t hi n c a m t t càng cao thì thông tin mà nó ch a càng ít. i dung thông tin c a m t t c xác nh nh sau:
  • 41. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 41 Nguy n Trung Hi u - 0112216 INFORMATION= - log2 p trong ó p là xác su t xu t hi n c a t . Ví d : n u t “vi tính” xu t hi n 1 l n sau 10.000 t , xác su t xu t hi n c a nó là 0.0001, khi ó thông tin c a nó s là: INFORMATION = - log2 (0.0001) = 13.278 Ng c l i, t “s ” xu t hi n 1 l n sau 10 t , xác su t xu t hi n c a nó là 0.1, khi ó thông tin c a nó s là: INFORMATION = -log2 (0.1) = 3.223 u m t tài li u có ch a t t , m i t có xác su t xu t hi n là pk, thông tin trung bình c a tài li u s là: AVERAGE INFORMATION = - 2 1 log t k k k p p = ∑ Ta nh ngh a nhi u NOISEk c a t k trong t p g m n tài li u nh sau: NOISEk = 2 1 log n ik k i k ik FREQ TOTFREQ TOTFREQ FREQ= ∑ nhi u thay i ngh ch o v i “s t p trung” c a m t t trong t p tài li u. Ngh a là, m t t có s phân ph i u trong t t c các tài li u thì nhi u c a nó càng n, ng c l i m t t ch t p trung trong m t s tài li u nào ó thì nhi u c a nó càng nh . Gi s , t k xu t hi n m t l n trong m i tài li u (FREQik=1), khi ó nhi u a nó b ng:
  • 42. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 42 Nguy n Trung Hi u - 0112216 NOISEk = 2 1 1 log 1 n i n n= ∑ = log2 n Ng c l i, gi s t k ch xu t hi n trong m t tài li u, khi ó nhi u c a nó ng: NOISEk = 2logk k k k TOTFREQ TOTFREQ TOTFREQ TOTFREQ = 0 Hàm s ngh ch o c a nhi u, g i là signal, c tính nh sau: SIGNALk = log2 (TOTFREQk) – NOISEk Tr ng s c a t k trong tài li u i c tính b ng cách k t h p gi a FREQik và SIGNALk: WEIGHTik = FREQik * SIGNALk 2.2.3 Giá tr phân bi t t (The Term Discrimination Value) t ch c n ng khác xác nh t m quan tr ng c a m t t là tính giá tr phân bi t c a t ó. G i SIMILAR(Di, Dj) là t ng quan gi a c p tài li u Di, Dj. Khi ó, t ng quan trung bình c a t p tài li u là: AVGSIM= CONSTANT 1 1# ( , ) n n i j i ji j SIMILAR D D = = ∑ ∑ G i AVGSIMk là t ng quan trung bình c a t p tài li u khi b t k. Rõ ràng, u t k xu t hi n th ng xuyên trong t p tài li u thì khi b t k, t ng quan trung bình s gi m. Ng c l i, n u t k ch t p trung trong m t s tài li u, khi b t k, ng quan trung bình s t ng lên.
  • 43. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 43 Nguy n Trung Hi u - 0112216 Giá tr phân bi t DISCVALUEk c a t k c tính nh sau: DISCVALUEk = (AVGSIM)k – AVGSIM Tr ng s c a t k trong tài li u i c tính b ng cách k t h p gi a FREQik và DISCVALUEk: WEIGHTik = FREQik * DISCVALUEk 2.3 p ch m c t ng cho tài li u ti ng Anh t quá trình n gi n l p ch m c cho tài li u có th c mô t nh sau: Ø Tr c h t, xác nh t t c các t t o thành tài li u. Trong ti ng Anh, ch n gi n là tách t d a vào kho ng tr ng. Ø Lo i b các t có t n s xu t hi n cao. Nh ng t này chi m kho ng 40- 50% các t , nh ã c p tr c ây, chúng có phân bi t kém do ó không th s ng i di n cho n i dung c a tài li u. Trong ti ng Anh, các t này có kho ng 250 , do ó, n gi n có th l u chúng vào t n, g i là stop list. Ø Sau khi lo i b các t có trong stop list, xác nh các t ch m c “t t”. Tr c h t c n lo i b các h u t a v t g c, ví d các t nh : analysis, analyzing, analyzer, analyzed, analysing có th chuy n v t g c là “analy.” T g c s có t n s xu t hi n cao h n so v i các d ng thông th ng c a nó. N u s d ng t g c làm ch m c, ta có th thu c nhi u tài li u có liên quan h n là s d ng t ban u a nó. i v i ti ng Anh, vi c lo i b h u t có th c th c hi n d dàng b ng cách d ng danh sách các h u t có s n (Suffix List).
  • 44. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 44 Nguy n Trung Hi u - 0112216 Sau khi có c danh sách các t g c, s d ng ph ng pháp d a vào t n s (frequency – based) xác nh t m quan tr ng c a các t g c này. Chúng ta có th s ng m t trong các ph ng pháp ã c c p trên nh : t n s tài li u ngh ch o (inverse document frequency), nhi u tín hi u (SIGNALk), phân bi t t (DISVALUEk). Trong h th ng ch m c có tr ng s , tr ng s c a m t t c s d ng xác nh t m quan tr ng c a t ó. M i tài li u c bi u di n là m t vector : Di = (di1, di2, …, dit) trong ó dij là tr ng s c a t j trong tài li u Di. Gi s có 1033 tài li u nói v y h c. Quá trình l p ch m c n gi n c th c hi n nh sau ( trong ó ch lo i b h u t t n cùng là s):
  • 45. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 45 Nguy n Trung Hi u - 0112216 Hình 4-2 Quá trình ch n t làm ch m c 3. p ch m c cho tài li u ti ng Vi t p ch m c cho tài li u ti ng Vi t c ng t ng t nh cho ti ng Anh. Tuy nhiên có vài m khác bi t sau:
  • 46. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 46 Nguy n Trung Hi u - 0112216 Ø Giai n tách t trong ti ng Anh ch n gi n d a vào kho ng tr ng, còn ti ng Vi t là ngôn ng n l p, m t t có th có nhi u ti ng. u này ã c p chi ti t ch ng 3 (Tách t ). Gi s sau giai n tách t , ta s thu c m t danh sách các t riêng bi t. Ø i v i ti ng Vi t, không ph i qua giai n lo i b h u t . Nói chung, l p ch m c cho tài li u ti ng Vi t g m các b c sau: Ø Xác nh các t riêng bi t trong tài li u Ø Lo i b các t có t n s cao. ( Trong ti ng Vi t, c ng nh ti ng Anh, ta có m t danh sách Stop List ch a nh ng t không th là n i dung c a v n b n nh : và, i, nh ng, gì, sao, nào, …). Ø Lo i b các t có tr ng s th p Ø Các t thu c s c ch n làm các t ch m c 4. p tin ngh ch o tài li u 4.1 Phân bi t gi a t p tin ngh ch o và t p tin tr c ti p p tin tr c ti p (direct file) là t p tin mà chính các m c thông tin ã cung c p th chính c a t p tin. Ng c l i, t p tin ngh ch o (inverted file) c s p x p theo ch , m i ch i bao g m m t t p các m c thông tin.
  • 47. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 47 Nguy n Trung Hi u - 0112216 Gi s có m t t p các tài li u, m i tài li u ch a danh sách các t . N u m t t xu t hi n trong m t tài li u, ghi s 1. Ng c l i, ghi 0. Khi ó, t p tin tr c ti p và t p tin ngh ch o s l u tr nh sau: Tài li u 1 Tài li u 2 Tài li u 3 1 1 0 1 2 1 1 0 3 0 1 1 4 1 1 1 ng 4-1 Cách t p tin ngh ch o l u tr 1 2 3 4 Tài li u 1 1 1 0 1 Tài li u 2 0 1 1 1 Tài li u 3 1 0 1 1 ng 4-2 Cách t p tin tr c ti p l u tr 4.2 i sao s d ng t p tin ngh ch o l p ch m c Trong h th ng tìm ki m thông tin, t p tin ngh ch o có ý ngh a r t l n, giúp vi c truy c p n các m c thông tin c nhanh chóng. Gi s khi ng i dùng nh p t câu truy v n, h th ng s tách thành 2 t là “t 1” và “t 2”. D a vào t p tin
  • 48. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 48 Nguy n Trung Hi u - 0112216 ngh ch o, ta d dàng xác nh c các tài li u có liên quan n 2 t này tr v cho ng i tìm ki m. Tuy nhiên, khó kh n chính c a t p tin ngh ch o là khi thêm m t tài li u m i, t t c các t có liên quan n tài li u này u ph i c c p nh t l i. Ví d khi thêm tài li u 4 có ch a 2 t “t 3” và “t 4” vào t p tin ngh ch o: Tài li u 1 Tài li u 2 Tài li u 3 Tài li u 4 1 1 0 1 0 2 1 1 0 0 3 0 1 1 1 4 1 1 1 1 ng 4-3 Thêm m t tài li u m i vào t p tin ngh ch o Rõ ràng vi c này t n m t chi phí l n n u t p tin ngh ch o r t l n. Trong th c , t p tin ngh ch o tài li u có th ch a hàng tr m ngàn t . Tuy nhiên, trong các h th ng tìm ki m thông tin, ng i ta ch c p nh t l i t p tin t i m t kho ng th i gian nh . Vì v y, t p tin ngh ch o v n c s d ng l p ch m c.
  • 49. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 49 Nguy n Trung Hi u - 0112216 Ph n 2 : PHÂN TÍCH VÀ THI T K Ch ng 5: PHÂN TÍCH 1. UseCase h th ng Hình 5-1 S Use-case c a h th ng
  • 50. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 50 Nguy n Trung Hi u - 0112216 STT ACTOR Ý NGH A 1 Admin Qu n tr h th ng 2 User Ng i s d ng ch ng trình 3 Cac tai lieu Các tài li u ã c tách t 4 Cac tai lieu lien quan cau hoi Các tài li u tr v khi ng i s d ng nh p vào câu h i 5 p tin chi muc p tin ch a các t khóa cùng v i các tài li u ch a t khóa ó ng 5-1 Danh sách các Actor STT USECASE Ý NGH A 1 Tach tu Tách v n b n thành các t riêng bi t 2 Tao moi t p tin chi muc o m i m t t p tin ch m c 3 Cap nhat t p tin chi muc p nh t thêm các tài li u m i vào t p tin ch m c có s n 4 Tim kiem Gõ vào t khóa và ch c n ng tìm ki m s tr v m t t p các tài li u liên quan ng 5-2 Danh sách các UseCase
  • 51. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 51 Nguy n Trung Hi u - 0112216 2. L p 2.1 các l p th hi n Hình 5-2 S các l p th hi n
  • 52. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 52 Nguy n Trung Hi u - 0112216 2.2 các l p x lý Hình 5-3 S các l p x lý
  • 53. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 53 Nguy n Trung Hi u - 0112216 3. Tách t 3.1 UseCase Hình 5-4 S Use-case tách t 3.2 Tu n t Hình 5-5 S tu n t tách t
  • 54. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 54 Nguy n Trung Hi u - 0112216 3.3 C ng tác Hình 5-6 S c ng tác tách t 3.4 L p Hình 5-7 S l p tách t
  • 55. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 55 Nguy n Trung Hi u - 0112216 4. p ch m c 4.1 UseCase Hình 5-8 S use-case l p ch m c
  • 56. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 56 Nguy n Trung Hi u - 0112216 4.2 Tu n t 4.2.1 o m i ch m c Hình 5-9 S tu n t t o m i ch m c
  • 57. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 57 Nguy n Trung Hi u - 0112216 4.2.2 p nh t ch m c Hình 5-10 S tu n t c p nh t ch m c
  • 58. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 58 Nguy n Trung Hi u - 0112216 4.3 C ng tác 4.3.1 o m i ch m c Hình 5-11 S c ng tác t o m i ch m c
  • 59. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 59 Nguy n Trung Hi u - 0112216 4.3.2 p nh t ch m c Hình 5-12 S c ng tác c p nh t ch m c
  • 60. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 60 Nguy n Trung Hi u - 0112216 4.4 L p Hình 5-13 S l p l p ch m c
  • 61. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 61 Nguy n Trung Hi u - 0112216 5. Tìm ki m 5.1 UseCase Hình 5-14 S use-case tìm ki m 5.2 Tu n t Hình 5-15 S tu n t tìm ki m
  • 62. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 62 Nguy n Trung Hi u - 0112216 5.3 C ng tác Hình 5-16 S c ng tác tìm ki m
  • 63. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 63 Nguy n Trung Hi u - 0112216 5.4 L p Hình 5-17 S l p tìm ki m
  • 64. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 64 Nguy n Trung Hi u - 0112216 Ch ng 6: THI T K VÀ CÀI T Ø Ngôn ng l p trình : C#, ASP.NET Ø Công c l p trình : Microsoft Visual Studio .NET Ø u tr d li u : t p tin XML Ø ng d ng : Xây d ng h th ng tìm ki m thông tin ti ng Vi t th ng tìm ki m s c xây d ng theo mô hình không gian Vector. Các tài li u ti ng Vi t và câu truy v n s c tách t theo ph ng pháp Longest Matching. 1. u trúc l u tr d li u t c t p tin v n b n, t p tin ch a các t ã c tách, t p tin ch m c o, t p tin ch a các t không quan tr ng, t p tin l u tr t ng quan gi a câu truy v n và tài li u … u c l u tr d i d ng Xml. 1.1 p tin l u n i dung tài li u ây là t p tin Xml dùng l u n i dung c a các t p tin v n b n g c, m i t p tin ch a kho ng 50 tài li u, có c u trúc c nh, trong ch ng trình nó c l u trong th c “VanBanXML”. 1.1.1 u trúc DTD / XSD • DTD <!ELEMENT NEWSPAPERS (DOC*)>
  • 65. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 65 Nguy n Trung Hi u - 0112216 <!ELEMENT DOC (TITLE,AUTHOR,DATE,NEWS,CONTENT)> <!ATTLIST DOC DOC_ID CDATA #REQUIRED> <!ELEMENT TITLE (#PCDATA)> <!ELEMENT AUTHOR (#PCDATA)> <!ELEMENT DATE (#PCDATA)> <!ELEMENT NEWS (#PCDATA)> <!ELEMENT CONTENT (#PCDATA)> • XSD <?xml version='1.0'?> <schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes"> <!-- contents of XML Schema document goes here --> <ElementType name="TITLE" content="textOnly" dt:type="string"/> <ElementType name="AUTHOR" content="textOnly" dt:type="string"/> <ElementType name="DATE" content="textOnly" dt:type="string"/> <ElementType name="NEWS" content="textOnly" dt:type="string"/> <ElementType name="CONTENT" content="textOnly" dt:type="string"/> <AttributeType name="DOC_ID" dt:type="string"/>
  • 66. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 66 Nguy n Trung Hi u - 0112216 <ElementType name="DOC" content="eltOnly" order="seq"> <attribute type="DOC_ID"/> <element type="TITLE"/> <element type="AUTHOR"/> <element type="DATE"/> <element type="NEWS"/> <element type="CONTENT"/> </ElementType> <ElementType name="NEWSPAPERS" content="eltOnly"> <element type="DOC" minOccurs="1" maxOccurs="*"/> </ElementType> </schema> 1.1.2 Tài li u XML <NEWSPAPERS> <DOC DOC_ID="1"> <TITLE>Thanh niên VN: ng l c cho nh ng t m nhìn m i</TITLE> <AUTHOR>Tác gi : .Bình</AUTHOR> <DATE>Ngày :01/12/2000</DATE> <NEWS>Tên t báo : Tu i tr Th lo i : ,Trang : trang 1, 14</NEWS> <CONTENT>Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn i. (TT-Hà N i) - T i l khai m c Di n àn thanh niên (TN) VN v i ch
  • 67. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 67 Nguy n Trung Hi u - 0112216 “S n sàng cho th k 21” sáng 30-11 t i Hà N i (do H i Liên hi p TN VN ph i h p v i các c quan LHQ t i VN t ch c), ông Edouard Wattez, u ph i viên th ng trú LHQ t i VN, TN VN có vai trò quan tr ng trong quá trình m c a v i th gi i... . Bình.</CONTENT> </DOC> …… </NEWSPAPERS> 1.2 p tin sau khi tách t tài li u ây là t p tin Xml l u các t tách c t các t p tin v n b n g c cùng v i các ID tham chi u t i chúng. M i t p tin ch a các t c a 50 tài li u t ng ng trong t p tin n b n g c, trong ch ng trình các t p tin này c l u th m c “TachTu”. 1.2.1 u trúc DTD / XSD • DTD <!ELEMENT WORDS (WORD*)> <!ELEMENT WORD (DOC+)> <!ATTLIST WORD Name CDATA #REQUIRED> <!ELEMENT DOC EMPTY> <!ATTLIST DOC DOC_ID CDATA #REQUIRED> • XSD <?xml version='1.0'?> <Schema xmlns="urn:schemas-microsoft-com:xml-data"
  • 68. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 68 Nguy n Trung Hi u - 0112216 xmlns:dt="urn:schemas-microsoft-com:datatypes"> <!-- contents of XML Schema document goes here --> <AttributeType name="DOC_ID" dt:type="string"/> <AttributeType name="Name" dt:type="string"/> <ElementType name="DOC" content="eltOnly"> <attribute type="DOC_ID"/> </ElementType> <ElementType name="WORD" content="eltOnly"> <attribute type="Name"/> <element type="DOC" minOccurs="1" maxOccurs="*"/> </ElementType> <ElementType name="WORDS" content="eltOnly"> <element type="WORD" minOccurs="1" maxOccurs="*"/> </ElementType> </Schema> 1.2.2 Tài li u XML <WORDS> <WORD Name="thành l p"> <DOC DOC_ID="2051" /> <DOC DOC_ID="2063" />
  • 69. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 69 Nguy n Trung Hi u - 0112216 <DOC DOC_ID="2091" /> </WORD> <WORD Name="trung tâm"> <DOC DOC_ID="2091" /> <DOC DOC_ID="2092" /> <DOC DOC_ID="2099" /> </WORD> <WORD Name=" "> <DOC DOC_ID="2076" /> <DOC DOC_ID="2079" /> <DOC DOC_ID="2084" /> <DOC DOC_ID="2086" /> <DOC DOC_ID="2091" /> <DOC DOC_ID="2094" /> <DOC DOC_ID="2095" /> <DOC DOC_ID="2096" /> <DOC DOC_ID="2099" /> </WORD> …… </WORDS>
  • 70. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 70 Nguy n Trung Hi u - 0112216 1.3 p tin ch a các t không th hi n n i dung c a v n b n (stop list) ây là t p tin Xml ch a các t không th hi n n i dung c a v n b n, g i là danh sách StopList, trong ch ng trình t p tin này n m trong th m c “StopList” 1.3.1 u trúc DTD / XSD • DTD <!ELEMENT STOP_LIST (WORD*)> <!ELEMENT WORD EMPTY> <!ATTLIST WORD Name CDATA #REQUIRED> • XSD <?xml version='1.0'?> <Schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes"> <!-- contents of XML Schema document goes here --> <AttributeType name="Name" dt:type="string"/> <ElementType name="WORD" content="eltOnly"> <attribute type="Name"/> </ElementType>
  • 71. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 71 Nguy n Trung Hi u - 0112216 <ElementType name="STOP_LIST" content="eltOnly"> <element type="WORD" minOccurs="1" maxOccurs="*"/> </ElementType> </Schema> 1.3.2 Tài li u XML <STOP_LIST> <WORD Name=" i" /> <WORD Name=" ng" /> <WORD Name="và" /> <WORD Name="có" /> <WORD Name="nh ng" /> <WORD Name=" " /> <WORD Name=" i" /> </STOP_LIST> 1.4 p tin ch m c o ( Inverted ). p tin ch m c o l u các t ch m c, m i t có các tham chi u n tài li u ch a t ó kèm theo t n s , tr ng s c a t ó trong tài li u, trong ch ng trình t p tin này c l u trong th m c “Inverted ”. 1.4.1 u trúc DTD / XSD
  • 72. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 72 Nguy n Trung Hi u - 0112216 • DTD <!ELEMENT Inverted_File (Term*)> <!ELEMENT Term (DOC+)> <!ATTLIST Term Name CDATA #REQUIRED> <!ELEMENT DOC EMPTY> <!ATTLIST DOC D CDATA #REQUIRED> <!ATTLIST DOC F CDATA #REQUIRED> <!ATTLIST DOC W CDATA #REQUIRED> • XSD <?xml version='1.0'?> <Schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes"> <!-- contents of XML Schema document goes here --> <AttributeType name="D" dt:type="string"/> <AttributeType name="F" dt:type="int"/> <AttributeType name="W" dt:type="fixed.14.4"/> <AttributeType name="Name" dt:type="string"/> <ElementType name="DOC" content="eltOnly"> <attribute type="D"/>
  • 73. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 73 Nguy n Trung Hi u - 0112216 <attribute type="F"/> <attribute type="W"/> </ElementType> <ElementType name="Term" content="eltOnly"> <attribute type="Name"/> <element type="DOC" minOccurs="1" maxOccurs="*"/> </ElementType> <ElementType name="Inverted_File" content="eltOnly"> <element type="Term" minOccurs="1" maxOccurs="*"/> </ElementType> </Schema> 1.4.2 Tài li u XML <Inverted_File> <Term Name="nhân công"> <DOC D="378" F="1" W="2.5" /> <DOC D="879" F="3" W="7.49" /> <DOC D="1584" F="1" W="2.5" /> <DOC D="1627" F="1" W="2.5" />
  • 74. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 74 Nguy n Trung Hi u - 0112216 <DOC D="1659" F="1" W="2.5" /> <DOC D="1708" F="1" W="2.5" /> <DOC D="2194" F="2" W="4.99" /> </Term> <Term Name="gia truy n"> <DOC D="942" F="1" W="2.87" /> <DOC D="1670" F="1" W="2.87" /> <DOC D="2194" F="1" W="2.87" /> </Term> …… </Inverted_File> 1.5 p tin sau khi tách t câu h i. p tin này ch a các t tách c trong câu h i, trong ch ng trình nó c l u trong th m c “CauHoi” 1.5.1 u trúc DTD / XSD • DTD <!ELEMENT WORDS (WORD*)> <!ELEMENT WORD EMPTY> <!ATTLIST WORD Name CDATA #REQUIRED> • XSD
  • 75. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 75 Nguy n Trung Hi u - 0112216 <?xml version='1.0'?> <Schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes"> <!-- contents of XML Schema document goes here --> <AttributeType name="Name" dt:type="string"/> <ElementType name="WORD" content="eltOnly"> <attribute type="Name"/> </ElementType> <ElementType name="WORDS" content="eltOnly"> <element type="WORD" minOccurs="1" maxOccurs="*"/> </ElementType> </Schema> 1.5.2 Tài li u XML <WORDS> <WORD Name=" t n c" /> <WORD Name="và" /> <WORD Name="con ng i" />
  • 76. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 76 Nguy n Trung Hi u - 0112216 <WORD Name="vi t nam" /> </WORDS> 1.6 p tin ch a các t c a câu h i sau khi lo i b các t trong danh sách StopList p tin này c l u trong th m c “CauHoi”, tên t p tin là “CauHoiLoaiBoStopList.xml ” 1.6.1 u trúc DTD / XSD • DTD <!ELEMENT WORDS (WORD*)> <!ELEMENT WORD EMPTY> <!ATTLIST WORD Name CDATA #REQUIRED> • XSD <?xml version='1.0'?> <Schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes"> <!-- contents of XML Schema document goes here --> <AttributeType name="Name" dt:type="string"/> <ElementType name="WORD" content="eltOnly">
  • 77. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 77 Nguy n Trung Hi u - 0112216 <attribute type="Name"/> </ElementType> <ElementType name="WORDS" content="eltOnly"> <element type="WORD" minOccurs="1" maxOccurs="*"/> </ElementType> </Schema> 1.6.2 Tài li u XML <WORDS> <WORD Name=" t n c" /> <WORD Name="con ng i" /> <WORD Name="vi t nam" /> </WORDS> 1.7 p tin ch a các t trong câu h i và các tài li u liên quan p tin này ch a các t trong câu h i và các tham chi u n các tài li u ch a các t này, kèm theo t n s , tr ng s c a m i t trong tài li u t ng ng, nó c l u trong th m c “CauHoi” và tên t p tin là “CauHoiVaTaiLieu.xml”. 1.7.1 u trúc DTD / XSD • DTD <!ELEMENT WORDS (WORD*)> <!ELEMENT WORD (Doc)>
  • 78. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 78 Nguy n Trung Hi u - 0112216 <!ATTLIST WORD Name CDATA #REQUIRED> <!ELEMENT Doc EMPTY> <!ATTLIST Doc DOC_ID CDATA #REQUIRED> <!ATTLIST Doc Frequence CDATA #REQUIRED> <!ATTLIST Doc Weight CDATA #REQUIRED> • XSD <?xml version='1.0'?> <Schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes"> <!-- contents of XML Schema document goes here --> <AttributeType name="DOC_ID" dt:type="string"/> <AttributeType name="Frequence" dt:type="int"/> <AttributeType name="Weight" dt:type="fixed.14.4"/> <AttributeType name="Name" dt:type="string"/> <ElementType name="DOC" content="eltOnly"> <attribute type="DOC_ID"/> <attribute type="Frequence"/> <attribute type="Weight"/> </ElementType>
  • 79. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 79 Nguy n Trung Hi u - 0112216 <ElementType name="WORD" content="eltOnly"> <attribute type="Name"/> <element type="DOC" minOccurs="1" maxOccurs="*"/> </ElementType> <ElementType name="WORDS" content="eltOnly"> <element type="WORD" minOccurs="1" maxOccurs="*"/> </ElementType> </Schema> 1.7.2 Tài li u XML <WORDS> <WORD Name=" t n c"> <Doc DOC_ID="12" Frequence="2" Weight="2.48" /> <Doc DOC_ID="13" Frequence="1" Weight="1.24" /> <Doc DOC_ID="38" Frequence="1" Weight="1.24" /> <DOC DOC_ID="2446" Frequence="0" Weight="0" /> </WORD> <WORD Name="con ng i"> <Doc DOC_ID="12" Frequence="2" Weight="3.48" />
  • 80. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 80 Nguy n Trung Hi u - 0112216 <Doc DOC_ID="13" Frequence="0" Weight="0" /> <Doc DOC_ID="38" Frequence="0" Weight="0" /> <DOC DOC_ID="2446" Frequence="0" Weight="0" /> </WORD> <WORD Name="vi t nam"> <Doc DOC_ID="12" Frequence="1" Weight="2.48" /> <Doc DOC_ID="13" Frequence="0" Weight="0" /> <Doc DOC_ID="38" Frequence="2" Weight="2.12" /> <DOC DOC_ID="2446" Frequence="1" Weight="1.25" /> </WORD> </WORDS> 1.8 p tin ch a t ng quan gi a câu h i và các tài li u p tin này ch a t t c các tài li u liên quan n câu h i, m i tài li u s có ng quan t ng ng và s t trong câu h i mà tài li u ó ch a. 1.8.1 u trúc DTD / XSD • DTD <!ELEMENT CAU_HOI (Doc+)> <!ATTLIST CAU_HOI Name CDATA #REQUIRED> <!ELEMENT Doc EMPTY> <!ATTLIST Doc DOC_ID CDATA #REQUIRED>
  • 81. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 81 Nguy n Trung Hi u - 0112216 <!ATTLIST Doc SIMILAR CDATA #REQUIRED> <!ATTLIST Doc Words CDATA #REQUIRED> • XSD <?xml version='1.0'?> <Schema xmlns="urn:schemas-microsoft-com:xml-data" xmlns:dt="urn:schemas-microsoft-com:datatypes"> <!-- contents of XML Schema document goes here --> <AttributeType name="DOC_ID" dt:type="string"/> <AttributeType name="SIMILAR" dt:type="fixed.14.4"/> <AttributeType name="Words" dt:type="int"/> <AttributeType name="Name" dt:type="string"/> <ElementType name="Doc" content="eltOnly"> <attribute type="DOC_ID"/> <attribute type="SIMILAR"/> <attribute type="Words"/> </ElementType> <ElementType name="CAU_HOI" content="eltOnly"> <attribute type="Name"/>
  • 82. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 82 Nguy n Trung Hi u - 0112216 <element type="Doc" minOccurs="1" maxOccurs="*"/> </ElementType> </Schema> 1.8.2 Tài li u XML <CAU_HOI Name=" t n c và con ng i Vi t Nam"> <Doc DOC_ID="12" SIMILAR="8.44" Words="3" /> <Doc DOC_ID="13" SIMILAR="1.24" Words="1" /> <Doc DOC_ID="38" SIMILAR="4.6" Words="2" /> <Doc DOC_ID="2446" SIMILAR="1.25" Words="1" /> </CAU_HOI>
  • 83. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 83 Nguy n Trung Hi u - 0112216 2. Chi ti t các l p i t ng 2.1 Các l p trong quá trình tách t 2.1.1 các l p Hình 6-1 S l p tách t 2.1.2 p tách t ghép Hình 6-2 L p tách t ghép p tách t ghép s có nhi m v tách m t v n b n thành các t riêng bi t.
  • 84. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 84 Nguy n Trung Hi u - 0112216 u vào là m t chu i v n b n và u ra là m t chu i ch a các t , m i t s cách nhau i d u xu ng dòng ( ‘rn’ ). Ví d : chu i u vào = “Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn m i.” chu i u ra = “Thanh niênrnVNrn ng l crnchornnh ngrný t ngrn irnt m nhìnrnm irn”. 2.1.2.1 Ý ngh a c a các bi n thành ph n: • ch : m ng các ký t c bi t (d u ch m, d u ph y, ch m than, ch m h i, hai ch m,…) tách v n b n thành các c m t . • hVietnamese : b ng b m l u t t c các t trong t n ti ng Vi t. 2.1.2.2 Các hàm chính : - Hàm TachThanhCumTu( ) : tách chu i v n b n thành các c m t d a vào các kí t c bi t nh : d u ch m, ph y, ch m h i, ch m than… * Thu t toán : void TachThanhCumTu (chu i v n b n) { while(g p t c bi t u tiên trong chu i v n b n) { // C t ph n u thành m t c m t . // Gán chu i v n b n thành ph n sau. } }
  • 85. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 85 Nguy n Trung Hi u - 0112216 Ví d : chu i u vào = “Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn m i.” tr v ta s có 3 chu i c m t : chu i 1 = “Thanh niên VN” chu i 2 = “ ng l c cho nh ng ý t ng m i” chu i 3 = “t m nhìn m i” - Hàm TachMangTieng( ) : tách m t c m t thành t ng ti ng d a vào kh ang tr ng. * Thu t toán : void TachMangTieng(c m t ) { while(g p ký t kho ng tr ng u tiên trong c m t ) { // C t ph n u thành m t ti ng. // Gán c m t thành ph n sau. } } Ví d : chu i u vào = “ ng l c cho nh ng ý t ng m i” tr v là m ng chu i ch a các ti ng = { ng”;”l c”;”cho” “nh ng”;”ý”;”t ng”;”m i”} - Hàm XacDinhTu( ) : g p các ti ng l i thành t , so sánh trong t n ti ng Vi t và ta s l u l i các t này vào m ng các t .
  • 86. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 86 Nguy n Trung Hi u - 0112216 * Thu t toán : void XacDinhTu(m ng các ti ng) { B1 : gán t = ti ng u tiên. B2 : so sánh t có trong t n hay không. B3 : n u t có trong t n và có 2 ti ng tr lên thì ta s l u l i. B4 : N u trong m ng ti ng v n còn thì t := t + ti ng ti p theo. Ng c l i k t thúc hàm. B5 : Quay l i B2 } i các m ng ti ng c a ví d trên sau khi g i hàm này thì ta s có m ng các t nh sau: ng chu i các t ={” ng l c”;”cho” “nh ng”;”ý t ng”; ”m i”} 2.1.3 p tách t Hình 6-3 L p tách t
  • 87. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 87 Nguy n Trung Hi u - 0112216 p tách t s có nhi m v t o t p tin v n b n Xml t t p tin v n b n g c, sau ó s trích các t trong v n b n và cu i cùng l u l i các t trích c cùng v i các tài li u ch a t ó thành t p tin Xml tách t . 2.1.3.1 Ý ngh a c a các bi n thành ph n: • ttg : i t ng thu c l p CTachTuGhep 2.1.3.2 Các hàm chính : - Hàm TaoXML( ) : chuy n m t t p tin v n b n có c u trúc thành t p tin XML * Thu t toán : void TaoXML (t p tin v n b n) { T o t p tin Xml l u l i n i dung t p tin v n b n. // D ch con tr t p tin while(ch a h t t p tin v n b n) { B1 : tìm t khóa DOC l y ph n giá tr . B2 : tìm t khóa TITLE l y ph n giá tr . B3 : tìm t khóa AUTHOR l y ph n giá tr . B4 : tìm t khóa DATE l y ph n giá tr . B5 : tìm t khóa NEW l y ph n giá tr . B6 : tìm t khóa CONTENT l y ph n giá tr . l u l i ph n giá tr vào t p tin Xml.
  • 88. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 88 Nguy n Trung Hi u - 0112216 }// ENDWHILE } - Hàm Tachtu( ) : c ph n n i dung c a t p tin XML v n b n và dùng i ng thu c l p CTachTuGhep trích thành các t . * Thu t toán : string Tachtu (t p tin v n b n Xml) { - y ph n n i dung (CONTENT) trong t p tin Xml - Dùng i t ng c a l p tách t ghép tách t . - t qu tr v s là m t m ng ch a các t riêng bi t. } - Hàm KetQuaToXmlWord( ) : các t sau khi trích s c l u thành t p tin XML m i g i là “t p tin sau khi tách t tài li u” * Thu t toán : void KetQuaToXmlWord(chu i ch a các t ) { B1 : T o m t t p tin Xml B2 : Tách ra t ng t trong chu i B3 : Ki m tra t ó có l u trong t p tin Xml ch a ? o u ch a : l u t ó và l u tài li u t ng ng o u r i : ki m tra tài li u ó ã c l u trong t ó ch a. u ch a ta m i l u tài li u ó.
  • 89. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 89 Nguy n Trung Hi u - 0112216 B4 : N u ch a h t chu i quay l i b c 2. B5 : L u t p tin Xml l i. } 2.1.4 p giao di n tách t Hình 6-4 L p giao di n tách t * Giao di n tách t : Hình 6-5 Màn hình tách t
  • 90. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 90 Nguy n Trung Hi u - 0112216 - Ng i dùng có th ch n ng d n t i các t p tin v n b n c n tách t . - ListBox1 ch a các t p tin v n b n trong ng d n ã ch n. - ListBox2 ch a các t p tin v n b n c ch n tách t . - ListBox3 ch a các t p tin xml ã c tách t . - ListBox4 ch a các DocID trong t p tin xml ã c tách t . Vì m t t p tin v n b n xml s ch a nhi u tài li u và m i tài li u s có 1 DocID. Ng i dùng có th ch n DocID nào ó xem k t qu tách t và t n s c a m i t trong tài li u ó. Sau khi ch n m t DocID s có giao di n nh sau : Hình 6-6 Màn hình chi ti t tách t
  • 91. Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Nguy n Th Thanh Hà - 0112215 91 Nguy n Trung Hi u - 0112216 - Hàm x lý TachTu_Click( ) : hàm này s tách t t t c các t p tin c ch n trong ListBox2. 2.2 Các l p trong quá trình l p ch m c 2.2.1 các l p Hình 6-7 S l p l p ch m c