SlideShare a Scribd company logo
1 of 70
Download to read offline
TR NG I H C KHOA H C T NHIÊN
KHOA CÔNG NGH THÔNG TIN
MÔN CÔNG NGH TRI TH C
PHAN QU C LÂN
PH NG PHÁP THÊM D U TI NG VI T
VÀO V N B N TI NG VI T KHÔNG D U
KHOÁ LU N C NHÂN TIN H C
TP. HCM, N M 2005
1
TR NG I H C KHOA H C T NHIÊN
KHOA CÔNG NGH THÔNG TIN
MÔN CÔNG NGH TRI TH C
PHAN QU C LÂN – 0112267
PH NG PHÁP THÊM D U TI NG VI T
VÀO V N B N TI NG VI T KHÔNG D U
KHOÁ LU N C NHÂN TIN H C
GIÁO VIÊN H NG D N
Th.S PH M PH M TUY T TRINH
NIÊN KHÓA 2001 – 2005
2
i c m n
i u tiên, em xin chân thành c m n cô Ph m Ph m Tuy t Trinh, cô ã tr c
ti p h ng d n và t o u ki n cho em nghiên c u và hoàn thành lu n v n này.
Em c ng xin chân thành c m n th y inh n, th y ã h tr , giúp em r t
nhi u trong quá trình th c hi n. Và em c ng xin c m n t t c các th y cô trong khoa
Công ngh thông tin ã t n tình ch b o và giúp em trong su t quá trình h c t p
trong tr ng.
Con xin chân thành c m n ba m , ông bà, anh em và ng i thân trong gia ình
ã t o m i u ki n t t nh t cho con h c t p và ng viên, khích l con trong quá trình
th c hi n lu n v n.
Và cu i cùng, tôi xin g i l i c m n n t t c b n bè, c bi t là anh Toàn, b n
Sinh, b n Kh ng …, nh ng ng i ã h tr và giúp tôi hoàn thi n lu n v n này.
c dù em ã c g ng hoàn thành lu n v n trong ph m vi và kh n ng cho phép
nh ng ch c ch n s không tránh kh i nh ng thi u sót. Em kính mong nh n c s
m thông và t n tình ch b o c a quý Th y Cô và các b n.
TP. H Chí Minh, tháng 7 n m 2005
Phan Qu c Lân – 0112267
3
NH N XÉT C A GIÁO VIÊN H NG D N
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành ph H Chí Minh, tháng 07 n m 2005
Giáo viên h ng d n
Th.S Ph m Ph m Tuy t Trinh
4
NH N XÉT C A GIÁO VIÊN PH N BI N
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành ph H Chí Minh, tháng 07 n m 2005
Giáo viên ph n bi n
TS. inh n
I NÓI U
Ch vi t ti ng Vi t c a chúng ta có 1 c m r t hay là có s xu t hi n c a các
u thanh c ng nh d u c a các ký t . u này giúp cho ti ng Vi t “thêm thanh, thêm
u”. Tuy nhiên, c ng chính vi c “thêm thanh, thêm u” ó làm cho vi c gõ ti ng
Vi t tr nên t n nhi u th i gian h n. 1 v n khác, khi vi c s d ng Internet tr nên
thông d ng, 1 ti n ích c m i ng i a chu ng là d ch v Email. Nh ng, cho n
hi n nay, h u h t các mail server v n ch a h tr t t ti ng Vi t, do ó, tình tr ng các lá
mail trên m ng h u nh không có d u. Vi c phát tri n 1 công c giúp thêm d u ti ng
Vi t vào v n b n không d u là vi c r t c n thi t và thú v .
tài này h ng n vi c gi i quy t bài toán thêm d u ti ng Vi t theo m t
ng m i, do ó, ch ng trình không chú tr ng chuyên sâu vào l nh v c nào. Vi c
thêm ch c n ng h tr các l nh v c chuyên sâu khác không nh h ng nhi u n c u
trúc c a mô hình mà ch ng trình áp d ng.
Lu n v n c t ch c thành 5 ch ng v i n i dung nh sau :
§ Ch ng 1 gi i thi u t ng quan v bài toán Thêm d u ti ng Vi t vào v n b n
không d u, và các công trình ã có liên quan n tài.
§ Ch ng 2 gi i thi u các c s lý thuy t _ tin h c c n s d ng.
§ Ch ng 3 nh n xét các mô hình ã có tr c ây, và a ra mô hình cài t
chính.
§ Ch ng 4 c th hóa mô hình cài t.
§ Ch ng 5 t ng k t và ra h ng phát tri n .
6
C L C
Ch ng 1. NG QUAN....................................................................9
1.1. Gi i thi u v bài toán Thêm d u ti ng Vi t vào v n b n không d u.......10
1.1.1. Phát bi u bài toán.........................................................................................10
1.1.2. c m .......................................................................................................10
1.1.3. ng gi i quy t..........................................................................................11
1.2. Gi i thi u các công trình ã có..................................................................11
1.2.1. AMPad..........................................................................................................11
1.2.2. VietPad .........................................................................................................12
1.2.3. www.EasyVn.com.........................................................................................13
1.2.4. VnMark ........................................................................................................14
Ch ng 2. S LÝ THUY T TIN H C....................................15
2.1. Lý thuy t v ngôn ng h c.........................................................................16
2.1.1. Âm ti t (còn g i là “ti ng”) ..........................................................................16
2.1.1.1. nh ngh a và c m âm ti t ti ng Vi t ..............................................16
2.1.1.2. Thanh là thành ph n c a âm ti t ti ng Vi t .............................................16
2.1.1.3. T i sao l i ph i dùng d u thanh ?............................................................17
2.1.2. ..................................................................................................................18
2.1.2.1. Các quan ni m v t ...............................................................................18
2.1.2.2. Tiêu chí nh n di n “t ” ti ng Vi t...........................................................18
2.1.2.2.1. Các tiêu chu n v hình th c .................................................................19
2.1.2.2.2. Các tiêu chu n v n i dung ..................................................................19
2.2. Tách t ........................................................................................................20
2.2.1. Kh p t i a (LRMM – Left Right Max Matching).....................................21
2.2.2. Mô hình m ng WFST và m ng n -ron .......................................................22
2.3. Tách câu......................................................................................................22
2.3.1. Tách câu b ng Heristics. ..............................................................................23
2.3.1.1. X lý d u ch m. .....................................................................................23
2.3.1.2. X lý d u ch m trong ngo c. ..................................................................24
Ch ng 3.MÔ HÌNH CÀI T......................................................25
3.1. Các mô hình thêm d u ã c s d ng...................................................26
3.1.1. VietPad .........................................................................................................26
3.1.1.1. Mô hình thêm d u ti ng Vi t ..................................................................26
3.1.1.1.1. Ti n x lý............................................................................................26
3.1.1.1.2. Tách token...........................................................................................27
3.1.1.1.3. L y ra các t không d u, chuy n thành t có d u.................................27
3.1.2. VnMark ........................................................................................................28
7
3.1.2.1. Mô hình thêm d u ti ng Vi t ..................................................................28
3.1.2.1.1. Ti n x lý............................................................................................30
3.1.2.1.2. Tách câu ..............................................................................................30
3.1.2.1.3. Tìm các kh n ng ánh d u c a t , câu................................................30
3.1.2.2. Mô hình hu n luy n................................................................................31
3.2. Mô hình xu t..........................................................................................32
3.2.1. Mô hình.........................................................................................................32
3.2.1.1. Tách câu.................................................................................................33
3.2.1.2. Tách t b ng ph ng pháp LRMM.........................................................34
3.2.1.3. Ch n t thích h p ...................................................................................34
3.2.2. Mô hình hu n luy n .....................................................................................36
3.2.2.1. Th ng kê t n su t xu t hi n c a t ..........................................................36
3.2.2.1.1. Xây d ng kho ng li u.........................................................................36
3.2.2.1.2. Th ng kê t n su t xu t hi n c a t .......................................................37
3.2.2.1.3. T o t n chuy n i ........................................................................38
3.2.2.2. Trích xu t các c m t th ng s d ng ....................................................39
3.2.3. So sánh mô hình này v i 2 mô hình trên .....................................................41
Ch ng 4.CÀI T TH NGHI M.............................................43
4.1. Th ng kê t n s xu t hi n c a t ...............................................................44
4.1.1. Xây d ng kho ng li u text t báo n t ..................................................44
4.1.2. Tách câu........................................................................................................48
4.1.3. Tách t và th ng kê......................................................................................50
4.2. o t p tin t n chính............................................................................52
4.3. o t p tin t n c m t .........................................................................55
4.3.1. o kho d li u tinh gi n m i......................................................................55
4.3.2. o t p tin t n c m t ...........................................................................58
4.4. Ch ng trình chính....................................................................................58
4.4.1. Ch ng trình VietEditor..............................................................................59
4.4.2. Ch ng trình thêm d u qua Clipboard.......................................................60
4.5. Th nghi m ................................................................................................62
Ch ng 5. T QU , H NG PHÁT TRI N .............................63
5.1. n ch và h ng phát tri n .....................................................................64
5.2. t lu n ......................................................................................................64
Ph l c : C u trúc kho ng li u ......................................................67
8
DANH M C HÌNH
Hình 1.2.1-1 : Thêm d u ti ng Vi t t ng b ng AMPad......................................................12
Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad.............................................................12
Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad...........13
Hình 1.2.3-4 : Gõ ti ng Vi t không d u trên EasyVn..............................................................14
Hình 1.2.3-5 : V n b n sau khi t ng thêm d u trên EasyVn ..............................................14
Hình 1.2.4-6 : S k t c u âm ti ng Vi t.............................................................................17
Hình 3.1.1-7 : L u th c hi n c a mô hình ng d ng trong VietPad...................................26
Hình 3.1.2-8 : L u th c hi n c a mô hình n-gram ............................................................29
Hình 3.2-9: L u th c hi n c a mô hình xu t ................................................................33
Hình 3.2-10 : T p tin m u sau khi th ng kê t n su t t ..........................................................38
Hình 3.2-11 : Trích t p tin TuDienChinh.txt..........................................................................39
Hình 3.2-12 : Trích t p tin CumTu.txt....................................................................................41
Hình 4.1.1-13: Giao di n ch ng trình HTML2TXT..............................................................44
Hình 4.1.1-14: C u hình c a ch ng trình HTML2TXT.........................................................45
Hình 4.1.1-15 : M t trang báo thanh niên..............................................................................47
Hình 4.1.1-16 : li u c tách t trang báo Thanh niên...................................................48
Hình 4.1.2-17: Giao di n ch ng trình Tách Câu..................................................................49
Hình 4.1.2-18: T vi t t t cung c p cho ch ng trình Tách Câu............................................49
Hình 4.1.2-19: N i dung file k t xu t c a ch ng trình Tách Câu .........................................50
Hình 4.1.3-20: Giao di n module tách t ...............................................................................51
Hình4.1.3-21: N i dung t p tin th m c ngu n......................................................................51
Hình 4.1.3-22: N i dung t p tin t n .................................................................................52
Hình 4.1.3-23: N i dung t p tin k t qu .................................................................................52
Hình 4.1.3-24: Giao di n ch ng trình t o t n chính.......................................................53
Hình 4.1.3-25 : Trích 1 ph n TuDienChinh.txt.......................................................................54
Hình 4.1.3-26 : Trích 1 ph n TuDienPhanLop.txt.................................................................54
Hình 4.1.3-27: Trích 1 ph n KhoCau.txt................................................................................55
Hình 4.3.1-28: Giao di n ch ng trình t o kho d li u tinh gi n...........................................56
Hình 4.3.1-29 : Trích 1 ph n th m c k t xu t.......................................................................57
Hình 4.3.1-30 : Th m c con _a trong th m c k t xu t.........................................................57
Hình 4.3.2-31: Giao di n ch ng trình t o t p tin c m t .....................................................58
Hình 4.4.1-32: Giao di n ch ng trình chính VietEditor .......................................................59
Hình 4.4.2-33: Giao di n ch ng trình chính thêm d u Clipboard ........................................60
Hình 4.4.2-34: Test ch ng trình thêm d u Clipboard...........................................................61
Hình 5.2-35 : T p tin kho ng li u m u .................................................................................69
Ch ng 1. NG QUAN
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
10
1.1. Gi i thi u v bài toán Thêm d u ti ng Vi t vào
n b n không d u
1.1.1. Phát bi u bài toán
Bài toán có th c phát bi u nh sau : Cho m t v n b n ti ng Vi t không
u. Chuy n v n b n không d u này thành có d u v i chính xác cao.
Ch s d ng t n t và kho ng li u thô làm u vào.
Khái ni m t ây là “t t n” – t c là các t n, t ghép và c m t
c l u trong t n.
Ch x lý các v n b n ti ng Vi t có mã Unicode.
1.1.2. c m
Ch vi t ti ng Vi t có 1 c m r t hay là s xu t hi n c a các d u thanh
ng nh d u c a các ký t . Vi c có d u thanh và d u c a ký t này làm phong
phú thêm cho ngôn t ti ng Vi t, và c ng góp ph n t ng bi u c m c a ti ng
Vi t.
u thanh là 1 thành ph n “b t kh phân” trong âm ti t ti ng Vi t [8]. Khi
lo i b d u thanh, vi c hi u ngh a c a t , g m 1 hay nhi u âm ti t k t h p v i
nhau, tr nên khó kh n và d gây hi u l m.
thêm d u, tr c tiên, ta c n ph i xác nh ranh gi i t . Bài toán xác
nh ranh gi i t i v i v n b n ti ng Vi t có d u ã là 1 vi c th thách, thì khi
không có d u, vi c nh n di n ranh gi i t càng tr nên khó kh n h n. V n
này l i càng khó kh n, khi ranh gi i t trong ti ng Vi t c ng nh 1 s ngôn ng
Châu Á khác, m t t chính t có th không t ng ng v i m t “t ” trên v n
n. i v i các th ti ng Châu Âu, ta có th d dàng nh n ra m t t , do các t
c phân cách b i kho ng tr ng. u này l i không úng v i ti ng Vi t.
Trong ti ng Vi t, các ti ng _ hay còn g i là âm ti t _ c phân cách b i
kho ng tr ng, ch không ph i t .
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
11
Sau khi ã nh n di n c ranh gi i t , ta c n ph i xác nh cho úng t có
u nào có d ng th hi n không d u nh v y. Vi c xác nh này c ng gây nhi u
khó kh n, khi 1 t không d u có th có nhi u t có d u t ng ng v i nó.
Ví d 1-1 : T không d u “toi” có 3 t có d u t ng ng là “tôi”, “t i” và
“t i”.
Do ó, sau khi ã gi i quy t xong bài toán tách t ti ng Vi t không d u, ta
n ph i gi i quy t thêm bài toán xác nh t có d u thích h p v i t không d u
ó. ây chính là 2 bài toán c n gi i quy t chính c a mô hình.
1.1.3. ng gi i quy t
i v i tách t có d u, có nhi u mô hình c s d ng và t k t qu cao
nh MM (Maximum Matching : forward / backward hay còn g i là LRMM:
Left Right); gi i thu t h c c i bi n TBL; m ng chuy n d ch tr ng thái h u h n
có tr ng s WFST (Weighted finite-state Transducer); gi i thu t d a trên nén
(compression) [1] …. H ng gi i quy t c xu t là s d ng ph ng pháp
tách t LRMM [1][7] k t h p v i mô hình Bigram ã gi i quy t khá hi u qu 2
n c a bài toán này. Ph ng pháp ch m i c áp d ng cho mô hình thêm
u offine, nh ng có th c cài t gán d u online.
1.2. Gi i thi u các công trình ã có
1.2.1. AMPad
AMPad [12] (tên version c và thông d ng v i m i ng i là AutoMark)
a tác gi Tr n Tri t Tâm là s n ph m u tiên nghiên c u v l nh v c này.
Ch ng trình ã c nhi u ng i bi t n và c s d ng r ng rãi. u này
cho th y vi c phát tri n ng d ng hoàn thi n h n n a v thêm d u ti ng Vi t là
có nhu c u, và nhu c u này s ngày càng t ng cao. Ch ng trình AMPad có
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
12
m hay là vi c áp d ng mô hình x lý thêm d u ch online, t o s tr c
quan, thân thi n cho ng i s d ng.
Hình 1.2.1-1 : Thêm d u ti ng Vi t t ng b ng AMPad
1.2.2. VietPad
Vietpad [11] là trình so n th o h tr ti ng Vi t Unicode, c phát tri n
i Quân Nguy n và nhóm phát tri n trên http://vietpad.sourceforge.net. Ngoài
ch c n ng thêm d u t ng offline mà lu n v n ang nghiên c u, VietPad còn
là 1 trình so n th o ti ng Vi t h tr r t t t Unicode và là mã ngu n m .
Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
13
Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad
1.2.3. www.EasyVn.com
Trang web www.easyvn.com [10] cung c p d ch v email n t mi n phí
trên m ng, v i s h tr ng i dùng r t t t v ngôn ng Vi t. 1 ch c n ng n i
t c a www.easyvn.com là : sau khi so n th o xong b c mail, ng i dùng có
th ch n ch c n ng Thêm d u ti ng Vi t bi n v n b n không d u thành có
u. Do ây là d ch v c cung c p và thu phí trên NET (cho s d ng th
trong 2 tháng), mô hình thêm d u t ng c a www.easyvn.com c gi kín.
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
14
Hình 1.2.3-4 : Gõ ti ng Vi t không d u trên EasyVn
Hình 1.2.3-5 : V n b n sau khi t ng thêm d u trên EasyVn
1.2.4. VnMark
VnMark [2] c tác gi Nguy n V n Toàn phát tri n. Do tác gi ã làm
th t l c ch ng trình, do ó, không có hình nh minh ho ch ng trình.
Ch ng 2. S LÝ THUY T
TIN H C
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
16
2.1. Lý thuy t v ngôn ng h c
2.1.1. Âm ti t (còn g i là “ti ng”)
2.1.1.1. nh ngh a và c m âm ti t ti ng Vi t
“Ti ng” là “ n v c b n” trong ti ng Vi t [1]. M t “ti ng” trong ti ng
Vi t c nói lên là m t n v ng âm, và c ng là m t n v ng pháp.
t “ti ng” là m t n v phát ngôn, và là m t n v c a l i nói t o ra
nh ng k t c u l i nói trong ho t ng nói n ng giao ti p. c tính này c a
ti ng chính là m t tính cách lo i hình c a ti ng Vi t, trong ó m i n v
phát âm trùng khít v i n v ng pháp (hình v , và t ). Khi xét trên bình
di n ng âm, ti ng là m t n v c a ng âm, t c là m t âm ti t [9].
Vi c nh n di n “ti ng” i v i ng i Vi t là u quá d dàng, t nhiên
i v i m i ng i mà không c n m t trình ngôn ng gì cao, vì : trong l i
nói (m t ng âm), m i “ti ng” bao gi c ng phát ra m t h i, nghe thành m t
ti ng, và có mang m t thanh u nh t u; còn trong ch vi t (m t chính
), m i ti ng bao gi c ng c vi t r i thành t ng ch (ng n cách b ng
kho ng tr ng hay các d u ng t). n v “ti ng” i v i ng i Vi t là m t
n v t nhiên, khái ni m “ti ng” ã có t lâu và c ng i b n ng s
ng nó tr c khi hi u và s d ng khái ni m “t ”.
Ví d 2-1:
Câu “Cái bàn này hình bán nguy t” có 6 ti ng
2.1.1.2. Thanh là thành ph n c a âm ti t ti ng Vi t
Khi phát âm ti ng Vi t, chúng ta phát âm t ng n v l i nói c t r i nhau,
i là âm ti t. Khi phát âm ch m m t âm ti t, có th nh n th y khá rõ là m i
âm ti t u có th k t h p nhi u nh t là ba n v phát âm : âm u + âm
chính + âm cu i. Ba thành ph n trên g m nh ng âm v xu t hi n t ng i
theo th t tr c sau, nên g i là nh ng âm v tuy n tính.
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
17
Ngoài ra, m i âm ti t c nh m t b c cao th p, g i là thanh u.
Trong l i nói, m i âm ti t ti ng Vi t u mang m t thanh. Thanh này xu t
hi n l p t c khi âm ti t c phát ra, cho nên có th nói r ng thanh là m t
thành ph n b t kh phân c a âm ti t. Thanh là thành ph n âm v phi tuy n
tính c a m t âm ti t ti ng Vi t. Thanh là m t s c thái c a âm thanh các âm
ti t, qua ó khi phát âm s nh b c cao th p khác nhau c a m i n v c a
chu i l i nói. Có sáu thanh làm tiêu chu n nh b c cao th p khác nhau,
th ng g i là ngang, h i, s c, huy n, ngã, n ng.
Nh v y thì m i âm ti t ti ng Vi t y có t i a b n n v c u thành.
i thi u thì m i âm ti t c ng ph i có hai thành ph n : âm chính + thanh.
Hình 1.2.4-6 : S k t c u âm ti ng Vi t
2.1.1.3. i sao l i ph i dùng d u thanh ?
Các ngôn ng dùng b ng ch cái Latin không dùng thêm kí hi u ch
thanh, mà ch ghi l i các âm v tuy n tính b ng các v là con ch . H
th ng ch vi t kh i vuông nh ch Hán và ch Nôm c ng không có kí hi u
ch thanh. Nh ng tr ng h p ch qu c ng có khác. Khi dùng b ng ch cái
Latin, các v con ch ch a phân bi t ý ngh a m t t c vi t ra, vì
có n sáu thanh ph i phân bi t. Ðã ành thanh ch là y u t ng âm không
thu c v thành ph n âm v tuy n tính, nh ng thanh ti ng Vi t không h n ch
là m t y u t ngôn u mang tính cách hoa m cho âm ti t, mà là m t thành
ph n không th thi u c khi phát âm m t âm ti t. Nói cách khác, âm ti t
ti ng Vi t ch a hoàn ch nh khi ch a c nh thanh. Có l các nhà sáng ch
ra ch vi t theo b ng ch cái Latin mà ta th ng g i quen là "ch qu c ng "
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
18
ã hi u r t rõ tính cách b t kh phân c a thanh i v i âm ti t ti ng Vi t, cho
nên các v ã dùng n nh ng kí hi u ch th các b c thanh t ng ng. Và
ây c ng là c m n i b t c a ti ng Vi t.
2.1.2.
2.1.2.1. Các quan ni m v t
Có 1 s nh ngh a n hình v t nh sau [1] :
- Theo L.Bloomfield, thì t là t hình thái t do nh nh .
- Theo Solncev thì là n v ngôn ng có tính hai m t: âm và ngh a.
có kh n ng c l p v cú pháp khi s d ng trong l .
- Theo B.Golovin, thì t là n v nh nh t có ngh a c a ngôn ng , c
n d ng c l p, tái hi n t do trong l i nói xây d ng nên câu . ây
ng chính là nh ngh a mà trong ngôn ng h c i c ng hay s d ng.
Trong n i dung lu n v n này, ta quan tâm t i 3 thu t ng trong ngôn ng
i c ng nh n di n t :
1. ng âm : ó là nh ng n v c th ng nh t v i hi n t ng
ng âm nào ó. i v i ti ng Vi t, ó chính là nh ng âm ti t, hay
còn g i là “ti ng”, “ti ng m t”.
2. chính t : ó là nh ng kho ng cách gi a 2 ch trên v n t , t c là
nh ng n v c vi t li n thành kh i, i v i ti ng Vi t, ó chính
là “ch ”
3. t n h c : ó là n v mà c n c vào c m ý ngh a c a
nó ph i x p riêng trong t n.
2.1.2.2. Tiêu chí nh n di n “t ” ti ng Vi t
r t nhi u quan ni m c ng nh các nh ngh a v “t ti ng Vi t”, ta có
th rút ra tiêu chu n mà các nhà Vi t ng h c ã d a vào ó khi nh n di n t
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
19
ti ng Vi t [3]. Các tiêu chu n này chung qui ta có th phân thành : các tiêu
chu n v hình th c và các tiêu chu n v n i dung.
2.1.2.2.1. Các tiêu chu n v hình th c
Tính c nh : tính v ng ch c v c u t o, không th chêm – xen c
Tính c l p : các nhà Vi t ng h c hay dùng tiêu chu n tính c l p
phân bi t t ( n v có ngh a và c l p) v i hình v ( n v có ngh a và
không c l p). Tính c l p còn c g i là kh n ng k t h p (t do – h n
ch )
Tính t lo i và quan h cú pháp : trong ng /câu, t m nh n nh ng
ch c n ng cú pháp nh t nh, nên m i t u ph i mang m t t lo i nào ó,
còn hình v thì không có tính ch t t lo i. Quan h gi a các t là quan h cú
pháp, còn quan h gi a các hình v c a t không ph i là quan h cú pháp.
2.1.2.2.2. Các tiêu chu n v n i dung
Ch c n ng nh danh : ch c n ng này c dùng xác nh t cách c a
(t th c), coi ó là c tr ng phân bi t gi a “t ” v i “hình v ”
Bi u th khái ni m : vì t v i khái ni m không ph i là m t: có nh ng khái
ni m c n bi u th b ng nhi u t , và có nh ng t không bi u th khái ni m.
Ý ngh a bi u ni m : vì ý ngh a c a t và khái ni m không trùng nhau, vì
y, ng i ta c n phân bi t ý ngh a t v ng và ý ngh a ng pháp.
Hoàn ch nh v ngh a : ây là tiêu chu n quan tr ng, c a s các nhà
Vi t ng h c ch p nh n trong vi c xác nh t cách c a t . Tiêu chu n này
liên quan n tính thành ng và tính võ oán.
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
20
2.2. Tách t
Bài toán tách t cho ngôn ng n l p ã c t ra t lâu, ch y u gi i quy t
cho ti ng Trung Qu c, ti ng Nh t. Các thu t toán tách t có th c phân lo i nh
sau:
v a theo lu t. Bao g m các cách sau:
- Longest Matching, Greedy Matching Models (Yuen Poowarawan), 1986; Sampan
Rarurom, 1991).
- Mô hình kh p t i a. Mô hình này c chia thành “Kh p t i a ti n và kh p t i
a lùi”. i v i ph ng pháp này thì m t t n hoàn ch nh là không th thi u.
t t n không hoàn ch nh s gi m hi u su t c a thu t toán. Tuy nhiên, d
th y là khó có th có m t t n hoàn ch nh ( c bi t khi các ngôn ng v n còn
c ti p t c phát tri n h ng ngày trong th i i ngày nay). Mô hình này tu
thu c nhi u vào t n.
v Dùng th ng kê:
Gi i pháp này d a vào ng c nh t xung quanh a ra quy t nh thích h p.
Có hai v n c n c gi i quy t i v i gi i pháp này : r ng ng c nh, và cách áp
ng th ng kê. Ng c nh càng r ng thì thu t toán càng ph c t p.
Cho dù r ng ng c nh th nào, luôn có th áp d ng mô hình first-order HMM.
Tuy nhiên gi i pháp này ph thu c r t nhi u vào ng li u hu n lu n. K t qu hu n
luy n trên ng li u chính tr khó có th áp d ng trên các tài li u v n h c và ng c l i.
Thêm vào ó, có nh ng t có xác su t r t cao, nhung ch có th ch c n ng v m t ng
pháp, làm gi m vai trò c a xác su t.
v Cách khác:
u h t các gi i pháp khác là s lai t o gi a các mô hình trên và các mô hình
ngôn ng h c nh WFST, TBL. Th i gian x lý các gi i pháp này tr nên áng k ,
nh ng chính xác t c khá cao.
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
21
Tri th c v ngôn ng , th ng áp d ng cho các mô hình d a trên lu t, hi m khi
c áp d ng cho nh ng mô hình trên.
i ây là mô t 2 ph ng pháp tách t th ng s d ng :
2.2.1. Kh p t i a (LRMM – Left Right Max Matching)
Thu t toán so kh p t i a ho t ng nh tên c a chính nó. Thu t toán gi i quy t
bài toán tách t nào có nhi u t nh t (so kh p c nhi u nh t). Thu t toán c áp
ng xây d ng ch ng trình tách t ti ng Trung Qu c MMSEG. Thu t toán này có
nhi u bi n th khác nhau.
Ø ng n gi n, c dung gi i quy t v n nh p nh ng t n. Gi s có
t chu i ký t (t ng ng v i chu i ti ng Vi t trong ti ng Vi t) C1, C2
,…C3. Ta b t u t u chu i. u tiên, ki m tra xem C1 có ph i là t không,
sau ó ki m tra xem C1C2 có ph i là t hay không. Ti p t c làm cho n khi tìm
c t dài nh t. T có v h p lý nh t là t dài nh t. Ch n t ó, sau ó tìm ti p
nh trên trên nh ng t còn l i, cho n khi xác nh c toàn b chu i d li u.
Ø ng ph c t p. Quy t c c a d ng này là phân n có v h p lý nh t là n 3
v i chi u dài t i a. Thu t toán b t u nh d ng n gi n. N u phát hi n ra
nh ng cách tách t gây nh p nh ng (ví d C1 là t và C1C2 ng là t ), ta xem
các ch k ti p tìm t t c các n ba t có th có b t u v i C1 ho c C1C2.
Ví d 2-2 : ta c nh ng n sau:
- C1 C2 C3C4.
- C1C2 C3C4 C5
- C1C2 C3C4 C5C6
Chu i dài nh t s là chu i th ba. V y t u tiên c a chu i th ba (C1C2) s
c ch n. Th c hi n l i các b c cho n khi c chu i t hoàn ch nh. Cách này t
c chính xác 99.69%.
Mô hình s d ng ph ng pháp tách t LRMM d ng n gi n. Mô hình này v a
n gi n, nh ng mang l i chính xác cao.
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
22
2.2.2. Mô hình m ng WFST và m ng n -ron
WFST ã c áp d ng tách t ti ng Trung Qu c. Ý t ng c b n là áp d ng
WFST k t h p v i tr ng s là xác su t xu t hi n c a m i t trong ng li u. Dùng
WFST duy t qua câu c n xét. Cách duy t có tr ng s l n nh t s là cách tách t
c ch n. Gi i pháp này c ng ã c áp d ng trong [5] kèm v i m ng n -ron
kh nh p nh ng.
Mô hình tách t trong VnMark s d ng chính là mô hình WFST này (Xem chi ti t
n trong [1] trang 99-104, hay trong [5])
2.3. Tách câu
Trong m t v n b n ti ng Anh hay b ng b t k m t ngôn ng thông d ng nào
khác, thông th ng thì ta ch dùng d u ch m (.), ch m than (!), ch m h i(?) và m t s
u khác n a nh n bi t k t thúc câu. (Ta g i nh ng d u này là nh ng d u báo hi u
t thúc câu hay d u ch m câu). Tuy nhiên, do tính nh p nh ng c a d u báo hi u k t
thúc câu (ch ng h n nh d u k t thúc câu trong t vi t t t,…) nên vi c xác nh ranh
gi i câu không n gi n nh chúng ta ngh . Ví d nh d u ch m, nó có th bi u th nh
t d u ch m th p phân, m t c m t k t thúc, s k t thúc câu v n ho c ngay c t vi t
t n m cu i câu. M t d u ch m h i hay d u ch m than có th xu t hi n trong d u
ngo c n, ngo c kép hay c ng nh cu i câu. S m p m c a các d u câu này c
th hi n qua các ví d sau:
Ví d 2-3:
1. The group included Dr. J.M. Freeman and T. Boone Pickens Jr.
2. “This issue crosses party lines and crosses philosophical lines!” said Rep.
John Rowland (R., Conn.).
3. It was due Friday 5 p.m. Saturday would be too late.
4. She has an appointment at 5 p.m. Saturday to get her car fixed.
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
23
Trong tr ng h p 1 và 2, t n m ngay tr c ho c n m ngay sau d u ch m câu cho ta
nh ng thông tin quan tr ng v vai trò c a d u trong câu. Tuy nhiên, b ph n tách câu
n ph i có nhi u thông tin v ng c nh h n trong tr ng h p vi c ch m câu xu t hi n
m t câu con trong d u ngo c n ho c ngo c kép, nh trong tr ng h p 2; hay khi
ch vi t t t xu t hi n cu i câu nh trong tr ng h p 3, 4. nh n di n d u ch m
câu, ng i ta có th dùng các heuristics ho c các mô hình h c ph c t p h n, nh :
ng neural, TBL, Maximum Entropy.
2.3.1. Tách câu b ng Heristics.
Sau khi nh n n v n b n ã c l c các ký t d th a, các ký t ph , b
ph n tách câu b t u phân tích d a trên cách ch m câu và ng ngh a m t s t tách
ra các câu riêng bi t.
2.3.1.1. lý d u ch m.
u ch m “.” là d u có nhi u tr ng h p m h nh t. Sau ây là các tr ng h p
u ch m xu t hi n:
1. u ch m k t thúc câu.
2. u ch m th p phân trong ch s (1,234.567)
3. u ch m bi u th s vi t t t (Mr., Dr., ...)
4. u ch m trong các tr ng h p khác nh s tài kho n, email
(abcd@yahoo.com), d u ch m trong các a ch website (www.is-
edu.hcmuns.edu.vn).
có th phân bi t c các tr ng h p trên, ta có th d a vào m t s c tr ng
riêng trong cách trình bày c a t ng tr ng h p.
1. u d u ch m câu không thu c các tr ng h p còn l i (2,3,4) thì d u hi u
nh n bi t k t thúc câu s là : “luôn luôn có ít nh t m t kho ng tr ng sau d u
ch m và ký t ti p theo s là ch cái s c vi t hoa”.
2. Ta có th nh n bi t d u ch m th p phân b ng cách c toàn b ph n li n tr c
và ph n li n sau d u ch m phát hi n s có d u ch m th p phân.
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
24
3. nh n bi t d u ch m trong tr ng h p các t vi t t t, ta xây d ng m t danh
sách các t vi t t t tra c u khi c n.
4. Tr ng h p này là tr ng h p có các cách trình bày a d ng nh t, nh ng v n có
tính ch t chung là d u ch m không bao gi n m cu i t , luôn gi a hai ký t
nào ó (ngh a là không có kho ng tr ng li n sau) nên có th d dàng phân bi t
c.
Nh ng qui lu t trên ây là nh ng qui lu t chung nh t trong cách trình bày v n b n
ti ng Anh. i v i v n b n ti ng Vi t, các tr ng h p c ng g n nh th . Do d a ch
u vào cách trình bày v n b n nên có m y u là d nh m l n khi v n b n a vào có
cách trình bày khác chu n và do không hi u ngh a câu nên không th phân bi t m t s
tr ng h p m h nh trong ví d sau:
1. It was due Friday 5p.m. Saturday would be too late.
2. She has an appointment at 5 p.m. Saturday to get her car fixed.
xác nh c d u ch m (in m) trong 2 tr ng h p trên có ph i là d u ch m
t câu hay không c ng là m t vi c không n gi n i v i máy. Th m chí i v i
ng i mà trình ti ng Anh ch a v ng. Trong c hai tr ng h p, t ngay tr c ho c
ngay sau d u ch m câu cho ta nh ng thông tin quan tr ng v vai trò c a d u trong câu.
Tuy nhiên, b ph n tách câu s ph i c n nhi u thông tin v ng c nh và cú pháp h n
trong tr ng h p s ch m câu xu t hi n m t câu con nh trong tr ng h p 1.
2.3.1.2. lý d u ch m trong ngo c.
Khi b tách câu g p d u m ngo c n, ho c ngo c kép, thì nó s quét trong
n v n ang xét tìm d u óng t ng ng. N u tìm th y, toàn b ph n trong ngo c
c gi nguyên và tìm d u k t thúc câu ti p theo ngoài d u ngo c. N u không tìm
th y d u óng t ng ng, d u m s b b qua và x lý ti p ký t sau d u m nh bình
th ng.
Ch ng 3. MÔ HÌNH CÀI T
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
26
3.1. Các mô hình thêm d u ã c s d ng
3.1.1. VietPad
3.1.1.1. Mô hình thêm d u ti ng Vi t
Hình 3.1.1-7 : L u th c hi n c a mô hình ng d ng trong VietPad
3.1.1.1.1. Ti n x lý
Chu n hoá v n b n theo nh d ng mà VietPad quy nh
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
27
3.1.1.1.2. Tách token
Vietpad không tách t ng câu x lý, mà vào th ng vi c tách ra t ng token
t … Token có th g m 1 chu i các kí t không ph i là kí t (nh : , . ; “ @
# $ …. ) hay 1 chu i các kí t , hay là “ch ” ti ng Vi t.
Ví d 3-1:
Câu “--- Thoi gian troi qua mau ---” s c VietPad tách thành t ng
token nh sau :
Token 1: ---b (b kí hi u cho ‘ ’ _ kho ng tr ng)
Token 2: Thoi
Token 3: b
Token 4: gian
Token 5: b
Token 6: troi
Token 7: b
Token 8: qua
Token 9: b
Token 10: mau
Token 11: b---
3.1.1.1.3. y ra các t không d u, chuy n thành t có d u
i ph ng pháp tách token n gi n trên, và thêm ph ng pháp tách t
LRMM (t có t i a 3 ti ng), VietPad l y ra các t không d u, sau ó thông
qua 1 t n ánh x 1-1 gi a t không d u và t có d u (t n chuy n i),
chuy n t không d u thành có d u.
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
28
Ví d 3-2:
Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban
bac soi noi trong buoi hop nhom toi hom qua” s c VietPad chuy n
thành câu có d u sau thông qua t n (d u / th hi n s tách t c a VietPad)
“Nh ng v n / / liên quan / tôi ng i / ng t nh / luy n ái / c /
n b c / sôi n i / trong / bu i / h p / nhóm / tôi / hôm qua /”
3.1.2. VnMark
3.1.2.1. Mô hình thêm d u ti ng Vi t
n c vào mô hình n-gram, mô hình ánh d u t ng ti ng Vi t c
tác gi th c hi n theo l u sau:
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
29
Hình 3.1.2-8 : u th c hi n c a mô hình n-gram
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
30
3.1.2.1.1. Ti n x lý
Xóa các kho ng tr ng th a. Th c hi n các công vi c chu n hóa d li u nh p
vào… Thay th các ký t t ng t .
Theo các th ng kê v tâm lý, tác gi nh n th y khi ng i s d ng ánh ch
Vi t không d u thì ng i ta v n ánh c các ký t vi t hoa nh các danh t riêng.
Do ó, các t vi t hoa s không “th ng hóa” (lowercase) và các t vi t hoa này s
c c n c nh n d ng danh t riêng.
Ví d 3-3:
Da Nang à à N ng.
da nangà a n ng
Do ó, tác gi l u ý ng i dùng v c m này khi s d ng ch ng trình.
3.1.2.1.2. Tách câu
n c vào các c m c a ngôn ng c a ti ng Vi t : các t c cách
nhau b i các ký t nh “.”, “,”, “:”… tách thành các câu. M i câu là m t n v x
lý chính trong ch ng trình. Vi c quy t nh câu là n v c b n là do nhi u khi ngh a
a câu s c quy t nh s l a ch n v d u trong câu.
3.1.2.1.3. Tìm các kh n ng ánh d u c a t , câu
File t n (VNMarkDic.txt) s cung c p cho chúng ta xác su t c a các
nhóm âm ti t có th xu t hi n trong các v n b n ti ng Vi t. File t n này s c
trình bày k h n trong ph n sau.
n c vào t p tin t n VNMarkDic.txt, tác gi có th t o ra các tr ng
p có th ánh d u c a các t trong câu. T h p các thành ph n này s t o nên các
câu trong câu ng viên ã c ánh d u trong ti ng Vi t. Tuy nhiên, do c n c vào
p tin VNMarkDic.txt nên tác gi có th t o ra s l ng các câu ng viên không nhi u
m.
Ví d 3-4:
Câu c n gán d u = “Toc do truyen thong se tang cao”.
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
31
Thông qua t p tin t n VNMarkDic.txt , tác gi có các thông tin sau:
- toc do = “t c ” 8.68
- truyen = “truy n” 12.31
- truyen thong = “truy n th ng” 12.31
- thong tin = “thông tin” 7.24
- tin = “tin” 7.33
- se = “s ” 6.09
- tang = “t ng” 7.43
- cao = “cao” 6.95
Sau khi t h p các t ta s c 2 tr ng h p sau:
Tr ng h p 1 = “T c truy n th ng tin s t ng cao.” 48,79 1
Tr ng h p 2 = “T c truy n thông tin s t ng cao.” 48.70 2
____________________________________________
1
8.68 + 12.31 + 7.33 + 6.09 + 7.43 + 6.95 = 48.79
2
8.68 + 12.31 + 7.24 + 6.09 + 7.43 + 6.95 = 48.70
_____________________________________________
t qu = “T c truy n thông tin s t ng cao.” 48,70
(câu có t n s nh thì s th ng s d ng c a các t trong câu càng cao)
3.1.2.2. Mô hình hu n luy n
Nh ã trình bày ph n trên, c t lõi c a v n là n i dung t p tin t n
VNMarkDic.txt. T p tin này s ch a xác su t các nhóm âm ti t có th xu t hi n trong
n b n ti ng Vi t. Xác su t này c tính d a trên vi c th ng kê d li u c a h n
1.5GB file HTML c l y t trang www.vnexpress.net.
Khác v i các mô hình gán d u ti ng Vi t tr c ây, t p tin t n không
nh ng l u các t ti ng Vi t mà còn l u các dãy âm ti t trong ti ng Vi t. u này giúp
cho mô hình có th “vét c n” các thông tin giúp cho vi c gán d u thanh cho các âm ti t
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
32
tr nên chính xác h n. Ví d : tôi c ng l u thêm dãy âm ti t “tr c vi c”, … vào file
n này.
Tuy nhiên, vi c l u thêm các dãy âm ti t vào t n s khi n cho t n r t
n (x p x 10MB). u này khi n cho vi c tìm ki m s r t ch m. gi i quy t v n
này, tác gi xu t m t heuristic n gi n, t tên là S2T, giúp thu g n d li u c a
n :
Heuristic này c mô t nh sau:
i d li u text t c l y t trang www.vnexpress.net là C1.
i d li u text t c l y t trang www.vnexpress.net là b b h t d u
thanh là C2.
d li u C1, tác gi s t o ra file VNMarkDicPre.txt. File này s ch a
thông tin v xác su t c a các dãy âm ti t trong ti ng Vi t.
Tác gi s d ng file VNMarkDicPre.txt gán d u thanh cho các d li u
C2. Khi ó, tác gi s so sánh v i các d li u nguyên g c C1. Qua ó, tác gi ánh giá
các dãy âm ti t nào nên c s d ng, dãy âm ti t nào không nên s d ng.
thông tin trên, tác gi có th rút trích các dãy âm ti t “có ích” trong file
VNMarkDicPre.txt t o t p tin VNMarkDic.txt.
3.2. Mô hình xu t
3.2.1. Mô hình
n c vào mô hình Bigram, và d a vào ý t ng c a vi c th ng kê các
m t c a mô hình VnMark c a tác gi Nguy n V n Toàn, tôi xu t mô hình
thêm d u t ng sau :
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
33
Hình 3.2-9: u th c hi n c a mô hình xu t
3.2.1.1. Tách câu
d ng ph ng pháp tách câu heuristic ã nêu trong ch ng 2, ph n
2.3, m c 2.3.1. Qua ph ng pháp tách câu trên, ta có th phân bi t c 1 s
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
34
tr ng h p c bi t c a d u ch m câu “.” nh t vi t t t (Mr., Mrs. …), a
ch email (abc@gmail.com), a ch URL (http://mail.yahoo.com), s th p
phân (1,234.567) … u ra c a b c này s cho ra 1 t p các câu, là u vào
a b c sau.
3.2.1.2. Tách t b ng ph ng pháp LRMM
Ta dùng ph ng pháp tách t LRMM tách các t không d u t ng câu
t. Lý do ch n ph ng pháp này là : cài t ph ng pháp n gi n, sai s
khi tách sai t có th ch p nh n c khi tách t không d u.
Ví d 3-5: Ta có cách tách t câu có d u và câu không d u sau (các t
phân cách nhau b ng d u / )
o “H c sinh / h c / sinh h c”
o “Hoc sinh / hoc sinh / hoc” à khi chuy n thành câu có d u, c ng t o
c câu “H c sinh / h c sinh / h c” nh trên à sai s khi tách t có th
ch p nh n c trong 1 ph m vi nào ó.
Khi tách t b ng ph ng pháp LRMM, ta có chú ý n vi c nh n di n và
tách các t tên riêng ra d a trên 1 t n tên riêng. Vi c xác nh các tên
riêng d a trên ch cái vi t hoa u c a t , 1 c m tên riêng, có th ch c n
vi t hoa ti ng u tiên là c.
Ví d 3-6:
Da Nang à à N ng
Da nang à à N ng
da nang à a n ng
3.2.1.3. Ch n t thích h p
i t n chuy n i TuDienChinh.txt, ta có ánh x 1-1 chuy n 1 t
không d u thành có d u. Ngoài ra, t ng linh ho t và chính xác c a
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
35
ph ng pháp, ta có thêm 1 t n ph , g i là t n c m t CumTu.txt, l u
nh ng c m t th ng xuyên c s d ng.
Các c m t này c l u có c u trúc. V i m i c m t , ta có 1 chính,
và các chu i t còn l i trong c m t . i kèm v i chu i t là con s th hi n
trí c a chính này v i chu i t . (xem chi ti t c u trúc và cách t o trong
c 3.2.2.2)
Ví d 3-7: 1 vài c m t c l u
i <TAB> 1|qu n áo m c bu i <TAB> 1|bu i <TAB> 2|hôm
à t “t i” có 3 c m t là “qu n áo m c bu i t i”, “bu i t i” và “t i
hôm” v i “t i” là chính trong 3 c m t trên.
Sau khi ánh x 1-1 d a trên TuDienChinh.txt xong, ch ng trình s làm
thêm 1 b c n a, là tìm trong t n c m t , xem có s xu t hi n c m t
nào trong v n b n không ? N u có, thì ch ng trình s s a l i k t qu ,
c k t qu chính xác h n. Ph ng pháp xét duy t c mô t nh sau:
(Sau khi ã ánh x t không d u thành có d u r i)
Duy t các t không d u t trái qua ph i
V i t không d u có xu t hi n trong t n CumTu.txt (là
chính c a c m t sau khi lo i b d u), ta xét trong ph m vi [-3,+3] t xung
quanh t ó, xét xem, có s xu t hi n c a chu i còn l i c a c m t không
? N u có thì có s xu t hi n c a c m t ó à thay i t không d u ó
thành chính.
Ví d 3-8:
Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban
bac soi noi trong buoi hop nhom toi hom qua” s c chuy n thành câu
có d u qua các b c sau:
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
36
o Tách câu : t o ra 1 câu duy nh t là “Nhung van de lien quan toi nguoi
dong tinh luyen ai duoc ban bac soi noi trong buoi hop nhom toi hom
qua”
o Tách t (các t phân cách nhau b ng d u / ) : “Nhung / van de / lien
quan / toi / nguoi / dong tinh luyen ai / duoc / ban bac / soi noi / trong /
buoi / hop / nhom / toi / hom qua”
o Thêm d u d a trên TuDienChinh.txt : ta c câu sau “Nh ng / v n /
liên quan / tôi / ng i / ng tính luy n ái / c / bàn b c / sôi n i /
trong / bu i / h p / nhóm / tôi / hôm qua”
o Xét duy t l i d a trên CumTu.txt : ta c câu hoàn ch nh cu i cùng sau
“Nh ng / v n / liên quan / i / ng i / ng tính luy n ái / c / bàn
c / sôi n i / trong / bu i / h p / nhóm / i / hôm qua”
3.2.2. Mô hình hu n luy n
Ph n quan tr ng nh t c a mô hình là các t p tin t n c cung c p cho
mô hình, mà quan tr ng nh t là 2 t n : TuDienChinh.txt và CumTu.txt. Sau
ây mô t chi ti t các b c t o nên 2 t p tin trên.
3.2.2.1. Th ng kê t n su t xu t hi n c a t
3.2.2.1.1. Xây d ng kho ng li u
Trích xu t d li u text t kho d li u báo n t trên Internet. D li u
báo n t trên Internet s d ng g m 700MB d li u báo Thanh niên, 500MB
báo Ng i Lao ng và 700MB báo S c màu v n hoá.
( Xin xem thêm trong Ph l c 1 bi t chi ti t c u trúc kho ng li u)
Sau b c này, ta có c 1 th m c ch a nhi u t p tin text, m i t p tin
ch a t p các câu thu c cùng 1 l nh v c. Các l nh v c c s d ng, phù h p
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
37
i m c ích t ng quát c a ch ng trình, em ch n các bài báo v tin t c, th i
, xã h i, chính tr … và kèm thêm 1 ít v các l nh v c khác nh khoa h c,
giáo d c …
l n c a kho d li u vào kho ng 150MB d li u. L ng d li u này
l n mô hình ho t ng c chính xác.
3.2.2.1.2. Th ng kê t n su t xu t hi n c a t
i k t qu c a b c trên, ta duy t t t c các t p tin trong th m c, sau
ó dùng ph ng pháp LRMM tách t t ng câu m t, th ng kê t n su t xu t
hi n c a t theo công th c sau :
n su t t = -log10(s l n xu t hi n c a t / t ng s t )
Sau b c này, ta có c 1 t p tin text ch a t n su t các t mà ta th ng
kê c.
a trên kho ng li u 150MB, ta th ng kê c s l t t s d ng vào
kho ng g n 18 tri u t , s lo i t khác nhau s d ng là trên 26400 t . Các
thông s th ng kê trên c ghi vào t p tin log khi ch ng trình ch y.
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
38
Hình 3.2-10 : p tin m u sau khi th ng kê t n su t t
3.2.2.1.3. o t n chuy n i
Vi c t o t p tin t n chuy n i TuDienChinh.txt r t d dàng. V i t p
tin th ng kê t n su t xu t hi n c a t b c trên, ta lo i b các t có t n su t
> 7. Vi c lo i b này giúp cho ph ng pháp ch chú tr ng n các t có t n
su t nh (t c xu t hi n nhi u nh t). V i các t không d u có nhi u t có d u,
thì ta ch n ra t có d u có t n su t nh nh t (t c xu t hi n nhi u nh t) t o
thành t n TuDienChinh.txt v i c u trúc sau :
i dòng c a t n có c u trúc sau : <T không d u> TAB <T có d u>
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
39
Hình 3.2-11 : Trích t p tin TuDienChinh.txt
3.2.2.2. Trích xu t các c m t th ng s d ng
ây là 1 ph ng pháp t ng i n gi n rút trích ra 1 s c m t
th ng s d ng. Ta d a vào t n LLOCE ti ng Vi t rút ra các c m t ,
chú ý là, trong quá trình rút trích, ta ch quan tâm n các c m t ch ch a
các t t o nên s nh p nh ng khi lo i b d u (nh t “tôi”, “t i”, “t i” khi
lo i b s t o thành t “toi” à nh p nh ng) t ó, th ng kê trên kho ng li u
150MB b c trên, rút ra các c m t th ng s d ng. Các c m t này s
c l u nh sau :
i dòng có c u trúc sau :
<T chính trong c m t > {TAB <v trí | chu i | chu i>} (1,n)
Mô t :
- {1,n} : l p c u trúc trong {} t 1 n nhi u l n
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
40
- chính trong c m t : là t có d u. T này, sau khi b d u, thì t không d u này
có nhi u t có d u t ng ng (t gây nh p nh ng). T p tin CumTu.txt ch xét
các c m t có ch a các chính t o nên s nh p nh ng này thôi.
- trí : ch v trí c a <T chính trong c m t > trong c m t ó so v i <chu i>, có
các giá tr sau:
o trí = 0 : nói lên r ng, <T chính trong c m t > ng gi a 2 <chu i>,
và chu i tr c <T chính> s c ghi tr c, 2 <chu i> s cách nhau b i
kí t phân cách ‘|’
o trí = 1 : nói lên r ng, <T chính trong c m t > ng sau <chu i>, khi
ó, ch xu t hi n 1 <chu i> trong c m t
o trí =2 : nói lên r ng, <T chính trong c m t > ng tr c <chu i>, khi
ó, ch xu t hi n 1 <chu i> trong c m t
Ví d 3-9:
món 2| n à c m t “món n”, t chính là “món” ng tr c “ n”
u 0|môn|bóng à c m t “môn u bóng”, t chính là “ u” ng tr c
“bóng” và ng sau “môn”
i 1|bu i à c m t “bu i t i”, t chính là “t i” ng sau “bu i”
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
41
Hình 3.2-12 : Trích t p tin CumTu.txt
3.2.3. So sánh mô hình này v i 2 mô hình trên
Mô hình xu t là mô hình nâng cao c a mô hình VietPad s d ng. V i các u
th h n h n nh có ph n tách câu, kh n ng i t không d u thành có d u linh
ho t qua t n CumTu.txt ch không là ánh x 1-1 nh Vietpad, kh n ng nh n
di n t tên riêng ...
So v i mô hình mà VnMark s d ng, m i mô hình có 1 m m nh riêng,
nh ng ph ng pháp mà mô hình em xu t, có th tái k t h p v i mô hình c a
VnMark cho ra 1 k t qu hoàn ch nh h n n a.
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
42
m n i tr i c a mô hình, là kh n ng xét duy t và phát hi n c m t 1 cách
linh ho t trong ph m vi [-3,+3] mà các mô hình khác không th c hi n c. Vi c
xét duy t này cho phép phát hi n và gán d u chính xác, khi c m t xu t hi n không
liên t c.
Ví d 3-10:
Ch ng trình có th phát hi n và chuy n t “toi” thành “t i” khi phát hi n ra
m t “t i ngày hôm ó”, “t i ngày hôm kia”, “t i ngày hôm n ” … khi trong t
n CumTu.txt ch l u “t i 2|hôm”.
Ch ng 4. CÀI T
TH NGHI M
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
44
4.1. Th ng kê t n s xu t hi n c a t
Sau ây là các b c th c hi n có c t n t n s xu t hi n c a t . u
vào c a b c này là kho d li u báo n t online g m : 700MB d li u báo Thanh
niên, 500MB d li u báo Ng i lao ng và 700MB d li u báo S c màu v n hóa.
u ra s c t p tin t n t n s xu t hi n t , th ng kê c trên kho d li u
trên.
4.1.1. Xây d ng kho ng li u text t báo n t
(ch y ch ng trình html2txt.exe)
Ch ng trình Html2Txt s trích xu t các d li u text có ngh a trong kho d li u
báo online d ng html, có c kho d li u hoàn toàn thu n text. ây là b c ti n x
lý và các t p tin text c l u v i mã hoá UTF8.
Khi ch y ch ng trình này, em ã s d ng 700MB d li u báo Thanh niên,
500MB d li u báo Ng i lao ng và 700MB d li u báo S c màu v n hóa. K t qu
xu t ra kho ng 120 MB d li u text thu n túy.
Hình 4.1.1-13: Giao di n ch ng trình HTML2TXT
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
45
o u vào: là th m c ch a d li u kho d li u .html (có th ch a
th m c con nhi u c p).
o u ra: N i l u toàn b n i dung tách c (các n i dung l u
trong các file .txt cùng tên file .html a vào).
o Do d li u web a vào r t a d ng và không chu n nên ch ng
trình không th tìm c tag n i dung trong t t c các tr ng h p.
ch ng trình ho t ng úng thì khi ti n hành tách n i dung
cho các file .html thì ng i dùng c n ch rõ tag ch a n i dung
chính trong v n b n .html b ng cách c u hình cho ch ng trình.
Hình 4.1.1-14: u hình c a ch ng trình HTML2TXT
u hình ch ng trình
o b n: các tag ch a ph n n i dung c n trích ra
o Nâng cao: s d ng khi có thu c tính class c a tag t ng ng bên
ph n c b n
o Gi i mã NCR c a html: dùng chuy n ph n text nh d ng
NCR sang Unicode.
Ví d 4-1: T&#212;I è TÔI
o Charset: charset mà trang web s d ng; thông th ng, m i trang
web nh ngh a charset mà nó s d ng trong tag sau u html.
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
46
Hi n ch ng trình h tr 2 charset hay s d ng t i Vi t Nam là
utf-8 và windows-1252
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
Ta c n ph i nh charset úng vi c c d li u t html úng,
chính xác (n u ch n sai charset thì vi c c html s b thi u 1 s kí t )
u ý quan tr ng :
u hình c a 1 s trang web chính nh sau:
(Trong d u ngo c () là ph n nâng cao t ng ng c a tag)
1. www.thanhnien.com.vn :
(ko gi i mã NCR _ charset : utf8)
div(newslead)
div(newsbody)
2. www.tuoitre.com.vn
(ko gi i mã NCR _ charset : utf8)
p(ptitle)
p(phead)
p(pbody)
p(pquestion)
p(panswer)
3. vnca.cand.com.vn
(có gi i mã NCR _ charset : utf8)
span(main_title)
span(sapeau_box)
span(text_box)
4. www.nld.com.vn
(ko gi i mã NCR _ charset : utf8)
td(td_read)->p(none)
->p(msonormal)
(-> : p là tag con c a td)
5. www.baobinhdinh.com.vn
(ko gi i mã NCR _ charset : utf8)
p(msonormal)
p(msobodytext)
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
47
6. www.baocantho.com.vn
(có gi i mã NCR _ charset : windows_1252)
td(news_title)
td(news_body)
7. sacmauvanhoa
(ko gi i mã NCR _ charset : utf8)
p(dong)
p(msonormal)
Hình 4.1.1-15 : M t trang báo thanh niên
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
48
Hình 4.1.1-16 : li u c tách t trang báo Thanh niên
4.1.2. Tách câu
(ch y ch ng trình XDNguLieu.exe)
i b c này, ta th c hi n vi c t o 1 kho d li u chu n ti n cho vi c x
lý sau này. Kho d li u này theo chu n c mô t chi ti t trong ph n PH
C. 1 cách n gi n, kho này g m nhi u câu thu c cùng 1 l nh v c, m i câu
c gán 1 s ID riêng. K t qu thu c, v i kho text b c trên là 1 kho câu
150MB.
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
49
Hình 4.1.2-17: Giao di n ch ng trình Tách Câu
o vi t t t : Dùng nh ngh a các t vi t t t thông d ng có ch a d u ch m
câu (. ! ?) lo i b b t các tr ng h p gây nh m l n khi tách câu.
Hình 4.1.2-18: vi t t t cung c p cho ch ng trình Tách Câu
L u ý : nên 2 tr ng h p nh : Mr.(không có kho ng tr ng ng sau) và Mr.
(có kho ng tr ng ng sau) thì vi c ch y ch ng trình s t t và chính xác h n
o ID : nhãn nh danh duy nh t cho 1 câu trong t p tin, g m các tr ng :
Ngày Tháng N m Ngu n g c nh danh Ch
o u vào : Th m c ch a các file n i dung text ã tách c t các file .html
(th m c có th có nhi u c p).
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
50
o t xu t : File ch a t t c các câu v n b n ã c tách t th m c u vào và
gán ID (hình d i)
Hình 4.1.2-19: i dung file k t xu t c a ch ng trình Tách Câu
.
4.1.3. Tách t và th ng kê
(ch y ch ng trình Tach tu.exe)
V i kho d li u chu ng c t o ra b c trên, ta b t u dùng ph ng pháp
tách t LRMM th ng kê t n s xu t hi n c a t . Dùng 150 MB d li u kho câu
trên, em th ng kê trên kho ng g n 18 tri u l t t , và h n 26400 t khác nhau ã
xu t hi n.
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
51
Hình 4.1.3-20: Giao di n module tách t
v Th m c ngu n : Th m c ch a các câu ã c tách và gán nhãn, g m các
p tin cùng l nh v c (nh pháp lu t); không quan tâm kho d li u này cùng hay
khác ngu n g c
Hình4.1.3-21: i dung t p tin th m c ngu n
v p tin t n: File t n c th y cung c p s n và c ch nh s a theo
yêu c u s d ng riêng c a nhóm.
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
52
Hình 4.1.3-22: i dung t p tin t n
v Xu t t p tin ng li u: File l u các t tách c và t n su t xu t hi n c a các t
c tính theo công th c –lg(n/N)
Hình 4.1.3-23: i dung t p tin k t qu
4.2. o t p tin t n chính
(ch y ch ng trình RutGon.exe)
n chính, là t n c dùng tra c u vi c chuy n i l n u,
dùng ánh x 1-1 t t không d u sang t có d u. Trong ph n cài t, t n
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
53
chính có tên là TuDienChinh.txt. T p tin t n chính này, c t o ra nh vào t p
tin th ng kê t b c trên.
Hình 4.1.3-24: Giao di n ch ng trình t o t n chính
o p tin ngu n : t p tin ch a t n su t các t ã c th ng kê b c trên.
o Th m c th ng kê : th m c ch a kho ng li u. ây chính là Th m c ngu n
a ph n Tách t và th ng kê
o Th m c k t xu t : th m c s ch a k t qu c a ch ng trình. Ngoài vi c t o
ra t p tin TuDienChinh.txt, ch ng trình còn t o ra thêm 2 t p tin ph là
TuDienPhanLop.txt và KhoCau.txt là u vào cho b c sau.
§ TuDienPhanLop.txt : t n này ch a các t không d u, m i t không
u có 1 hay nhi u t có d u.
§ KhoCau.txt : ch a t t c các câu có s xu t hi n c a các t có d u trong
TuDienPhanLop.txt
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
54
Hình 4.1.3-25 : Trích 1 ph n TuDienChinh.txt
Hình 4.1.3-26 : Trích 1 ph n TuDienPhanLop.txt
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
55
Hình 4.1.3-27: Trích 1 ph n KhoCau.txt
4.3. o t p tin t n c m t
n c m t c s d ng tra c u và hi u ch nh l i các t không d u
ã chuy n sang có d u, d a trên vi c xét s xu t hi n c a c m t trong 1 ph m
vi nh t nh (xem chi ti t trong ph n Mô hình). Trong ph n cài t, t n c m
có tên là CumTu.txt và c t o ra sau 2 b c sau :
4.3.1. o kho d li u tinh gi n m i
(ch y ch ng trình KhoDuLieu.exe)
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
56
Hình 4.3.1-28: Giao di n ch ng trình t o kho d li u tinh gi n
Thông qua b c trung gian này, giúp cho vi c t o t p tin CumTu.txt c d
dàng và nhanh chóng h n.
o p tin t n : t p tin t n t ti ng Vi t
o n phân lo i : là TuDienPhanLop.txt c t o ra b c trên
o Kho câu : là KhoCau.txt c t o ra b c trên.
o Th m c k t xu t : th m c ch a k t qu ch ng trình. Sau khi ch y ch ng
trình này, ch ng trình s t o ra 1 s l ng l n th m c (tên th m c là “_” + t
không d u), trong th m c này s ch a các t p tin text (tên t p tin là “_” + t có
u), m i t p tin s ch a t t c các câu mà có s xu t hi n c a t ó.
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
57
Hình 4.3.1-29 : Trích 1 ph n th m c k t xu t
Hình 4.3.1-30 : Th m c con _a trong th m c k t xu t
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
58
4.3.2. o t p tin t n c m t
(ch y ch ng trình ThongKeTu.txt)
Hình 4.3.2-31: Giao di n ch ng trình t o t p tin c m t
o n : t n các t ti ng Vi t
o n phân l p : là TuDienPhanLop.txt c t o ra b c t o
TuDienChinh.txt
o n LLOCE : ch a 1 s c m t nh t nh … n u có ngu n d li u c m t
t h n, ch ng trình s ch y t t h n.
o Kho d li u : là Th m c k t xu t b c trên.
4.4. Ch ng trình chính
Ch c n ng thêm d u và xoá d u c tích h p trong 1 dll, giúp vi c tri n khai
ch ng trình c d dàng và thu n ti n h n. Vi c s d ng dll này r t n gi n, ch
n 1 dll và 1 th m c ch a các t p tin t n c n thi t cho ch ng trình (TuDien)
là ch c n ng Thêm d u và Xoá d u s n sàng ho t ng. V i dll trên, em phát tri n
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
59
1 s ch ng trình chính sau ây, v i giao di n thân thi n, d s d ng, giúp ng i
dùng d dàng thêm d u theo nhu c u s d ng c a h .
4.4.1. Ch ng trình VietEditor
Hình 4.4.1-32: Giao di n ch ng trình chính VietEditor
ây là 1 trình so n th o v n b n n gi n, v i các ch c n ng t ng t Notepad
a Windows, nh ng nó có thêm ch c n ng Thêm d u và Xoá d u.
Ch ng trình c phát tri n ki m tra mô hình c a ra. Ch c n ng
Thêm d u thanh (F7) và Xoá d u thanh (F6) trong menu Công c giúp thêm d u và
xoá d u cho v n b n.
Trong ch ng trình, do vi c Ti n x lý, nên nh d ng c a v n b n không gi
nh c c.
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
60
4.4.2. Ch ng trình thêm d u qua Clipboard
ây là 1 h ng phát tri n ti n l i cho ch c n ng thêm d u ti ng Vi t.
i vi c s d ng t không d u nhi u trên Internet nh chat qua Y!M, c các lá
mail n t … thì ti n ích này s giúp ng i s d ng ngay t c thì. Ng i dùng
ch c n copy n v n b n không d u c n thêm d u, ngay l p t c, ch ng trình s
th c hi n vi c chuy n n v n b n ó thành có d u và hi n th cho ng i dùng
xem.
Hình 4.4.2-33: Giao di n ch ng trình chính thêm d u Clipboard
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
61
Hình 4.4.2-34: Test ch ng trình thêm d u Clipboard
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
62
4.5. Th nghi m
i b d li u th là các v n b n ng u nhiên m i nh t l y t trang web
www.tuoitre.com.vn, ta so sánh ch ng trình VietEditor v i VietPad và AMPad, ta thu
c k t qu khá kh quan sau (dùng ch ng trình test, không test b ng tay) :
ng s ti ng T ng s ti ng úng T l úng
VietEditor 8275 7191 86,9%
VietPad 8275 7046 85,15%
AMPad 8275 7156 86,47%
Ch ng 5. T QU , H NG
PHÁT TRI N
Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
64
5.1. n ch và h ng phát tri n
Bài toán thêm d u ti ng Vi t vào v n b n không d u là bài toán m i, còn ang hoàn
thi n d n v mô hình c ng nh cách th c hi n. Hi n nay, mô hình th ng dùng cho bài
toán này là th ng kê t n s xu t hi n c a t , ng th i, tu theo m i tác gi mà có thêm
nh ng bi n i, thu t gi i khác nhau giúp cho vi c thêm d u c chính xác h n.
Qua lu n v n này, mô hình th ng kê t n s xu t hi n c a t , kèm theo ph ng pháp
tách t không d u LRMM và s d ng thêm t n c m t , kh n ng chính xác c a mô
hình là t ng i cao. Tuy nhiên, ph i nói là mô hình còn nh ng h n ch , và c ng là
nh ng h ng m mà lu n v n c n ph i ti p t c phát tri n trong th i gian t i nh m t ng
chính xác lên cao h n n a.
Th nh t, c n ph i có nh ng l nh v c chuyên môn cho mô hình. Trong th i i
chuyên môn hoá nh hi n nay, vi c s d ng ch ng trình trong nh ng l nh v c chuyên
môn là c n thi t, ng th i, giúp cho ch ng trình t ng thêm chính xác. Vi c thêm
ch c n ng này c ng không nh h ng nhi u n mô hình. ây, do th nghi m mô
hình m i nên b c này c b qua.
Th hai, áp d ng mô hình cho ph ng pháp thêm d u online. Vi c thêm d u online
ngoài vi c t o tr c quan cho ng i dùng, ngoài ra, có th t o ra 1 ph ng pháp gõ m i,
giúp vi c gõ ti ng Vi t c nhanh h n.
Th ba, mô hình có th áp d ng các ph ng pháp tách t chính xác h n nh WFST
c s d ng trong mô hình c a VnMark … t c chính xác cao h n n a.
5.2. t lu n
Tuy mô hình không có m gì m i n i b t, nh ng qua vi c l u tr t n c m t
chuy n i t linh ho t thì ây là h ng phát tri n r t có ti m n ng. V i 1 t n
m t chính xác và y h n, mô hình s ho t ng t t h n n a. Ch c n ng Thêm
u t ng c phát tri n thành 1 DLL, cho phép tích h p ch c n ng này vào b t k
trình so n th o nào 1 cách nhanh chóng.
65
TÀI LI U THAM KH O
[1]. Ti n s inh n. Giáo trình X lý ngôn ng t nhiên, Khoa Công ngh
Thông tin, i h c Khoa h c T nhiên thành ph H Chí Minh, Tháng
12 – 2004.
[2]. Nguy n V n Toàn. T ng Gán D u Thanh Ti ng Vi t – Trung tâm
Phát tri n Công ngh Thông tin, i h c Qu c gia Thành ph H Chí
Minh.
[3]. Hoàng V n Hành – inh n (1999), “T ti ng Vi t : Khái ni m – nh n
di n – ranh gi i”, Bài ti u lu n môn h c “T v ng h c”, L p Cao h c
Ngôn ng h c.
[4]. Hoàng Phê (1998), T n ti ng Vi t, Trung tâm t di n h c, NXB à
ng.
[5]. Dien Dinh, Kiem Hoang, Toan Nguyen Van (2001), “Vietnamese Word
Segmentation”, Proceedings of NLPRS’01 (The 6th
Natural Language
Processing Pacific Rim Symposium), Tokyo, Japan, 11/2001, pg. 749-756
[6]. n Chí Nam, lu n v n c nhân tin h c khoá 1999-2003, “X lý ng
ngh a trong h d ch t ng Anh –Vi t cho các tài li u tin h c”, pg. 27-
30
[7]. Nguy n Thái Ng c Duy, lu n v n c nhân tin h c khoá 2000-2004, “Xây
ng ch ng trình b t l i chính t ti ng Vi t và ngh t thay th cho
các l i chính t th ng g p”, pg. 16-36, pg. 69-73
[8]. oàn Xuân Kiên, “Bàn v chuy n ánh d u thanh trong ti ng Vi t”,
ng t i trang http://home.tiscali.be/centre.vietnam/
[9]. oàn Xuân Kiên, “Xem l i m t v n ng âm ti ng Vi t : c u trúc âm
ti t”, ng t i trang http://home.tiscali.be/centre.vietnam/
[10]. http://www.easyvn.com
66
[11]. Tài li u v ph n m m VietPad c công b t i trang web:
http://vietpad.sourceforge.net
[12]. Tài li u v ph n m m AMPad c công b t i trang web:
http://www.echip.com.vn/echiproot/weblh/qcbg/duynghi/automark
[13]. 1 s ph n m m h tr trên www.codeproject.com
67
Ph l c : C u trúc kho ng li u
Kho ng li u g m nhi u t p tin text (.txt), m i t p tin ch a m t t p các câu thu c cùng
1 ch . T p tin text c l u v i c u trúc sau
o p tin text g m nhi u record, m i record g m :
§ ID : nh danh
§ S : n i dung câu
S cách ID b ng d u TAB (“t”)
u trúc tr ng ID :
Thông tin ID bao g m nh ng n i dung sau:
• Ngày (1..31) 2 ký t
• Tháng (1..12) 2 ký t
• m (04 = 2004) 2 ký t
• Xu t x 3 ký t
o Ký t u tiên: ngu n g c c a ng li u
§ B: Báo chí
§ T: Tác ph m v n h c
§ S: Sách
§ L Lu n v n
§ V: Các lo i v n b n
o Ký t th hai và ba: nh danh ngu n g c c a ng li u
§ báo chí:
• TN: Thanh Niên
• TT: Tu i Tr
• SG: Sài Gòn Gi i Phóng
• ND: Nhân Dân
• LD: Ng i Lao ng
• CT: C n Th
• BD: Bình nh
• VH: S c màu v n hóa
§ tác ph m v n h c: nhóm làm tài t quy nh nh danh
cho tên các tác ph m V n h c mà mình có, ng th i ph i có
tài li u cho ph n này (ý ngh a c a t ng nh danh mà nhóm ó
d ng và l u trong t p tin riêng)
68
• Vd: Truy n Ki u c a Nguy n Du à TK
• Vd: Cô Gái Long c a Kim Dung à CG
§ sách: cách qui nh gi ng tác ph m v n h c.
§ lu n v n: cách qui nh gi ng tác ph m v n h c.
§ v n b n: cách qui nh gi ng tác ph m v n h c. M t kho
ng li u áng k ó là các v n b n c a Nhà N c, v n b n
Pháp Lu t (www.luatgiapham.com),…
• Ch 1 ký t
o báo chí:
§ X: Xã h i, tin trong n c, tin th gi i
§ T: Th ng m i, kinh doanh, kinh t
§ V: V n hóa, th thao, i s ng,
§ P: Pháp lu t
§ Y: Y t , s c kh e,
§ K: Khoa h c, k thu t, tin h c
o v n h c:
§ T: Th
§ N: Truy n ng n
§ D: Truy n dài
§ K: Truy n ki m hi p
o sách:
§ (gi ng qui nh c a báo chí)
o lu n v n:
§ (gi ng qui nh c a báo chí)
o v n b n:
§ (gi ng qui nh c a báo chí)
• th t bài vi t4 ký t (01..9999)
• th t câu 3 ký t (001..999)
ng k t l i, tr ng ID có chi u dài là: 17
69
Hình 5.2-35 : p tin kho ng li u m u

More Related Content

Viewers also liked

Bao cao-hmm
Bao cao-hmmBao cao-hmm
Bao cao-hmmCu Tìn
 
Estratégias de Marketing e SEO com Programas de Afiliados
Estratégias de Marketing e SEO com Programas de AfiliadosEstratégias de Marketing e SEO com Programas de Afiliados
Estratégias de Marketing e SEO com Programas de AfiliadosEscolas+
 
Tablet friability,harness and dissolution testing
Tablet friability,harness and dissolution testingTablet friability,harness and dissolution testing
Tablet friability,harness and dissolution testingdonjacob81
 

Viewers also liked (11)

Bao cao-hmm
Bao cao-hmmBao cao-hmm
Bao cao-hmm
 
Order to cash final
Order to cash finalOrder to cash final
Order to cash final
 
STS transformer
STS transformerSTS transformer
STS transformer
 
Cirugía de la obesidad
Cirugía de la obesidadCirugía de la obesidad
Cirugía de la obesidad
 
Analise de risco
Analise de riscoAnalise de risco
Analise de risco
 
Las mutaciones
Las mutaciones Las mutaciones
Las mutaciones
 
pavi resume (2) (1)
pavi resume (2) (1)pavi resume (2) (1)
pavi resume (2) (1)
 
El Marketing Digital Inmobiliario
El Marketing Digital InmobiliarioEl Marketing Digital Inmobiliario
El Marketing Digital Inmobiliario
 
Estratégias de Marketing e SEO com Programas de Afiliados
Estratégias de Marketing e SEO com Programas de AfiliadosEstratégias de Marketing e SEO com Programas de Afiliados
Estratégias de Marketing e SEO com Programas de Afiliados
 
Cuento los colores
Cuento los coloresCuento los colores
Cuento los colores
 
Tablet friability,harness and dissolution testing
Tablet friability,harness and dissolution testingTablet friability,harness and dissolution testing
Tablet friability,harness and dissolution testing
 

Similar to Them dau vao van ban tieng viet ko dau

Chuong 3 -_nghiep_vu_tin_dung_2
Chuong 3 -_nghiep_vu_tin_dung_2Chuong 3 -_nghiep_vu_tin_dung_2
Chuong 3 -_nghiep_vu_tin_dung_2Bich Tuyen Trinh
 
Mobile agent va ung dung vao workflow
Mobile agent va ung dung vao workflowMobile agent va ung dung vao workflow
Mobile agent va ung dung vao workflowVcoi Vit
 
Creativebrief 120103003132-phpapp02
Creativebrief 120103003132-phpapp02Creativebrief 120103003132-phpapp02
Creativebrief 120103003132-phpapp02LUONG NGUYEN
 
Luận văn: Hoàn thiện tổ chức và quản trị công tác kiểm tra, xác định trị giá ...
Luận văn: Hoàn thiện tổ chức và quản trị công tác kiểm tra, xác định trị giá ...Luận văn: Hoàn thiện tổ chức và quản trị công tác kiểm tra, xác định trị giá ...
Luận văn: Hoàn thiện tổ chức và quản trị công tác kiểm tra, xác định trị giá ...Dịch vụ viết thuê Khóa Luận - ZALO 0932091562
 
BTTH - Kiểm định giả thuyết cho biến số định tính
BTTH - Kiểm định giả thuyết cho biến số định tínhBTTH - Kiểm định giả thuyết cho biến số định tính
BTTH - Kiểm định giả thuyết cho biến số định tínhYen Luong-Thanh
 

Similar to Them dau vao van ban tieng viet ko dau (11)

Phan hoi sau_du_an
Phan hoi sau_du_anPhan hoi sau_du_an
Phan hoi sau_du_an
 
Thuyết minh mới
Thuyết minh mớiThuyết minh mới
Thuyết minh mới
 
Chuong 3 -_nghiep_vu_tin_dung_2
Chuong 3 -_nghiep_vu_tin_dung_2Chuong 3 -_nghiep_vu_tin_dung_2
Chuong 3 -_nghiep_vu_tin_dung_2
 
Mobile agent va ung dung vao workflow
Mobile agent va ung dung vao workflowMobile agent va ung dung vao workflow
Mobile agent va ung dung vao workflow
 
Bản Creative brief - Design Brief - Định hướng sáng tạo
Bản Creative brief - Design Brief - Định hướng sáng tạoBản Creative brief - Design Brief - Định hướng sáng tạo
Bản Creative brief - Design Brief - Định hướng sáng tạo
 
Creativebrief 120103003132-phpapp02
Creativebrief 120103003132-phpapp02Creativebrief 120103003132-phpapp02
Creativebrief 120103003132-phpapp02
 
Luận văn: Hoàn thiện tổ chức và quản trị công tác kiểm tra, xác định trị giá ...
Luận văn: Hoàn thiện tổ chức và quản trị công tác kiểm tra, xác định trị giá ...Luận văn: Hoàn thiện tổ chức và quản trị công tác kiểm tra, xác định trị giá ...
Luận văn: Hoàn thiện tổ chức và quản trị công tác kiểm tra, xác định trị giá ...
 
Tienganh
TienganhTienganh
Tienganh
 
Đánh giá nguy cơ tai biến trượt lở huyện Bắc Yên, tỉnh Sơn La, 9đ
Đánh giá nguy cơ tai biến trượt lở huyện Bắc Yên, tỉnh Sơn La, 9đĐánh giá nguy cơ tai biến trượt lở huyện Bắc Yên, tỉnh Sơn La, 9đ
Đánh giá nguy cơ tai biến trượt lở huyện Bắc Yên, tỉnh Sơn La, 9đ
 
Luận văn: Đánh giá nguy cơ tai biến trượt lở tỉnh Sơn La, HAY, 9đ
Luận văn: Đánh giá nguy cơ tai biến trượt lở tỉnh Sơn La, HAY, 9đLuận văn: Đánh giá nguy cơ tai biến trượt lở tỉnh Sơn La, HAY, 9đ
Luận văn: Đánh giá nguy cơ tai biến trượt lở tỉnh Sơn La, HAY, 9đ
 
BTTH - Kiểm định giả thuyết cho biến số định tính
BTTH - Kiểm định giả thuyết cho biến số định tínhBTTH - Kiểm định giả thuyết cho biến số định tính
BTTH - Kiểm định giả thuyết cho biến số định tính
 

More from Vcoi Vit

2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri31
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri312eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri31
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri31Vcoi Vit
 
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri14
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri142eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri14
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri14Vcoi Vit
 
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri13
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri132eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri13
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri13Vcoi Vit
 
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri05
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri052eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri05
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri05Vcoi Vit
 
Giao trinh nuoi_trong_thuy_san46
Giao trinh nuoi_trong_thuy_san46Giao trinh nuoi_trong_thuy_san46
Giao trinh nuoi_trong_thuy_san46Vcoi Vit
 
Giao trinh nuoi_trong_thuy_san28
Giao trinh nuoi_trong_thuy_san28Giao trinh nuoi_trong_thuy_san28
Giao trinh nuoi_trong_thuy_san28Vcoi Vit
 
Giao trinh nuoi_trong_thuy_san23
Giao trinh nuoi_trong_thuy_san23Giao trinh nuoi_trong_thuy_san23
Giao trinh nuoi_trong_thuy_san23Vcoi Vit
 
Giao trinh nuoi_trong_thuy_san22
Giao trinh nuoi_trong_thuy_san22Giao trinh nuoi_trong_thuy_san22
Giao trinh nuoi_trong_thuy_san22Vcoi Vit
 
Giao trinh nuoi_trong_thuy_san21
Giao trinh nuoi_trong_thuy_san21Giao trinh nuoi_trong_thuy_san21
Giao trinh nuoi_trong_thuy_san21Vcoi Vit
 
Giao trinh nuoi_trong_thuy_san16
Giao trinh nuoi_trong_thuy_san16Giao trinh nuoi_trong_thuy_san16
Giao trinh nuoi_trong_thuy_san16Vcoi Vit
 
Giao trinh nuoi_trong_thuy_san05
Giao trinh nuoi_trong_thuy_san05Giao trinh nuoi_trong_thuy_san05
Giao trinh nuoi_trong_thuy_san05Vcoi Vit
 
Giao trinh nuoi_trong_thuy_san02
Giao trinh nuoi_trong_thuy_san02Giao trinh nuoi_trong_thuy_san02
Giao trinh nuoi_trong_thuy_san02Vcoi Vit
 
Giao trinh tong hop sv50
Giao trinh tong hop sv50Giao trinh tong hop sv50
Giao trinh tong hop sv50Vcoi Vit
 
Giao trinh tong hop sv49
Giao trinh tong hop sv49Giao trinh tong hop sv49
Giao trinh tong hop sv49Vcoi Vit
 
Giao trinh tong hop sv48
Giao trinh tong hop sv48Giao trinh tong hop sv48
Giao trinh tong hop sv48Vcoi Vit
 
Giao trinh tong hop sv47
Giao trinh tong hop sv47Giao trinh tong hop sv47
Giao trinh tong hop sv47Vcoi Vit
 
Giao trinh tong hop sv46
Giao trinh tong hop sv46Giao trinh tong hop sv46
Giao trinh tong hop sv46Vcoi Vit
 
Giao trinh tong hop sv45
Giao trinh tong hop sv45Giao trinh tong hop sv45
Giao trinh tong hop sv45Vcoi Vit
 
Giao trinh tong hop sv43
Giao trinh tong hop sv43Giao trinh tong hop sv43
Giao trinh tong hop sv43Vcoi Vit
 
Giao trinh tong hop sv41
Giao trinh tong hop sv41Giao trinh tong hop sv41
Giao trinh tong hop sv41Vcoi Vit
 

More from Vcoi Vit (20)

2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri31
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri312eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri31
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri31
 
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri14
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri142eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri14
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri14
 
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri13
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri132eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri13
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri13
 
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri05
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri052eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri05
2eae0e86 e7c6-431d-aa08-b8f89ba71921 giaotrinhkinhtechinhtri05
 
Giao trinh nuoi_trong_thuy_san46
Giao trinh nuoi_trong_thuy_san46Giao trinh nuoi_trong_thuy_san46
Giao trinh nuoi_trong_thuy_san46
 
Giao trinh nuoi_trong_thuy_san28
Giao trinh nuoi_trong_thuy_san28Giao trinh nuoi_trong_thuy_san28
Giao trinh nuoi_trong_thuy_san28
 
Giao trinh nuoi_trong_thuy_san23
Giao trinh nuoi_trong_thuy_san23Giao trinh nuoi_trong_thuy_san23
Giao trinh nuoi_trong_thuy_san23
 
Giao trinh nuoi_trong_thuy_san22
Giao trinh nuoi_trong_thuy_san22Giao trinh nuoi_trong_thuy_san22
Giao trinh nuoi_trong_thuy_san22
 
Giao trinh nuoi_trong_thuy_san21
Giao trinh nuoi_trong_thuy_san21Giao trinh nuoi_trong_thuy_san21
Giao trinh nuoi_trong_thuy_san21
 
Giao trinh nuoi_trong_thuy_san16
Giao trinh nuoi_trong_thuy_san16Giao trinh nuoi_trong_thuy_san16
Giao trinh nuoi_trong_thuy_san16
 
Giao trinh nuoi_trong_thuy_san05
Giao trinh nuoi_trong_thuy_san05Giao trinh nuoi_trong_thuy_san05
Giao trinh nuoi_trong_thuy_san05
 
Giao trinh nuoi_trong_thuy_san02
Giao trinh nuoi_trong_thuy_san02Giao trinh nuoi_trong_thuy_san02
Giao trinh nuoi_trong_thuy_san02
 
Giao trinh tong hop sv50
Giao trinh tong hop sv50Giao trinh tong hop sv50
Giao trinh tong hop sv50
 
Giao trinh tong hop sv49
Giao trinh tong hop sv49Giao trinh tong hop sv49
Giao trinh tong hop sv49
 
Giao trinh tong hop sv48
Giao trinh tong hop sv48Giao trinh tong hop sv48
Giao trinh tong hop sv48
 
Giao trinh tong hop sv47
Giao trinh tong hop sv47Giao trinh tong hop sv47
Giao trinh tong hop sv47
 
Giao trinh tong hop sv46
Giao trinh tong hop sv46Giao trinh tong hop sv46
Giao trinh tong hop sv46
 
Giao trinh tong hop sv45
Giao trinh tong hop sv45Giao trinh tong hop sv45
Giao trinh tong hop sv45
 
Giao trinh tong hop sv43
Giao trinh tong hop sv43Giao trinh tong hop sv43
Giao trinh tong hop sv43
 
Giao trinh tong hop sv41
Giao trinh tong hop sv41Giao trinh tong hop sv41
Giao trinh tong hop sv41
 

Them dau vao van ban tieng viet ko dau

  • 1. TR NG I H C KHOA H C T NHIÊN KHOA CÔNG NGH THÔNG TIN MÔN CÔNG NGH TRI TH C PHAN QU C LÂN PH NG PHÁP THÊM D U TI NG VI T VÀO V N B N TI NG VI T KHÔNG D U KHOÁ LU N C NHÂN TIN H C TP. HCM, N M 2005
  • 2. 1 TR NG I H C KHOA H C T NHIÊN KHOA CÔNG NGH THÔNG TIN MÔN CÔNG NGH TRI TH C PHAN QU C LÂN – 0112267 PH NG PHÁP THÊM D U TI NG VI T VÀO V N B N TI NG VI T KHÔNG D U KHOÁ LU N C NHÂN TIN H C GIÁO VIÊN H NG D N Th.S PH M PH M TUY T TRINH NIÊN KHÓA 2001 – 2005
  • 3. 2 i c m n i u tiên, em xin chân thành c m n cô Ph m Ph m Tuy t Trinh, cô ã tr c ti p h ng d n và t o u ki n cho em nghiên c u và hoàn thành lu n v n này. Em c ng xin chân thành c m n th y inh n, th y ã h tr , giúp em r t nhi u trong quá trình th c hi n. Và em c ng xin c m n t t c các th y cô trong khoa Công ngh thông tin ã t n tình ch b o và giúp em trong su t quá trình h c t p trong tr ng. Con xin chân thành c m n ba m , ông bà, anh em và ng i thân trong gia ình ã t o m i u ki n t t nh t cho con h c t p và ng viên, khích l con trong quá trình th c hi n lu n v n. Và cu i cùng, tôi xin g i l i c m n n t t c b n bè, c bi t là anh Toàn, b n Sinh, b n Kh ng …, nh ng ng i ã h tr và giúp tôi hoàn thi n lu n v n này. c dù em ã c g ng hoàn thành lu n v n trong ph m vi và kh n ng cho phép nh ng ch c ch n s không tránh kh i nh ng thi u sót. Em kính mong nh n c s m thông và t n tình ch b o c a quý Th y Cô và các b n. TP. H Chí Minh, tháng 7 n m 2005 Phan Qu c Lân – 0112267
  • 4. 3 NH N XÉT C A GIÁO VIÊN H NG D N _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Thành ph H Chí Minh, tháng 07 n m 2005 Giáo viên h ng d n Th.S Ph m Ph m Tuy t Trinh
  • 5. 4 NH N XÉT C A GIÁO VIÊN PH N BI N _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Thành ph H Chí Minh, tháng 07 n m 2005 Giáo viên ph n bi n TS. inh n
  • 6. I NÓI U Ch vi t ti ng Vi t c a chúng ta có 1 c m r t hay là có s xu t hi n c a các u thanh c ng nh d u c a các ký t . u này giúp cho ti ng Vi t “thêm thanh, thêm u”. Tuy nhiên, c ng chính vi c “thêm thanh, thêm u” ó làm cho vi c gõ ti ng Vi t tr nên t n nhi u th i gian h n. 1 v n khác, khi vi c s d ng Internet tr nên thông d ng, 1 ti n ích c m i ng i a chu ng là d ch v Email. Nh ng, cho n hi n nay, h u h t các mail server v n ch a h tr t t ti ng Vi t, do ó, tình tr ng các lá mail trên m ng h u nh không có d u. Vi c phát tri n 1 công c giúp thêm d u ti ng Vi t vào v n b n không d u là vi c r t c n thi t và thú v . tài này h ng n vi c gi i quy t bài toán thêm d u ti ng Vi t theo m t ng m i, do ó, ch ng trình không chú tr ng chuyên sâu vào l nh v c nào. Vi c thêm ch c n ng h tr các l nh v c chuyên sâu khác không nh h ng nhi u n c u trúc c a mô hình mà ch ng trình áp d ng. Lu n v n c t ch c thành 5 ch ng v i n i dung nh sau : § Ch ng 1 gi i thi u t ng quan v bài toán Thêm d u ti ng Vi t vào v n b n không d u, và các công trình ã có liên quan n tài. § Ch ng 2 gi i thi u các c s lý thuy t _ tin h c c n s d ng. § Ch ng 3 nh n xét các mô hình ã có tr c ây, và a ra mô hình cài t chính. § Ch ng 4 c th hóa mô hình cài t. § Ch ng 5 t ng k t và ra h ng phát tri n .
  • 7. 6 C L C Ch ng 1. NG QUAN....................................................................9 1.1. Gi i thi u v bài toán Thêm d u ti ng Vi t vào v n b n không d u.......10 1.1.1. Phát bi u bài toán.........................................................................................10 1.1.2. c m .......................................................................................................10 1.1.3. ng gi i quy t..........................................................................................11 1.2. Gi i thi u các công trình ã có..................................................................11 1.2.1. AMPad..........................................................................................................11 1.2.2. VietPad .........................................................................................................12 1.2.3. www.EasyVn.com.........................................................................................13 1.2.4. VnMark ........................................................................................................14 Ch ng 2. S LÝ THUY T TIN H C....................................15 2.1. Lý thuy t v ngôn ng h c.........................................................................16 2.1.1. Âm ti t (còn g i là “ti ng”) ..........................................................................16 2.1.1.1. nh ngh a và c m âm ti t ti ng Vi t ..............................................16 2.1.1.2. Thanh là thành ph n c a âm ti t ti ng Vi t .............................................16 2.1.1.3. T i sao l i ph i dùng d u thanh ?............................................................17 2.1.2. ..................................................................................................................18 2.1.2.1. Các quan ni m v t ...............................................................................18 2.1.2.2. Tiêu chí nh n di n “t ” ti ng Vi t...........................................................18 2.1.2.2.1. Các tiêu chu n v hình th c .................................................................19 2.1.2.2.2. Các tiêu chu n v n i dung ..................................................................19 2.2. Tách t ........................................................................................................20 2.2.1. Kh p t i a (LRMM – Left Right Max Matching).....................................21 2.2.2. Mô hình m ng WFST và m ng n -ron .......................................................22 2.3. Tách câu......................................................................................................22 2.3.1. Tách câu b ng Heristics. ..............................................................................23 2.3.1.1. X lý d u ch m. .....................................................................................23 2.3.1.2. X lý d u ch m trong ngo c. ..................................................................24 Ch ng 3.MÔ HÌNH CÀI T......................................................25 3.1. Các mô hình thêm d u ã c s d ng...................................................26 3.1.1. VietPad .........................................................................................................26 3.1.1.1. Mô hình thêm d u ti ng Vi t ..................................................................26 3.1.1.1.1. Ti n x lý............................................................................................26 3.1.1.1.2. Tách token...........................................................................................27 3.1.1.1.3. L y ra các t không d u, chuy n thành t có d u.................................27 3.1.2. VnMark ........................................................................................................28
  • 8. 7 3.1.2.1. Mô hình thêm d u ti ng Vi t ..................................................................28 3.1.2.1.1. Ti n x lý............................................................................................30 3.1.2.1.2. Tách câu ..............................................................................................30 3.1.2.1.3. Tìm các kh n ng ánh d u c a t , câu................................................30 3.1.2.2. Mô hình hu n luy n................................................................................31 3.2. Mô hình xu t..........................................................................................32 3.2.1. Mô hình.........................................................................................................32 3.2.1.1. Tách câu.................................................................................................33 3.2.1.2. Tách t b ng ph ng pháp LRMM.........................................................34 3.2.1.3. Ch n t thích h p ...................................................................................34 3.2.2. Mô hình hu n luy n .....................................................................................36 3.2.2.1. Th ng kê t n su t xu t hi n c a t ..........................................................36 3.2.2.1.1. Xây d ng kho ng li u.........................................................................36 3.2.2.1.2. Th ng kê t n su t xu t hi n c a t .......................................................37 3.2.2.1.3. T o t n chuy n i ........................................................................38 3.2.2.2. Trích xu t các c m t th ng s d ng ....................................................39 3.2.3. So sánh mô hình này v i 2 mô hình trên .....................................................41 Ch ng 4.CÀI T TH NGHI M.............................................43 4.1. Th ng kê t n s xu t hi n c a t ...............................................................44 4.1.1. Xây d ng kho ng li u text t báo n t ..................................................44 4.1.2. Tách câu........................................................................................................48 4.1.3. Tách t và th ng kê......................................................................................50 4.2. o t p tin t n chính............................................................................52 4.3. o t p tin t n c m t .........................................................................55 4.3.1. o kho d li u tinh gi n m i......................................................................55 4.3.2. o t p tin t n c m t ...........................................................................58 4.4. Ch ng trình chính....................................................................................58 4.4.1. Ch ng trình VietEditor..............................................................................59 4.4.2. Ch ng trình thêm d u qua Clipboard.......................................................60 4.5. Th nghi m ................................................................................................62 Ch ng 5. T QU , H NG PHÁT TRI N .............................63 5.1. n ch và h ng phát tri n .....................................................................64 5.2. t lu n ......................................................................................................64 Ph l c : C u trúc kho ng li u ......................................................67
  • 9. 8 DANH M C HÌNH Hình 1.2.1-1 : Thêm d u ti ng Vi t t ng b ng AMPad......................................................12 Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad.............................................................12 Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad...........13 Hình 1.2.3-4 : Gõ ti ng Vi t không d u trên EasyVn..............................................................14 Hình 1.2.3-5 : V n b n sau khi t ng thêm d u trên EasyVn ..............................................14 Hình 1.2.4-6 : S k t c u âm ti ng Vi t.............................................................................17 Hình 3.1.1-7 : L u th c hi n c a mô hình ng d ng trong VietPad...................................26 Hình 3.1.2-8 : L u th c hi n c a mô hình n-gram ............................................................29 Hình 3.2-9: L u th c hi n c a mô hình xu t ................................................................33 Hình 3.2-10 : T p tin m u sau khi th ng kê t n su t t ..........................................................38 Hình 3.2-11 : Trích t p tin TuDienChinh.txt..........................................................................39 Hình 3.2-12 : Trích t p tin CumTu.txt....................................................................................41 Hình 4.1.1-13: Giao di n ch ng trình HTML2TXT..............................................................44 Hình 4.1.1-14: C u hình c a ch ng trình HTML2TXT.........................................................45 Hình 4.1.1-15 : M t trang báo thanh niên..............................................................................47 Hình 4.1.1-16 : li u c tách t trang báo Thanh niên...................................................48 Hình 4.1.2-17: Giao di n ch ng trình Tách Câu..................................................................49 Hình 4.1.2-18: T vi t t t cung c p cho ch ng trình Tách Câu............................................49 Hình 4.1.2-19: N i dung file k t xu t c a ch ng trình Tách Câu .........................................50 Hình 4.1.3-20: Giao di n module tách t ...............................................................................51 Hình4.1.3-21: N i dung t p tin th m c ngu n......................................................................51 Hình 4.1.3-22: N i dung t p tin t n .................................................................................52 Hình 4.1.3-23: N i dung t p tin k t qu .................................................................................52 Hình 4.1.3-24: Giao di n ch ng trình t o t n chính.......................................................53 Hình 4.1.3-25 : Trích 1 ph n TuDienChinh.txt.......................................................................54 Hình 4.1.3-26 : Trích 1 ph n TuDienPhanLop.txt.................................................................54 Hình 4.1.3-27: Trích 1 ph n KhoCau.txt................................................................................55 Hình 4.3.1-28: Giao di n ch ng trình t o kho d li u tinh gi n...........................................56 Hình 4.3.1-29 : Trích 1 ph n th m c k t xu t.......................................................................57 Hình 4.3.1-30 : Th m c con _a trong th m c k t xu t.........................................................57 Hình 4.3.2-31: Giao di n ch ng trình t o t p tin c m t .....................................................58 Hình 4.4.1-32: Giao di n ch ng trình chính VietEditor .......................................................59 Hình 4.4.2-33: Giao di n ch ng trình chính thêm d u Clipboard ........................................60 Hình 4.4.2-34: Test ch ng trình thêm d u Clipboard...........................................................61 Hình 5.2-35 : T p tin kho ng li u m u .................................................................................69
  • 10. Ch ng 1. NG QUAN
  • 11. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 10 1.1. Gi i thi u v bài toán Thêm d u ti ng Vi t vào n b n không d u 1.1.1. Phát bi u bài toán Bài toán có th c phát bi u nh sau : Cho m t v n b n ti ng Vi t không u. Chuy n v n b n không d u này thành có d u v i chính xác cao. Ch s d ng t n t và kho ng li u thô làm u vào. Khái ni m t ây là “t t n” – t c là các t n, t ghép và c m t c l u trong t n. Ch x lý các v n b n ti ng Vi t có mã Unicode. 1.1.2. c m Ch vi t ti ng Vi t có 1 c m r t hay là s xu t hi n c a các d u thanh ng nh d u c a các ký t . Vi c có d u thanh và d u c a ký t này làm phong phú thêm cho ngôn t ti ng Vi t, và c ng góp ph n t ng bi u c m c a ti ng Vi t. u thanh là 1 thành ph n “b t kh phân” trong âm ti t ti ng Vi t [8]. Khi lo i b d u thanh, vi c hi u ngh a c a t , g m 1 hay nhi u âm ti t k t h p v i nhau, tr nên khó kh n và d gây hi u l m. thêm d u, tr c tiên, ta c n ph i xác nh ranh gi i t . Bài toán xác nh ranh gi i t i v i v n b n ti ng Vi t có d u ã là 1 vi c th thách, thì khi không có d u, vi c nh n di n ranh gi i t càng tr nên khó kh n h n. V n này l i càng khó kh n, khi ranh gi i t trong ti ng Vi t c ng nh 1 s ngôn ng Châu Á khác, m t t chính t có th không t ng ng v i m t “t ” trên v n n. i v i các th ti ng Châu Âu, ta có th d dàng nh n ra m t t , do các t c phân cách b i kho ng tr ng. u này l i không úng v i ti ng Vi t. Trong ti ng Vi t, các ti ng _ hay còn g i là âm ti t _ c phân cách b i kho ng tr ng, ch không ph i t .
  • 12. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 11 Sau khi ã nh n di n c ranh gi i t , ta c n ph i xác nh cho úng t có u nào có d ng th hi n không d u nh v y. Vi c xác nh này c ng gây nhi u khó kh n, khi 1 t không d u có th có nhi u t có d u t ng ng v i nó. Ví d 1-1 : T không d u “toi” có 3 t có d u t ng ng là “tôi”, “t i” và “t i”. Do ó, sau khi ã gi i quy t xong bài toán tách t ti ng Vi t không d u, ta n ph i gi i quy t thêm bài toán xác nh t có d u thích h p v i t không d u ó. ây chính là 2 bài toán c n gi i quy t chính c a mô hình. 1.1.3. ng gi i quy t i v i tách t có d u, có nhi u mô hình c s d ng và t k t qu cao nh MM (Maximum Matching : forward / backward hay còn g i là LRMM: Left Right); gi i thu t h c c i bi n TBL; m ng chuy n d ch tr ng thái h u h n có tr ng s WFST (Weighted finite-state Transducer); gi i thu t d a trên nén (compression) [1] …. H ng gi i quy t c xu t là s d ng ph ng pháp tách t LRMM [1][7] k t h p v i mô hình Bigram ã gi i quy t khá hi u qu 2 n c a bài toán này. Ph ng pháp ch m i c áp d ng cho mô hình thêm u offine, nh ng có th c cài t gán d u online. 1.2. Gi i thi u các công trình ã có 1.2.1. AMPad AMPad [12] (tên version c và thông d ng v i m i ng i là AutoMark) a tác gi Tr n Tri t Tâm là s n ph m u tiên nghiên c u v l nh v c này. Ch ng trình ã c nhi u ng i bi t n và c s d ng r ng rãi. u này cho th y vi c phát tri n ng d ng hoàn thi n h n n a v thêm d u ti ng Vi t là có nhu c u, và nhu c u này s ngày càng t ng cao. Ch ng trình AMPad có
  • 13. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 12 m hay là vi c áp d ng mô hình x lý thêm d u ch online, t o s tr c quan, thân thi n cho ng i s d ng. Hình 1.2.1-1 : Thêm d u ti ng Vi t t ng b ng AMPad 1.2.2. VietPad Vietpad [11] là trình so n th o h tr ti ng Vi t Unicode, c phát tri n i Quân Nguy n và nhóm phát tri n trên http://vietpad.sourceforge.net. Ngoài ch c n ng thêm d u t ng offline mà lu n v n ang nghiên c u, VietPad còn là 1 trình so n th o ti ng Vi t h tr r t t t Unicode và là mã ngu n m . Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad
  • 14. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 13 Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad 1.2.3. www.EasyVn.com Trang web www.easyvn.com [10] cung c p d ch v email n t mi n phí trên m ng, v i s h tr ng i dùng r t t t v ngôn ng Vi t. 1 ch c n ng n i t c a www.easyvn.com là : sau khi so n th o xong b c mail, ng i dùng có th ch n ch c n ng Thêm d u ti ng Vi t bi n v n b n không d u thành có u. Do ây là d ch v c cung c p và thu phí trên NET (cho s d ng th trong 2 tháng), mô hình thêm d u t ng c a www.easyvn.com c gi kín.
  • 15. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 14 Hình 1.2.3-4 : Gõ ti ng Vi t không d u trên EasyVn Hình 1.2.3-5 : V n b n sau khi t ng thêm d u trên EasyVn 1.2.4. VnMark VnMark [2] c tác gi Nguy n V n Toàn phát tri n. Do tác gi ã làm th t l c ch ng trình, do ó, không có hình nh minh ho ch ng trình.
  • 16. Ch ng 2. S LÝ THUY T TIN H C
  • 17. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 16 2.1. Lý thuy t v ngôn ng h c 2.1.1. Âm ti t (còn g i là “ti ng”) 2.1.1.1. nh ngh a và c m âm ti t ti ng Vi t “Ti ng” là “ n v c b n” trong ti ng Vi t [1]. M t “ti ng” trong ti ng Vi t c nói lên là m t n v ng âm, và c ng là m t n v ng pháp. t “ti ng” là m t n v phát ngôn, và là m t n v c a l i nói t o ra nh ng k t c u l i nói trong ho t ng nói n ng giao ti p. c tính này c a ti ng chính là m t tính cách lo i hình c a ti ng Vi t, trong ó m i n v phát âm trùng khít v i n v ng pháp (hình v , và t ). Khi xét trên bình di n ng âm, ti ng là m t n v c a ng âm, t c là m t âm ti t [9]. Vi c nh n di n “ti ng” i v i ng i Vi t là u quá d dàng, t nhiên i v i m i ng i mà không c n m t trình ngôn ng gì cao, vì : trong l i nói (m t ng âm), m i “ti ng” bao gi c ng phát ra m t h i, nghe thành m t ti ng, và có mang m t thanh u nh t u; còn trong ch vi t (m t chính ), m i ti ng bao gi c ng c vi t r i thành t ng ch (ng n cách b ng kho ng tr ng hay các d u ng t). n v “ti ng” i v i ng i Vi t là m t n v t nhiên, khái ni m “ti ng” ã có t lâu và c ng i b n ng s ng nó tr c khi hi u và s d ng khái ni m “t ”. Ví d 2-1: Câu “Cái bàn này hình bán nguy t” có 6 ti ng 2.1.1.2. Thanh là thành ph n c a âm ti t ti ng Vi t Khi phát âm ti ng Vi t, chúng ta phát âm t ng n v l i nói c t r i nhau, i là âm ti t. Khi phát âm ch m m t âm ti t, có th nh n th y khá rõ là m i âm ti t u có th k t h p nhi u nh t là ba n v phát âm : âm u + âm chính + âm cu i. Ba thành ph n trên g m nh ng âm v xu t hi n t ng i theo th t tr c sau, nên g i là nh ng âm v tuy n tính.
  • 18. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 17 Ngoài ra, m i âm ti t c nh m t b c cao th p, g i là thanh u. Trong l i nói, m i âm ti t ti ng Vi t u mang m t thanh. Thanh này xu t hi n l p t c khi âm ti t c phát ra, cho nên có th nói r ng thanh là m t thành ph n b t kh phân c a âm ti t. Thanh là thành ph n âm v phi tuy n tính c a m t âm ti t ti ng Vi t. Thanh là m t s c thái c a âm thanh các âm ti t, qua ó khi phát âm s nh b c cao th p khác nhau c a m i n v c a chu i l i nói. Có sáu thanh làm tiêu chu n nh b c cao th p khác nhau, th ng g i là ngang, h i, s c, huy n, ngã, n ng. Nh v y thì m i âm ti t ti ng Vi t y có t i a b n n v c u thành. i thi u thì m i âm ti t c ng ph i có hai thành ph n : âm chính + thanh. Hình 1.2.4-6 : S k t c u âm ti ng Vi t 2.1.1.3. i sao l i ph i dùng d u thanh ? Các ngôn ng dùng b ng ch cái Latin không dùng thêm kí hi u ch thanh, mà ch ghi l i các âm v tuy n tính b ng các v là con ch . H th ng ch vi t kh i vuông nh ch Hán và ch Nôm c ng không có kí hi u ch thanh. Nh ng tr ng h p ch qu c ng có khác. Khi dùng b ng ch cái Latin, các v con ch ch a phân bi t ý ngh a m t t c vi t ra, vì có n sáu thanh ph i phân bi t. Ðã ành thanh ch là y u t ng âm không thu c v thành ph n âm v tuy n tính, nh ng thanh ti ng Vi t không h n ch là m t y u t ngôn u mang tính cách hoa m cho âm ti t, mà là m t thành ph n không th thi u c khi phát âm m t âm ti t. Nói cách khác, âm ti t ti ng Vi t ch a hoàn ch nh khi ch a c nh thanh. Có l các nhà sáng ch ra ch vi t theo b ng ch cái Latin mà ta th ng g i quen là "ch qu c ng "
  • 19. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 18 ã hi u r t rõ tính cách b t kh phân c a thanh i v i âm ti t ti ng Vi t, cho nên các v ã dùng n nh ng kí hi u ch th các b c thanh t ng ng. Và ây c ng là c m n i b t c a ti ng Vi t. 2.1.2. 2.1.2.1. Các quan ni m v t Có 1 s nh ngh a n hình v t nh sau [1] : - Theo L.Bloomfield, thì t là t hình thái t do nh nh . - Theo Solncev thì là n v ngôn ng có tính hai m t: âm và ngh a. có kh n ng c l p v cú pháp khi s d ng trong l . - Theo B.Golovin, thì t là n v nh nh t có ngh a c a ngôn ng , c n d ng c l p, tái hi n t do trong l i nói xây d ng nên câu . ây ng chính là nh ngh a mà trong ngôn ng h c i c ng hay s d ng. Trong n i dung lu n v n này, ta quan tâm t i 3 thu t ng trong ngôn ng i c ng nh n di n t : 1. ng âm : ó là nh ng n v c th ng nh t v i hi n t ng ng âm nào ó. i v i ti ng Vi t, ó chính là nh ng âm ti t, hay còn g i là “ti ng”, “ti ng m t”. 2. chính t : ó là nh ng kho ng cách gi a 2 ch trên v n t , t c là nh ng n v c vi t li n thành kh i, i v i ti ng Vi t, ó chính là “ch ” 3. t n h c : ó là n v mà c n c vào c m ý ngh a c a nó ph i x p riêng trong t n. 2.1.2.2. Tiêu chí nh n di n “t ” ti ng Vi t r t nhi u quan ni m c ng nh các nh ngh a v “t ti ng Vi t”, ta có th rút ra tiêu chu n mà các nhà Vi t ng h c ã d a vào ó khi nh n di n t
  • 20. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 19 ti ng Vi t [3]. Các tiêu chu n này chung qui ta có th phân thành : các tiêu chu n v hình th c và các tiêu chu n v n i dung. 2.1.2.2.1. Các tiêu chu n v hình th c Tính c nh : tính v ng ch c v c u t o, không th chêm – xen c Tính c l p : các nhà Vi t ng h c hay dùng tiêu chu n tính c l p phân bi t t ( n v có ngh a và c l p) v i hình v ( n v có ngh a và không c l p). Tính c l p còn c g i là kh n ng k t h p (t do – h n ch ) Tính t lo i và quan h cú pháp : trong ng /câu, t m nh n nh ng ch c n ng cú pháp nh t nh, nên m i t u ph i mang m t t lo i nào ó, còn hình v thì không có tính ch t t lo i. Quan h gi a các t là quan h cú pháp, còn quan h gi a các hình v c a t không ph i là quan h cú pháp. 2.1.2.2.2. Các tiêu chu n v n i dung Ch c n ng nh danh : ch c n ng này c dùng xác nh t cách c a (t th c), coi ó là c tr ng phân bi t gi a “t ” v i “hình v ” Bi u th khái ni m : vì t v i khái ni m không ph i là m t: có nh ng khái ni m c n bi u th b ng nhi u t , và có nh ng t không bi u th khái ni m. Ý ngh a bi u ni m : vì ý ngh a c a t và khái ni m không trùng nhau, vì y, ng i ta c n phân bi t ý ngh a t v ng và ý ngh a ng pháp. Hoàn ch nh v ngh a : ây là tiêu chu n quan tr ng, c a s các nhà Vi t ng h c ch p nh n trong vi c xác nh t cách c a t . Tiêu chu n này liên quan n tính thành ng và tính võ oán.
  • 21. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 20 2.2. Tách t Bài toán tách t cho ngôn ng n l p ã c t ra t lâu, ch y u gi i quy t cho ti ng Trung Qu c, ti ng Nh t. Các thu t toán tách t có th c phân lo i nh sau: v a theo lu t. Bao g m các cách sau: - Longest Matching, Greedy Matching Models (Yuen Poowarawan), 1986; Sampan Rarurom, 1991). - Mô hình kh p t i a. Mô hình này c chia thành “Kh p t i a ti n và kh p t i a lùi”. i v i ph ng pháp này thì m t t n hoàn ch nh là không th thi u. t t n không hoàn ch nh s gi m hi u su t c a thu t toán. Tuy nhiên, d th y là khó có th có m t t n hoàn ch nh ( c bi t khi các ngôn ng v n còn c ti p t c phát tri n h ng ngày trong th i i ngày nay). Mô hình này tu thu c nhi u vào t n. v Dùng th ng kê: Gi i pháp này d a vào ng c nh t xung quanh a ra quy t nh thích h p. Có hai v n c n c gi i quy t i v i gi i pháp này : r ng ng c nh, và cách áp ng th ng kê. Ng c nh càng r ng thì thu t toán càng ph c t p. Cho dù r ng ng c nh th nào, luôn có th áp d ng mô hình first-order HMM. Tuy nhiên gi i pháp này ph thu c r t nhi u vào ng li u hu n lu n. K t qu hu n luy n trên ng li u chính tr khó có th áp d ng trên các tài li u v n h c và ng c l i. Thêm vào ó, có nh ng t có xác su t r t cao, nhung ch có th ch c n ng v m t ng pháp, làm gi m vai trò c a xác su t. v Cách khác: u h t các gi i pháp khác là s lai t o gi a các mô hình trên và các mô hình ngôn ng h c nh WFST, TBL. Th i gian x lý các gi i pháp này tr nên áng k , nh ng chính xác t c khá cao.
  • 22. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 21 Tri th c v ngôn ng , th ng áp d ng cho các mô hình d a trên lu t, hi m khi c áp d ng cho nh ng mô hình trên. i ây là mô t 2 ph ng pháp tách t th ng s d ng : 2.2.1. Kh p t i a (LRMM – Left Right Max Matching) Thu t toán so kh p t i a ho t ng nh tên c a chính nó. Thu t toán gi i quy t bài toán tách t nào có nhi u t nh t (so kh p c nhi u nh t). Thu t toán c áp ng xây d ng ch ng trình tách t ti ng Trung Qu c MMSEG. Thu t toán này có nhi u bi n th khác nhau. Ø ng n gi n, c dung gi i quy t v n nh p nh ng t n. Gi s có t chu i ký t (t ng ng v i chu i ti ng Vi t trong ti ng Vi t) C1, C2 ,…C3. Ta b t u t u chu i. u tiên, ki m tra xem C1 có ph i là t không, sau ó ki m tra xem C1C2 có ph i là t hay không. Ti p t c làm cho n khi tìm c t dài nh t. T có v h p lý nh t là t dài nh t. Ch n t ó, sau ó tìm ti p nh trên trên nh ng t còn l i, cho n khi xác nh c toàn b chu i d li u. Ø ng ph c t p. Quy t c c a d ng này là phân n có v h p lý nh t là n 3 v i chi u dài t i a. Thu t toán b t u nh d ng n gi n. N u phát hi n ra nh ng cách tách t gây nh p nh ng (ví d C1 là t và C1C2 ng là t ), ta xem các ch k ti p tìm t t c các n ba t có th có b t u v i C1 ho c C1C2. Ví d 2-2 : ta c nh ng n sau: - C1 C2 C3C4. - C1C2 C3C4 C5 - C1C2 C3C4 C5C6 Chu i dài nh t s là chu i th ba. V y t u tiên c a chu i th ba (C1C2) s c ch n. Th c hi n l i các b c cho n khi c chu i t hoàn ch nh. Cách này t c chính xác 99.69%. Mô hình s d ng ph ng pháp tách t LRMM d ng n gi n. Mô hình này v a n gi n, nh ng mang l i chính xác cao.
  • 23. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 22 2.2.2. Mô hình m ng WFST và m ng n -ron WFST ã c áp d ng tách t ti ng Trung Qu c. Ý t ng c b n là áp d ng WFST k t h p v i tr ng s là xác su t xu t hi n c a m i t trong ng li u. Dùng WFST duy t qua câu c n xét. Cách duy t có tr ng s l n nh t s là cách tách t c ch n. Gi i pháp này c ng ã c áp d ng trong [5] kèm v i m ng n -ron kh nh p nh ng. Mô hình tách t trong VnMark s d ng chính là mô hình WFST này (Xem chi ti t n trong [1] trang 99-104, hay trong [5]) 2.3. Tách câu Trong m t v n b n ti ng Anh hay b ng b t k m t ngôn ng thông d ng nào khác, thông th ng thì ta ch dùng d u ch m (.), ch m than (!), ch m h i(?) và m t s u khác n a nh n bi t k t thúc câu. (Ta g i nh ng d u này là nh ng d u báo hi u t thúc câu hay d u ch m câu). Tuy nhiên, do tính nh p nh ng c a d u báo hi u k t thúc câu (ch ng h n nh d u k t thúc câu trong t vi t t t,…) nên vi c xác nh ranh gi i câu không n gi n nh chúng ta ngh . Ví d nh d u ch m, nó có th bi u th nh t d u ch m th p phân, m t c m t k t thúc, s k t thúc câu v n ho c ngay c t vi t t n m cu i câu. M t d u ch m h i hay d u ch m than có th xu t hi n trong d u ngo c n, ngo c kép hay c ng nh cu i câu. S m p m c a các d u câu này c th hi n qua các ví d sau: Ví d 2-3: 1. The group included Dr. J.M. Freeman and T. Boone Pickens Jr. 2. “This issue crosses party lines and crosses philosophical lines!” said Rep. John Rowland (R., Conn.). 3. It was due Friday 5 p.m. Saturday would be too late. 4. She has an appointment at 5 p.m. Saturday to get her car fixed.
  • 24. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 23 Trong tr ng h p 1 và 2, t n m ngay tr c ho c n m ngay sau d u ch m câu cho ta nh ng thông tin quan tr ng v vai trò c a d u trong câu. Tuy nhiên, b ph n tách câu n ph i có nhi u thông tin v ng c nh h n trong tr ng h p vi c ch m câu xu t hi n m t câu con trong d u ngo c n ho c ngo c kép, nh trong tr ng h p 2; hay khi ch vi t t t xu t hi n cu i câu nh trong tr ng h p 3, 4. nh n di n d u ch m câu, ng i ta có th dùng các heuristics ho c các mô hình h c ph c t p h n, nh : ng neural, TBL, Maximum Entropy. 2.3.1. Tách câu b ng Heristics. Sau khi nh n n v n b n ã c l c các ký t d th a, các ký t ph , b ph n tách câu b t u phân tích d a trên cách ch m câu và ng ngh a m t s t tách ra các câu riêng bi t. 2.3.1.1. lý d u ch m. u ch m “.” là d u có nhi u tr ng h p m h nh t. Sau ây là các tr ng h p u ch m xu t hi n: 1. u ch m k t thúc câu. 2. u ch m th p phân trong ch s (1,234.567) 3. u ch m bi u th s vi t t t (Mr., Dr., ...) 4. u ch m trong các tr ng h p khác nh s tài kho n, email (abcd@yahoo.com), d u ch m trong các a ch website (www.is- edu.hcmuns.edu.vn). có th phân bi t c các tr ng h p trên, ta có th d a vào m t s c tr ng riêng trong cách trình bày c a t ng tr ng h p. 1. u d u ch m câu không thu c các tr ng h p còn l i (2,3,4) thì d u hi u nh n bi t k t thúc câu s là : “luôn luôn có ít nh t m t kho ng tr ng sau d u ch m và ký t ti p theo s là ch cái s c vi t hoa”. 2. Ta có th nh n bi t d u ch m th p phân b ng cách c toàn b ph n li n tr c và ph n li n sau d u ch m phát hi n s có d u ch m th p phân.
  • 25. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 24 3. nh n bi t d u ch m trong tr ng h p các t vi t t t, ta xây d ng m t danh sách các t vi t t t tra c u khi c n. 4. Tr ng h p này là tr ng h p có các cách trình bày a d ng nh t, nh ng v n có tính ch t chung là d u ch m không bao gi n m cu i t , luôn gi a hai ký t nào ó (ngh a là không có kho ng tr ng li n sau) nên có th d dàng phân bi t c. Nh ng qui lu t trên ây là nh ng qui lu t chung nh t trong cách trình bày v n b n ti ng Anh. i v i v n b n ti ng Vi t, các tr ng h p c ng g n nh th . Do d a ch u vào cách trình bày v n b n nên có m y u là d nh m l n khi v n b n a vào có cách trình bày khác chu n và do không hi u ngh a câu nên không th phân bi t m t s tr ng h p m h nh trong ví d sau: 1. It was due Friday 5p.m. Saturday would be too late. 2. She has an appointment at 5 p.m. Saturday to get her car fixed. xác nh c d u ch m (in m) trong 2 tr ng h p trên có ph i là d u ch m t câu hay không c ng là m t vi c không n gi n i v i máy. Th m chí i v i ng i mà trình ti ng Anh ch a v ng. Trong c hai tr ng h p, t ngay tr c ho c ngay sau d u ch m câu cho ta nh ng thông tin quan tr ng v vai trò c a d u trong câu. Tuy nhiên, b ph n tách câu s ph i c n nhi u thông tin v ng c nh và cú pháp h n trong tr ng h p s ch m câu xu t hi n m t câu con nh trong tr ng h p 1. 2.3.1.2. lý d u ch m trong ngo c. Khi b tách câu g p d u m ngo c n, ho c ngo c kép, thì nó s quét trong n v n ang xét tìm d u óng t ng ng. N u tìm th y, toàn b ph n trong ngo c c gi nguyên và tìm d u k t thúc câu ti p theo ngoài d u ngo c. N u không tìm th y d u óng t ng ng, d u m s b b qua và x lý ti p ký t sau d u m nh bình th ng.
  • 26. Ch ng 3. MÔ HÌNH CÀI T
  • 27. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 26 3.1. Các mô hình thêm d u ã c s d ng 3.1.1. VietPad 3.1.1.1. Mô hình thêm d u ti ng Vi t Hình 3.1.1-7 : L u th c hi n c a mô hình ng d ng trong VietPad 3.1.1.1.1. Ti n x lý Chu n hoá v n b n theo nh d ng mà VietPad quy nh
  • 28. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 27 3.1.1.1.2. Tách token Vietpad không tách t ng câu x lý, mà vào th ng vi c tách ra t ng token t … Token có th g m 1 chu i các kí t không ph i là kí t (nh : , . ; “ @ # $ …. ) hay 1 chu i các kí t , hay là “ch ” ti ng Vi t. Ví d 3-1: Câu “--- Thoi gian troi qua mau ---” s c VietPad tách thành t ng token nh sau : Token 1: ---b (b kí hi u cho ‘ ’ _ kho ng tr ng) Token 2: Thoi Token 3: b Token 4: gian Token 5: b Token 6: troi Token 7: b Token 8: qua Token 9: b Token 10: mau Token 11: b--- 3.1.1.1.3. y ra các t không d u, chuy n thành t có d u i ph ng pháp tách token n gi n trên, và thêm ph ng pháp tách t LRMM (t có t i a 3 ti ng), VietPad l y ra các t không d u, sau ó thông qua 1 t n ánh x 1-1 gi a t không d u và t có d u (t n chuy n i), chuy n t không d u thành có d u.
  • 29. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 28 Ví d 3-2: Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban bac soi noi trong buoi hop nhom toi hom qua” s c VietPad chuy n thành câu có d u sau thông qua t n (d u / th hi n s tách t c a VietPad) “Nh ng v n / / liên quan / tôi ng i / ng t nh / luy n ái / c / n b c / sôi n i / trong / bu i / h p / nhóm / tôi / hôm qua /” 3.1.2. VnMark 3.1.2.1. Mô hình thêm d u ti ng Vi t n c vào mô hình n-gram, mô hình ánh d u t ng ti ng Vi t c tác gi th c hi n theo l u sau:
  • 30. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 29 Hình 3.1.2-8 : u th c hi n c a mô hình n-gram
  • 31. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 30 3.1.2.1.1. Ti n x lý Xóa các kho ng tr ng th a. Th c hi n các công vi c chu n hóa d li u nh p vào… Thay th các ký t t ng t . Theo các th ng kê v tâm lý, tác gi nh n th y khi ng i s d ng ánh ch Vi t không d u thì ng i ta v n ánh c các ký t vi t hoa nh các danh t riêng. Do ó, các t vi t hoa s không “th ng hóa” (lowercase) và các t vi t hoa này s c c n c nh n d ng danh t riêng. Ví d 3-3: Da Nang à à N ng. da nangà a n ng Do ó, tác gi l u ý ng i dùng v c m này khi s d ng ch ng trình. 3.1.2.1.2. Tách câu n c vào các c m c a ngôn ng c a ti ng Vi t : các t c cách nhau b i các ký t nh “.”, “,”, “:”… tách thành các câu. M i câu là m t n v x lý chính trong ch ng trình. Vi c quy t nh câu là n v c b n là do nhi u khi ngh a a câu s c quy t nh s l a ch n v d u trong câu. 3.1.2.1.3. Tìm các kh n ng ánh d u c a t , câu File t n (VNMarkDic.txt) s cung c p cho chúng ta xác su t c a các nhóm âm ti t có th xu t hi n trong các v n b n ti ng Vi t. File t n này s c trình bày k h n trong ph n sau. n c vào t p tin t n VNMarkDic.txt, tác gi có th t o ra các tr ng p có th ánh d u c a các t trong câu. T h p các thành ph n này s t o nên các câu trong câu ng viên ã c ánh d u trong ti ng Vi t. Tuy nhiên, do c n c vào p tin VNMarkDic.txt nên tác gi có th t o ra s l ng các câu ng viên không nhi u m. Ví d 3-4: Câu c n gán d u = “Toc do truyen thong se tang cao”.
  • 32. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 31 Thông qua t p tin t n VNMarkDic.txt , tác gi có các thông tin sau: - toc do = “t c ” 8.68 - truyen = “truy n” 12.31 - truyen thong = “truy n th ng” 12.31 - thong tin = “thông tin” 7.24 - tin = “tin” 7.33 - se = “s ” 6.09 - tang = “t ng” 7.43 - cao = “cao” 6.95 Sau khi t h p các t ta s c 2 tr ng h p sau: Tr ng h p 1 = “T c truy n th ng tin s t ng cao.” 48,79 1 Tr ng h p 2 = “T c truy n thông tin s t ng cao.” 48.70 2 ____________________________________________ 1 8.68 + 12.31 + 7.33 + 6.09 + 7.43 + 6.95 = 48.79 2 8.68 + 12.31 + 7.24 + 6.09 + 7.43 + 6.95 = 48.70 _____________________________________________ t qu = “T c truy n thông tin s t ng cao.” 48,70 (câu có t n s nh thì s th ng s d ng c a các t trong câu càng cao) 3.1.2.2. Mô hình hu n luy n Nh ã trình bày ph n trên, c t lõi c a v n là n i dung t p tin t n VNMarkDic.txt. T p tin này s ch a xác su t các nhóm âm ti t có th xu t hi n trong n b n ti ng Vi t. Xác su t này c tính d a trên vi c th ng kê d li u c a h n 1.5GB file HTML c l y t trang www.vnexpress.net. Khác v i các mô hình gán d u ti ng Vi t tr c ây, t p tin t n không nh ng l u các t ti ng Vi t mà còn l u các dãy âm ti t trong ti ng Vi t. u này giúp cho mô hình có th “vét c n” các thông tin giúp cho vi c gán d u thanh cho các âm ti t
  • 33. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 32 tr nên chính xác h n. Ví d : tôi c ng l u thêm dãy âm ti t “tr c vi c”, … vào file n này. Tuy nhiên, vi c l u thêm các dãy âm ti t vào t n s khi n cho t n r t n (x p x 10MB). u này khi n cho vi c tìm ki m s r t ch m. gi i quy t v n này, tác gi xu t m t heuristic n gi n, t tên là S2T, giúp thu g n d li u c a n : Heuristic này c mô t nh sau: i d li u text t c l y t trang www.vnexpress.net là C1. i d li u text t c l y t trang www.vnexpress.net là b b h t d u thanh là C2. d li u C1, tác gi s t o ra file VNMarkDicPre.txt. File này s ch a thông tin v xác su t c a các dãy âm ti t trong ti ng Vi t. Tác gi s d ng file VNMarkDicPre.txt gán d u thanh cho các d li u C2. Khi ó, tác gi s so sánh v i các d li u nguyên g c C1. Qua ó, tác gi ánh giá các dãy âm ti t nào nên c s d ng, dãy âm ti t nào không nên s d ng. thông tin trên, tác gi có th rút trích các dãy âm ti t “có ích” trong file VNMarkDicPre.txt t o t p tin VNMarkDic.txt. 3.2. Mô hình xu t 3.2.1. Mô hình n c vào mô hình Bigram, và d a vào ý t ng c a vi c th ng kê các m t c a mô hình VnMark c a tác gi Nguy n V n Toàn, tôi xu t mô hình thêm d u t ng sau :
  • 34. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 33 Hình 3.2-9: u th c hi n c a mô hình xu t 3.2.1.1. Tách câu d ng ph ng pháp tách câu heuristic ã nêu trong ch ng 2, ph n 2.3, m c 2.3.1. Qua ph ng pháp tách câu trên, ta có th phân bi t c 1 s
  • 35. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 34 tr ng h p c bi t c a d u ch m câu “.” nh t vi t t t (Mr., Mrs. …), a ch email (abc@gmail.com), a ch URL (http://mail.yahoo.com), s th p phân (1,234.567) … u ra c a b c này s cho ra 1 t p các câu, là u vào a b c sau. 3.2.1.2. Tách t b ng ph ng pháp LRMM Ta dùng ph ng pháp tách t LRMM tách các t không d u t ng câu t. Lý do ch n ph ng pháp này là : cài t ph ng pháp n gi n, sai s khi tách sai t có th ch p nh n c khi tách t không d u. Ví d 3-5: Ta có cách tách t câu có d u và câu không d u sau (các t phân cách nhau b ng d u / ) o “H c sinh / h c / sinh h c” o “Hoc sinh / hoc sinh / hoc” à khi chuy n thành câu có d u, c ng t o c câu “H c sinh / h c sinh / h c” nh trên à sai s khi tách t có th ch p nh n c trong 1 ph m vi nào ó. Khi tách t b ng ph ng pháp LRMM, ta có chú ý n vi c nh n di n và tách các t tên riêng ra d a trên 1 t n tên riêng. Vi c xác nh các tên riêng d a trên ch cái vi t hoa u c a t , 1 c m tên riêng, có th ch c n vi t hoa ti ng u tiên là c. Ví d 3-6: Da Nang à à N ng Da nang à à N ng da nang à a n ng 3.2.1.3. Ch n t thích h p i t n chuy n i TuDienChinh.txt, ta có ánh x 1-1 chuy n 1 t không d u thành có d u. Ngoài ra, t ng linh ho t và chính xác c a
  • 36. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 35 ph ng pháp, ta có thêm 1 t n ph , g i là t n c m t CumTu.txt, l u nh ng c m t th ng xuyên c s d ng. Các c m t này c l u có c u trúc. V i m i c m t , ta có 1 chính, và các chu i t còn l i trong c m t . i kèm v i chu i t là con s th hi n trí c a chính này v i chu i t . (xem chi ti t c u trúc và cách t o trong c 3.2.2.2) Ví d 3-7: 1 vài c m t c l u i <TAB> 1|qu n áo m c bu i <TAB> 1|bu i <TAB> 2|hôm à t “t i” có 3 c m t là “qu n áo m c bu i t i”, “bu i t i” và “t i hôm” v i “t i” là chính trong 3 c m t trên. Sau khi ánh x 1-1 d a trên TuDienChinh.txt xong, ch ng trình s làm thêm 1 b c n a, là tìm trong t n c m t , xem có s xu t hi n c m t nào trong v n b n không ? N u có, thì ch ng trình s s a l i k t qu , c k t qu chính xác h n. Ph ng pháp xét duy t c mô t nh sau: (Sau khi ã ánh x t không d u thành có d u r i) Duy t các t không d u t trái qua ph i V i t không d u có xu t hi n trong t n CumTu.txt (là chính c a c m t sau khi lo i b d u), ta xét trong ph m vi [-3,+3] t xung quanh t ó, xét xem, có s xu t hi n c a chu i còn l i c a c m t không ? N u có thì có s xu t hi n c a c m t ó à thay i t không d u ó thành chính. Ví d 3-8: Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban bac soi noi trong buoi hop nhom toi hom qua” s c chuy n thành câu có d u qua các b c sau:
  • 37. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 36 o Tách câu : t o ra 1 câu duy nh t là “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban bac soi noi trong buoi hop nhom toi hom qua” o Tách t (các t phân cách nhau b ng d u / ) : “Nhung / van de / lien quan / toi / nguoi / dong tinh luyen ai / duoc / ban bac / soi noi / trong / buoi / hop / nhom / toi / hom qua” o Thêm d u d a trên TuDienChinh.txt : ta c câu sau “Nh ng / v n / liên quan / tôi / ng i / ng tính luy n ái / c / bàn b c / sôi n i / trong / bu i / h p / nhóm / tôi / hôm qua” o Xét duy t l i d a trên CumTu.txt : ta c câu hoàn ch nh cu i cùng sau “Nh ng / v n / liên quan / i / ng i / ng tính luy n ái / c / bàn c / sôi n i / trong / bu i / h p / nhóm / i / hôm qua” 3.2.2. Mô hình hu n luy n Ph n quan tr ng nh t c a mô hình là các t p tin t n c cung c p cho mô hình, mà quan tr ng nh t là 2 t n : TuDienChinh.txt và CumTu.txt. Sau ây mô t chi ti t các b c t o nên 2 t p tin trên. 3.2.2.1. Th ng kê t n su t xu t hi n c a t 3.2.2.1.1. Xây d ng kho ng li u Trích xu t d li u text t kho d li u báo n t trên Internet. D li u báo n t trên Internet s d ng g m 700MB d li u báo Thanh niên, 500MB báo Ng i Lao ng và 700MB báo S c màu v n hoá. ( Xin xem thêm trong Ph l c 1 bi t chi ti t c u trúc kho ng li u) Sau b c này, ta có c 1 th m c ch a nhi u t p tin text, m i t p tin ch a t p các câu thu c cùng 1 l nh v c. Các l nh v c c s d ng, phù h p
  • 38. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 37 i m c ích t ng quát c a ch ng trình, em ch n các bài báo v tin t c, th i , xã h i, chính tr … và kèm thêm 1 ít v các l nh v c khác nh khoa h c, giáo d c … l n c a kho d li u vào kho ng 150MB d li u. L ng d li u này l n mô hình ho t ng c chính xác. 3.2.2.1.2. Th ng kê t n su t xu t hi n c a t i k t qu c a b c trên, ta duy t t t c các t p tin trong th m c, sau ó dùng ph ng pháp LRMM tách t t ng câu m t, th ng kê t n su t xu t hi n c a t theo công th c sau : n su t t = -log10(s l n xu t hi n c a t / t ng s t ) Sau b c này, ta có c 1 t p tin text ch a t n su t các t mà ta th ng kê c. a trên kho ng li u 150MB, ta th ng kê c s l t t s d ng vào kho ng g n 18 tri u t , s lo i t khác nhau s d ng là trên 26400 t . Các thông s th ng kê trên c ghi vào t p tin log khi ch ng trình ch y.
  • 39. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 38 Hình 3.2-10 : p tin m u sau khi th ng kê t n su t t 3.2.2.1.3. o t n chuy n i Vi c t o t p tin t n chuy n i TuDienChinh.txt r t d dàng. V i t p tin th ng kê t n su t xu t hi n c a t b c trên, ta lo i b các t có t n su t > 7. Vi c lo i b này giúp cho ph ng pháp ch chú tr ng n các t có t n su t nh (t c xu t hi n nhi u nh t). V i các t không d u có nhi u t có d u, thì ta ch n ra t có d u có t n su t nh nh t (t c xu t hi n nhi u nh t) t o thành t n TuDienChinh.txt v i c u trúc sau : i dòng c a t n có c u trúc sau : <T không d u> TAB <T có d u>
  • 40. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 39 Hình 3.2-11 : Trích t p tin TuDienChinh.txt 3.2.2.2. Trích xu t các c m t th ng s d ng ây là 1 ph ng pháp t ng i n gi n rút trích ra 1 s c m t th ng s d ng. Ta d a vào t n LLOCE ti ng Vi t rút ra các c m t , chú ý là, trong quá trình rút trích, ta ch quan tâm n các c m t ch ch a các t t o nên s nh p nh ng khi lo i b d u (nh t “tôi”, “t i”, “t i” khi lo i b s t o thành t “toi” à nh p nh ng) t ó, th ng kê trên kho ng li u 150MB b c trên, rút ra các c m t th ng s d ng. Các c m t này s c l u nh sau : i dòng có c u trúc sau : <T chính trong c m t > {TAB <v trí | chu i | chu i>} (1,n) Mô t : - {1,n} : l p c u trúc trong {} t 1 n nhi u l n
  • 41. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 40 - chính trong c m t : là t có d u. T này, sau khi b d u, thì t không d u này có nhi u t có d u t ng ng (t gây nh p nh ng). T p tin CumTu.txt ch xét các c m t có ch a các chính t o nên s nh p nh ng này thôi. - trí : ch v trí c a <T chính trong c m t > trong c m t ó so v i <chu i>, có các giá tr sau: o trí = 0 : nói lên r ng, <T chính trong c m t > ng gi a 2 <chu i>, và chu i tr c <T chính> s c ghi tr c, 2 <chu i> s cách nhau b i kí t phân cách ‘|’ o trí = 1 : nói lên r ng, <T chính trong c m t > ng sau <chu i>, khi ó, ch xu t hi n 1 <chu i> trong c m t o trí =2 : nói lên r ng, <T chính trong c m t > ng tr c <chu i>, khi ó, ch xu t hi n 1 <chu i> trong c m t Ví d 3-9: món 2| n à c m t “món n”, t chính là “món” ng tr c “ n” u 0|môn|bóng à c m t “môn u bóng”, t chính là “ u” ng tr c “bóng” và ng sau “môn” i 1|bu i à c m t “bu i t i”, t chính là “t i” ng sau “bu i”
  • 42. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 41 Hình 3.2-12 : Trích t p tin CumTu.txt 3.2.3. So sánh mô hình này v i 2 mô hình trên Mô hình xu t là mô hình nâng cao c a mô hình VietPad s d ng. V i các u th h n h n nh có ph n tách câu, kh n ng i t không d u thành có d u linh ho t qua t n CumTu.txt ch không là ánh x 1-1 nh Vietpad, kh n ng nh n di n t tên riêng ... So v i mô hình mà VnMark s d ng, m i mô hình có 1 m m nh riêng, nh ng ph ng pháp mà mô hình em xu t, có th tái k t h p v i mô hình c a VnMark cho ra 1 k t qu hoàn ch nh h n n a.
  • 43. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 42 m n i tr i c a mô hình, là kh n ng xét duy t và phát hi n c m t 1 cách linh ho t trong ph m vi [-3,+3] mà các mô hình khác không th c hi n c. Vi c xét duy t này cho phép phát hi n và gán d u chính xác, khi c m t xu t hi n không liên t c. Ví d 3-10: Ch ng trình có th phát hi n và chuy n t “toi” thành “t i” khi phát hi n ra m t “t i ngày hôm ó”, “t i ngày hôm kia”, “t i ngày hôm n ” … khi trong t n CumTu.txt ch l u “t i 2|hôm”.
  • 44. Ch ng 4. CÀI T TH NGHI M
  • 45. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 44 4.1. Th ng kê t n s xu t hi n c a t Sau ây là các b c th c hi n có c t n t n s xu t hi n c a t . u vào c a b c này là kho d li u báo n t online g m : 700MB d li u báo Thanh niên, 500MB d li u báo Ng i lao ng và 700MB d li u báo S c màu v n hóa. u ra s c t p tin t n t n s xu t hi n t , th ng kê c trên kho d li u trên. 4.1.1. Xây d ng kho ng li u text t báo n t (ch y ch ng trình html2txt.exe) Ch ng trình Html2Txt s trích xu t các d li u text có ngh a trong kho d li u báo online d ng html, có c kho d li u hoàn toàn thu n text. ây là b c ti n x lý và các t p tin text c l u v i mã hoá UTF8. Khi ch y ch ng trình này, em ã s d ng 700MB d li u báo Thanh niên, 500MB d li u báo Ng i lao ng và 700MB d li u báo S c màu v n hóa. K t qu xu t ra kho ng 120 MB d li u text thu n túy. Hình 4.1.1-13: Giao di n ch ng trình HTML2TXT
  • 46. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 45 o u vào: là th m c ch a d li u kho d li u .html (có th ch a th m c con nhi u c p). o u ra: N i l u toàn b n i dung tách c (các n i dung l u trong các file .txt cùng tên file .html a vào). o Do d li u web a vào r t a d ng và không chu n nên ch ng trình không th tìm c tag n i dung trong t t c các tr ng h p. ch ng trình ho t ng úng thì khi ti n hành tách n i dung cho các file .html thì ng i dùng c n ch rõ tag ch a n i dung chính trong v n b n .html b ng cách c u hình cho ch ng trình. Hình 4.1.1-14: u hình c a ch ng trình HTML2TXT u hình ch ng trình o b n: các tag ch a ph n n i dung c n trích ra o Nâng cao: s d ng khi có thu c tính class c a tag t ng ng bên ph n c b n o Gi i mã NCR c a html: dùng chuy n ph n text nh d ng NCR sang Unicode. Ví d 4-1: T&#212;I è TÔI o Charset: charset mà trang web s d ng; thông th ng, m i trang web nh ngh a charset mà nó s d ng trong tag sau u html.
  • 47. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 46 Hi n ch ng trình h tr 2 charset hay s d ng t i Vi t Nam là utf-8 và windows-1252 <meta http-equiv="Content-Type" content="text/html; charset=utf-8"> Ta c n ph i nh charset úng vi c c d li u t html úng, chính xác (n u ch n sai charset thì vi c c html s b thi u 1 s kí t ) u ý quan tr ng : u hình c a 1 s trang web chính nh sau: (Trong d u ngo c () là ph n nâng cao t ng ng c a tag) 1. www.thanhnien.com.vn : (ko gi i mã NCR _ charset : utf8) div(newslead) div(newsbody) 2. www.tuoitre.com.vn (ko gi i mã NCR _ charset : utf8) p(ptitle) p(phead) p(pbody) p(pquestion) p(panswer) 3. vnca.cand.com.vn (có gi i mã NCR _ charset : utf8) span(main_title) span(sapeau_box) span(text_box) 4. www.nld.com.vn (ko gi i mã NCR _ charset : utf8) td(td_read)->p(none) ->p(msonormal) (-> : p là tag con c a td) 5. www.baobinhdinh.com.vn (ko gi i mã NCR _ charset : utf8) p(msonormal) p(msobodytext)
  • 48. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 47 6. www.baocantho.com.vn (có gi i mã NCR _ charset : windows_1252) td(news_title) td(news_body) 7. sacmauvanhoa (ko gi i mã NCR _ charset : utf8) p(dong) p(msonormal) Hình 4.1.1-15 : M t trang báo thanh niên
  • 49. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 48 Hình 4.1.1-16 : li u c tách t trang báo Thanh niên 4.1.2. Tách câu (ch y ch ng trình XDNguLieu.exe) i b c này, ta th c hi n vi c t o 1 kho d li u chu n ti n cho vi c x lý sau này. Kho d li u này theo chu n c mô t chi ti t trong ph n PH C. 1 cách n gi n, kho này g m nhi u câu thu c cùng 1 l nh v c, m i câu c gán 1 s ID riêng. K t qu thu c, v i kho text b c trên là 1 kho câu 150MB.
  • 50. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 49 Hình 4.1.2-17: Giao di n ch ng trình Tách Câu o vi t t t : Dùng nh ngh a các t vi t t t thông d ng có ch a d u ch m câu (. ! ?) lo i b b t các tr ng h p gây nh m l n khi tách câu. Hình 4.1.2-18: vi t t t cung c p cho ch ng trình Tách Câu L u ý : nên 2 tr ng h p nh : Mr.(không có kho ng tr ng ng sau) và Mr. (có kho ng tr ng ng sau) thì vi c ch y ch ng trình s t t và chính xác h n o ID : nhãn nh danh duy nh t cho 1 câu trong t p tin, g m các tr ng : Ngày Tháng N m Ngu n g c nh danh Ch o u vào : Th m c ch a các file n i dung text ã tách c t các file .html (th m c có th có nhi u c p).
  • 51. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 50 o t xu t : File ch a t t c các câu v n b n ã c tách t th m c u vào và gán ID (hình d i) Hình 4.1.2-19: i dung file k t xu t c a ch ng trình Tách Câu . 4.1.3. Tách t và th ng kê (ch y ch ng trình Tach tu.exe) V i kho d li u chu ng c t o ra b c trên, ta b t u dùng ph ng pháp tách t LRMM th ng kê t n s xu t hi n c a t . Dùng 150 MB d li u kho câu trên, em th ng kê trên kho ng g n 18 tri u l t t , và h n 26400 t khác nhau ã xu t hi n.
  • 52. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 51 Hình 4.1.3-20: Giao di n module tách t v Th m c ngu n : Th m c ch a các câu ã c tách và gán nhãn, g m các p tin cùng l nh v c (nh pháp lu t); không quan tâm kho d li u này cùng hay khác ngu n g c Hình4.1.3-21: i dung t p tin th m c ngu n v p tin t n: File t n c th y cung c p s n và c ch nh s a theo yêu c u s d ng riêng c a nhóm.
  • 53. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 52 Hình 4.1.3-22: i dung t p tin t n v Xu t t p tin ng li u: File l u các t tách c và t n su t xu t hi n c a các t c tính theo công th c –lg(n/N) Hình 4.1.3-23: i dung t p tin k t qu 4.2. o t p tin t n chính (ch y ch ng trình RutGon.exe) n chính, là t n c dùng tra c u vi c chuy n i l n u, dùng ánh x 1-1 t t không d u sang t có d u. Trong ph n cài t, t n
  • 54. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 53 chính có tên là TuDienChinh.txt. T p tin t n chính này, c t o ra nh vào t p tin th ng kê t b c trên. Hình 4.1.3-24: Giao di n ch ng trình t o t n chính o p tin ngu n : t p tin ch a t n su t các t ã c th ng kê b c trên. o Th m c th ng kê : th m c ch a kho ng li u. ây chính là Th m c ngu n a ph n Tách t và th ng kê o Th m c k t xu t : th m c s ch a k t qu c a ch ng trình. Ngoài vi c t o ra t p tin TuDienChinh.txt, ch ng trình còn t o ra thêm 2 t p tin ph là TuDienPhanLop.txt và KhoCau.txt là u vào cho b c sau. § TuDienPhanLop.txt : t n này ch a các t không d u, m i t không u có 1 hay nhi u t có d u. § KhoCau.txt : ch a t t c các câu có s xu t hi n c a các t có d u trong TuDienPhanLop.txt
  • 55. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 54 Hình 4.1.3-25 : Trích 1 ph n TuDienChinh.txt Hình 4.1.3-26 : Trích 1 ph n TuDienPhanLop.txt
  • 56. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 55 Hình 4.1.3-27: Trích 1 ph n KhoCau.txt 4.3. o t p tin t n c m t n c m t c s d ng tra c u và hi u ch nh l i các t không d u ã chuy n sang có d u, d a trên vi c xét s xu t hi n c a c m t trong 1 ph m vi nh t nh (xem chi ti t trong ph n Mô hình). Trong ph n cài t, t n c m có tên là CumTu.txt và c t o ra sau 2 b c sau : 4.3.1. o kho d li u tinh gi n m i (ch y ch ng trình KhoDuLieu.exe)
  • 57. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 56 Hình 4.3.1-28: Giao di n ch ng trình t o kho d li u tinh gi n Thông qua b c trung gian này, giúp cho vi c t o t p tin CumTu.txt c d dàng và nhanh chóng h n. o p tin t n : t p tin t n t ti ng Vi t o n phân lo i : là TuDienPhanLop.txt c t o ra b c trên o Kho câu : là KhoCau.txt c t o ra b c trên. o Th m c k t xu t : th m c ch a k t qu ch ng trình. Sau khi ch y ch ng trình này, ch ng trình s t o ra 1 s l ng l n th m c (tên th m c là “_” + t không d u), trong th m c này s ch a các t p tin text (tên t p tin là “_” + t có u), m i t p tin s ch a t t c các câu mà có s xu t hi n c a t ó.
  • 58. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 57 Hình 4.3.1-29 : Trích 1 ph n th m c k t xu t Hình 4.3.1-30 : Th m c con _a trong th m c k t xu t
  • 59. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 58 4.3.2. o t p tin t n c m t (ch y ch ng trình ThongKeTu.txt) Hình 4.3.2-31: Giao di n ch ng trình t o t p tin c m t o n : t n các t ti ng Vi t o n phân l p : là TuDienPhanLop.txt c t o ra b c t o TuDienChinh.txt o n LLOCE : ch a 1 s c m t nh t nh … n u có ngu n d li u c m t t h n, ch ng trình s ch y t t h n. o Kho d li u : là Th m c k t xu t b c trên. 4.4. Ch ng trình chính Ch c n ng thêm d u và xoá d u c tích h p trong 1 dll, giúp vi c tri n khai ch ng trình c d dàng và thu n ti n h n. Vi c s d ng dll này r t n gi n, ch n 1 dll và 1 th m c ch a các t p tin t n c n thi t cho ch ng trình (TuDien) là ch c n ng Thêm d u và Xoá d u s n sàng ho t ng. V i dll trên, em phát tri n
  • 60. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 59 1 s ch ng trình chính sau ây, v i giao di n thân thi n, d s d ng, giúp ng i dùng d dàng thêm d u theo nhu c u s d ng c a h . 4.4.1. Ch ng trình VietEditor Hình 4.4.1-32: Giao di n ch ng trình chính VietEditor ây là 1 trình so n th o v n b n n gi n, v i các ch c n ng t ng t Notepad a Windows, nh ng nó có thêm ch c n ng Thêm d u và Xoá d u. Ch ng trình c phát tri n ki m tra mô hình c a ra. Ch c n ng Thêm d u thanh (F7) và Xoá d u thanh (F6) trong menu Công c giúp thêm d u và xoá d u cho v n b n. Trong ch ng trình, do vi c Ti n x lý, nên nh d ng c a v n b n không gi nh c c.
  • 61. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 60 4.4.2. Ch ng trình thêm d u qua Clipboard ây là 1 h ng phát tri n ti n l i cho ch c n ng thêm d u ti ng Vi t. i vi c s d ng t không d u nhi u trên Internet nh chat qua Y!M, c các lá mail n t … thì ti n ích này s giúp ng i s d ng ngay t c thì. Ng i dùng ch c n copy n v n b n không d u c n thêm d u, ngay l p t c, ch ng trình s th c hi n vi c chuy n n v n b n ó thành có d u và hi n th cho ng i dùng xem. Hình 4.4.2-33: Giao di n ch ng trình chính thêm d u Clipboard
  • 62. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 61 Hình 4.4.2-34: Test ch ng trình thêm d u Clipboard
  • 63. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 62 4.5. Th nghi m i b d li u th là các v n b n ng u nhiên m i nh t l y t trang web www.tuoitre.com.vn, ta so sánh ch ng trình VietEditor v i VietPad và AMPad, ta thu c k t qu khá kh quan sau (dùng ch ng trình test, không test b ng tay) : ng s ti ng T ng s ti ng úng T l úng VietEditor 8275 7191 86,9% VietPad 8275 7046 85,15% AMPad 8275 7156 86,47%
  • 64. Ch ng 5. T QU , H NG PHÁT TRI N
  • 65. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 64 5.1. n ch và h ng phát tri n Bài toán thêm d u ti ng Vi t vào v n b n không d u là bài toán m i, còn ang hoàn thi n d n v mô hình c ng nh cách th c hi n. Hi n nay, mô hình th ng dùng cho bài toán này là th ng kê t n s xu t hi n c a t , ng th i, tu theo m i tác gi mà có thêm nh ng bi n i, thu t gi i khác nhau giúp cho vi c thêm d u c chính xác h n. Qua lu n v n này, mô hình th ng kê t n s xu t hi n c a t , kèm theo ph ng pháp tách t không d u LRMM và s d ng thêm t n c m t , kh n ng chính xác c a mô hình là t ng i cao. Tuy nhiên, ph i nói là mô hình còn nh ng h n ch , và c ng là nh ng h ng m mà lu n v n c n ph i ti p t c phát tri n trong th i gian t i nh m t ng chính xác lên cao h n n a. Th nh t, c n ph i có nh ng l nh v c chuyên môn cho mô hình. Trong th i i chuyên môn hoá nh hi n nay, vi c s d ng ch ng trình trong nh ng l nh v c chuyên môn là c n thi t, ng th i, giúp cho ch ng trình t ng thêm chính xác. Vi c thêm ch c n ng này c ng không nh h ng nhi u n mô hình. ây, do th nghi m mô hình m i nên b c này c b qua. Th hai, áp d ng mô hình cho ph ng pháp thêm d u online. Vi c thêm d u online ngoài vi c t o tr c quan cho ng i dùng, ngoài ra, có th t o ra 1 ph ng pháp gõ m i, giúp vi c gõ ti ng Vi t c nhanh h n. Th ba, mô hình có th áp d ng các ph ng pháp tách t chính xác h n nh WFST c s d ng trong mô hình c a VnMark … t c chính xác cao h n n a. 5.2. t lu n Tuy mô hình không có m gì m i n i b t, nh ng qua vi c l u tr t n c m t chuy n i t linh ho t thì ây là h ng phát tri n r t có ti m n ng. V i 1 t n m t chính xác và y h n, mô hình s ho t ng t t h n n a. Ch c n ng Thêm u t ng c phát tri n thành 1 DLL, cho phép tích h p ch c n ng này vào b t k trình so n th o nào 1 cách nhanh chóng.
  • 66. 65 TÀI LI U THAM KH O [1]. Ti n s inh n. Giáo trình X lý ngôn ng t nhiên, Khoa Công ngh Thông tin, i h c Khoa h c T nhiên thành ph H Chí Minh, Tháng 12 – 2004. [2]. Nguy n V n Toàn. T ng Gán D u Thanh Ti ng Vi t – Trung tâm Phát tri n Công ngh Thông tin, i h c Qu c gia Thành ph H Chí Minh. [3]. Hoàng V n Hành – inh n (1999), “T ti ng Vi t : Khái ni m – nh n di n – ranh gi i”, Bài ti u lu n môn h c “T v ng h c”, L p Cao h c Ngôn ng h c. [4]. Hoàng Phê (1998), T n ti ng Vi t, Trung tâm t di n h c, NXB à ng. [5]. Dien Dinh, Kiem Hoang, Toan Nguyen Van (2001), “Vietnamese Word Segmentation”, Proceedings of NLPRS’01 (The 6th Natural Language Processing Pacific Rim Symposium), Tokyo, Japan, 11/2001, pg. 749-756 [6]. n Chí Nam, lu n v n c nhân tin h c khoá 1999-2003, “X lý ng ngh a trong h d ch t ng Anh –Vi t cho các tài li u tin h c”, pg. 27- 30 [7]. Nguy n Thái Ng c Duy, lu n v n c nhân tin h c khoá 2000-2004, “Xây ng ch ng trình b t l i chính t ti ng Vi t và ngh t thay th cho các l i chính t th ng g p”, pg. 16-36, pg. 69-73 [8]. oàn Xuân Kiên, “Bàn v chuy n ánh d u thanh trong ti ng Vi t”, ng t i trang http://home.tiscali.be/centre.vietnam/ [9]. oàn Xuân Kiên, “Xem l i m t v n ng âm ti ng Vi t : c u trúc âm ti t”, ng t i trang http://home.tiscali.be/centre.vietnam/ [10]. http://www.easyvn.com
  • 67. 66 [11]. Tài li u v ph n m m VietPad c công b t i trang web: http://vietpad.sourceforge.net [12]. Tài li u v ph n m m AMPad c công b t i trang web: http://www.echip.com.vn/echiproot/weblh/qcbg/duynghi/automark [13]. 1 s ph n m m h tr trên www.codeproject.com
  • 68. 67 Ph l c : C u trúc kho ng li u Kho ng li u g m nhi u t p tin text (.txt), m i t p tin ch a m t t p các câu thu c cùng 1 ch . T p tin text c l u v i c u trúc sau o p tin text g m nhi u record, m i record g m : § ID : nh danh § S : n i dung câu S cách ID b ng d u TAB (“t”) u trúc tr ng ID : Thông tin ID bao g m nh ng n i dung sau: • Ngày (1..31) 2 ký t • Tháng (1..12) 2 ký t • m (04 = 2004) 2 ký t • Xu t x 3 ký t o Ký t u tiên: ngu n g c c a ng li u § B: Báo chí § T: Tác ph m v n h c § S: Sách § L Lu n v n § V: Các lo i v n b n o Ký t th hai và ba: nh danh ngu n g c c a ng li u § báo chí: • TN: Thanh Niên • TT: Tu i Tr • SG: Sài Gòn Gi i Phóng • ND: Nhân Dân • LD: Ng i Lao ng • CT: C n Th • BD: Bình nh • VH: S c màu v n hóa § tác ph m v n h c: nhóm làm tài t quy nh nh danh cho tên các tác ph m V n h c mà mình có, ng th i ph i có tài li u cho ph n này (ý ngh a c a t ng nh danh mà nhóm ó d ng và l u trong t p tin riêng)
  • 69. 68 • Vd: Truy n Ki u c a Nguy n Du à TK • Vd: Cô Gái Long c a Kim Dung à CG § sách: cách qui nh gi ng tác ph m v n h c. § lu n v n: cách qui nh gi ng tác ph m v n h c. § v n b n: cách qui nh gi ng tác ph m v n h c. M t kho ng li u áng k ó là các v n b n c a Nhà N c, v n b n Pháp Lu t (www.luatgiapham.com),… • Ch 1 ký t o báo chí: § X: Xã h i, tin trong n c, tin th gi i § T: Th ng m i, kinh doanh, kinh t § V: V n hóa, th thao, i s ng, § P: Pháp lu t § Y: Y t , s c kh e, § K: Khoa h c, k thu t, tin h c o v n h c: § T: Th § N: Truy n ng n § D: Truy n dài § K: Truy n ki m hi p o sách: § (gi ng qui nh c a báo chí) o lu n v n: § (gi ng qui nh c a báo chí) o v n b n: § (gi ng qui nh c a báo chí) • th t bài vi t4 ký t (01..9999) • th t câu 3 ký t (001..999) ng k t l i, tr ng ID có chi u dài là: 17
  • 70. 69 Hình 5.2-35 : p tin kho ng li u m u