SlideShare a Scribd company logo
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Huyền Trang
GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA
TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM
DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ
PHÂN CỤM HAC
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2011
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Huyền Trang
GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA
TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM
DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ
PHÂN CỤM HAC
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
ThS Trần Mai Vũ
HÀ NỘI - 2011
i
Lời cảm ơn
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới Thầy giáo,
PGS-TS Hà Quang Thụy và Thạc sỹ Trần Mai Vũ đã tận tình chỉ bảo, hướng dẫn, động
viên, giúp đỡ em trong suốt quá trình thực hiện đề tài.
Em xin gửi lời cảm ơn sâu sắc tới quí Thầy Cô trong Khoa Công nghệ thông tin đã
truyền đạt kiến thức quí báu cho em trong những năm học vừa qua.
Em cũng xin gửi lời cảm ơn tới các anh chị, các bạn và các em sinh viên trong
nhóm “Khai phá dữ liệu” phòng thí nghiệm KT-Sislab đã giúp em rất nhiều trong việc hỗ
trợ kiến thức chuyên môn để hoàn thành tốt khoá luận.
Xin cảm ơn sự hỗ trợ từ đề tài QG.10.38 trong thời gian em thực hiện khóa luận.
Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn chăm sóc, động
viên, khích lệ con trên mỗi bước đường học vấn của con.
Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, đặc biệt là các thành
viên lớp K52CA và K52CHTTT đã ủng hộ và giúp đỡ tôi trong suốt thời gian tôi học tập
trên giảng đường đại học và thực hiện đề tài.
Tôi xin chân thành cảm ơn !
Hà Nội, ngày 20 tháng 05 năm 2011
Sinh viên
Phạm Huyền Trang
ii
Tóm tắt nội dung
Khai phá quan điểm dựa trên đặc trưng (FOM) là một trong những bài toán khai
phá quan điểm quan trọng [5, 18, 23]. Đối với một sản phẩm, bài toán này tìm đến mức
câu đánh giá để phát hiện các đặc trưng của sản phẩm, và tạo ra một bản tổng kết quan
điểm đánh giá theo từng đặc trưng đó. Tuy nhiên, trong văn bản đánh giá sản phẩm,
khách hàng thường dùng các từ hoặc cụm từ rất khác nhau để nói đến cùng một đặc trưng
sản phẩm. Vì vậy, để tạo ra một bản tổng kết có ý nghĩa, những từ hoặc cụm từ được coi
là đồng nghĩa trên một miền sản phẩm cần được nhóm vào cùng một nhóm đặc trưng
[27].
Dựa trên phương pháp phân lớp bán giám sát gom nhóm đặc trưng sản phẩm của
Zhongwu Zhai và cộng sự, 2010 [27], khóa luận đề xuất một giải pháp gom nhóm các đặc
trưng đồng nghĩa trong các đánh giá tiếng Việt dựa trên phân lớp bán giám sát SVM-kNN
[17] và phân cụm HAC.
Thực nghiệm trên miền sản phẩm điện thoại di động trên website bán hàng trực
tuyến Thế giới di động (http://thegioididong.com) cho thấy giải pháp gom nhóm đặc trưng
sản phẩm đồng nghĩa tiếng Việt do khóa luận đề xuất có độ đo Purity là 0.68 và độ đo
Accuracy là 0.65. Kết quả trên cho thấy phương pháp gom nhóm đặc trưng đồng nghĩa
tiếng Việt được khóa luận đề xuất và triển khai là có tính hiệu quả.
iii
Lời cam đoan
Tôi xin cam đoan giải pháp gom nhóm đặc trưng đồng nghĩa tiếng Việt trong các
đánh giá sản phẩm dựa trên phân lớp bán giám sát SVM-kNN và phân cụm HAC được
trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của PGS. TS. Hà Quang
Thụy và ThS. Trần Mai Vũ
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một
cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có
việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu
tham khảo.
Hà Nội, ngày 20 tháng 05 năm 2011
Tác giả
Phạm Huyền Trang
iv
Mục lục
Lời cảm ơn...........................................................................................................................i 
Tóm tắt nội dung................................................................................................................ii 
Lời cam đoan.....................................................................................................................iii 
Danh sách hình vẽ............................................................................................................vii 
Danh sách bảng biểu.......................................................................................................viii 
Danh sách các từ viết tắt..................................................................................................ix 
Mở đầu................................................................................................................................1 
Chương 1. Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm
khách hàng .........................................................................................................................3 
1.1. Khái quát về khai phá quan điểm khách hàng...........................................................3 
1.1.1. Khái niệm về khai phá quan điểm......................................................................3 
1.1.2. Ứng dụng của khai phá quan điểm.....................................................................3 
1.1.3. Khai phá quan điểm khách hàng trên đặc trưng sản phẩm.................................4 
1.2. Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm tiếng Việt dựa
trên đặc trưng sản phẩm....................................................................................................7 
1.2.1. Bài toán gom nhóm đặc trưng đồng nghĩa .........................................................7 
1.2.2. Một số nghiên cứu liên quan trên thế giới..........................................................9 
1.2.3. Giải pháp hiện thời ...........................................................................................10 
Tóm tắt chương một .......................................................................................................11 
Chương 2. Phân lớp bán giám sát SVM-kNN...............................................................13 
2.1. Một số nội dung cơ bản về phân lớp bán giám sát..................................................13 
2.1.1.Khái niệm ..........................................................................................................13 
2.1.2. Các phương pháp phân lớp bán giám sát điển hình .........................................14 
2.2. Phương pháp luận SVM-kNN dựa trên học bán giám sát.......................................15 
v
2.2.1. Thuật toán máy vector hỗ trợ (SVM)...............................................................15 
2.2.2. Thuật toán K người láng giềng gần nhất (kNN)...............................................18 
2.2.3. Phương pháp phân lớp bán giám sát SVM-kNN..............................................19 
Tóm tắt chương hai:........................................................................................................24 
Chương 3.Đề xuất một giải pháp gom nhóm đặc trưng sản phẩm tiếng Việt tự động
...........................................................................................................................................25 
3.1. Đề xuất một giải pháp gom nhóm đặc trưng sản phẩm tiếng Việt dựa trên phân lớp
bán giám sát SVM-kNN kết hợp phân cụm HAC..........................................................25 
3.2. Pha 1: Biểu diễn vector thể hiện đặc trưng..............................................................27 
3.2.1. Xác định ngữ nghĩa của các thể hiện đặc trưng................................................28 
3.2.2. Xác định ngữ cảnh của thể hiện đặc trưng .......................................................29 
3.2.3. Biểu diễn thể hiện đặc trưng dưới dạng vector ................................................29 
3.3. Pha 2: Tạo tập huấn luyện cho bộ phân lớp SVM-kNN..........................................30 
3.3.1. Quá trình phân cụm ..........................................................................................32 
3.3.2. Gán nhãn cho các cụm......................................................................................34 
3.3.Pha 2: Phân lớp bán giám sát SVM-kNN.................................................................34 
Tóm tắt chương 3: ..........................................................................................................37 
Chương 4. Thực nghiệm và đánh giá.............................................................................38 
4.1. Môi trường và các công cụ sử dụng thực nghiệm ...................................................38 
4.2. Xây dựng tập dữ liệu ...............................................................................................39 
4.3. Thực nghiệm............................................................................................................40 
4.3.1. Quá trình biểu diễn vector thể hiện đặc trưng..................................................40 
4.3.2. Thực nghiệm tạo tập huấn luyện cho SVM-kNN.............................................40 
4.3.3. Thực nghiệm phân lớp bán giám sát SVM-kNN: ............................................42 
Tóm tắt chương 4............................................................................................................47 
vi
Kết luận ............................................................................................................................48 
Tài liệu tham khảo...........................................................................................................49 
vii
Danh sách hình vẽ
Hình 1: Ví dụ biểu diễn cây đối tượng .................................................................................5 
Hình 2: Ví dụ minh họa các khái niệm Đặc trưng, Từ quan điểm, Đoạn đánh giá và Đặc
trưng trong 1 nhận xét của khách hàng trên forum http://tinhte.com...................................6 
Hình 3: Ví dụ về bản tổng hợp quan điểm về điện thoại N72..............................................7 
Hình 4: Ví dụ về đặc trưng đồng nghĩa ................................................................................8 
Hình 5: Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm.........................................16 
Hình 6: Ví dụ về thuật toán kNN........................................................................................19 
Hình 7: Minh họa vector hỗ trợ và vector biên ..................................................................21 
Hình 8: Miêu tả khái quát của mô hình đề xuất bởi Kunlun Li, Xuerong Luo vàMing
Jin[17].................................................................................................................................22 
Hình 9: Mô hình đề xuất gom nhóm đặc trưng đồng nghĩa ...............................................27 
Hình 10: Sơ đồ các phần tử trước khi phân cụm................................................................31 
Hình 11: Sơ đồ các phần tử sau khi phân cụm phân cấp tích tụ từ dưới lên – HAC..........31 
Hình 12: Sơ đồ so sánh kết quả của mô hình đề xuất với phương pháp của K.Li và cộng
sự [17].................................................................................................................................44 
viii
Danh sách bảng biểu
Bảng 1. Cấu hình hệ thống thử nghiệm.............................................................................38 
Bảng 2. Công cụ phần mềm sử dụng.................................................................................39 
Bảng 3: Bảng số lượng dữ liệu đầu vào ............................................................................40 
Bảng 4. Kết quả thực nghiệm thuật toán HAC với 5 giá trị ngưỡng α.............................41 
Bảng 5. Các thể hiện đặc trưng cùng các cụm không đơn tương ứng...............................42 
Bảng 6. Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5khi dữ liệu gán nhãn
chiếm 30% tổng số dữ liệu ................................................................................................44 
Bảng 7: Kết quả thực nghiệm khi s = 4, t= 0.8, k = 5 .......................................................46 
Bảng 8. Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5khi dữ liệu gán nhãn
chiếm 40% tổng số dữ liệu ................................................................................................46 
ix
Danh sách các từ viết tắt
LDA Latent Dirichlet Allocation
HAC Hierarchical Agglomerative Clustering
SVM Support Vector Machine
kNN K Nearest Neighbors
EM Expectation Maximization
SSSVM Semi-Supervisered Support Vector Machine
S3VM-kNN Semi-Supervisered Support Vector Machine-k Nearest Neighbors
TFIDF Term Frequency Inverse Document Frequency
1
Mở đầu
Khai phá và tổng hợp quan điểm khách hàng dựa trên đặc trưng sản phẩm (FOM)
đang là một trong những lĩnh vực nhận thu hút nhiều sự quan tâm trên thế giới [5, 18, 20,
23]. Mục tiêu của bài toán này là tạo ra một bản tổng hợp các quan điểm của khách hàng
trên từng đặc trưng sản phẩm. Bản tổng hợp như vậy cung cấp cho khách hàng một cái
nhìn trực quan về ý kiến của những khách hàng đã dùng sản phẩm trước đó, đồng thời,
giúp nhà sản xuất phát hiện ra những hạn chế còn mắc phải của sản phẩm và nhờ vậy có
thể khắc phục những nhược điểm đang tồn tại.
Gom nhóm đặc trưng đồng nghĩa được người dùng đề cập đến trong các đánh giá
là một bài toán con của bài toán FOM thực hiện việc nhóm các từ cùng chỉ đến một đặc
trưng nào đó vào một nhóm. Các đặc trưng được xác định là đồng nghĩa tùy thuộc từng
miền sản phẩm khác nhau.
Trong những năm gần đây, một số giải pháp gom nhóm đặc trưng sản phẩm đã
được đưa ra [7, 11, 27]. Tuy nhiên, đối với tiếng Việt, chưa có một nghiên cứu nào đi sâu
nghiên cứu vấn đề này. Giải pháp hiện thời của chúng tôi trong [21] là xây dựng bằng tay
bộ từ điển đồng nghĩa tiếng Việt trên miền sản phẩm điện thoại.
Trong khóa luận này, chúng tôi sử dụng kỹ thuật học bán giám sát để gom nhóm
đặc trưng sản phẩm trên miền sản phẩm điện thoại di động dựa trên hướng tiếp cận của
Zhongwu Zhai và cộng sự, 2010 [27]. Chúng tôi đề xuất một mô hình tự động gom nhóm
đặc trưng đồng nghĩa, theo đó, đối với một miền sản phẩm mới, việc tạo tập dữ liệu huấn
luyện được thi hành bằng thuật toán phân cụm HAC theo ngưỡng α. Sau đó, thuật toán
phân lớp bán giám sát SVM-kNN dựa trên ngữ nghĩa và ngữ cảnh của từng đặc trưng
được áp dụng. Chúng tôi lựa chọn phân lớp bán giám sát SVM-kNN vì phương pháp này
cho kết quả tốt với độ đo F1 khoảng 80 đến 98% với miền dữ liệu tiếng Anh như kết quả
nghiên cứu của Kunlun Li và cộng sự năm 2010 [17]. Khóa luận tiến hành thực nghiệm
mô hình gom nhóm đặc trưng dựa trên HAC và SVM-kNN với kết quả đạt mức phù hợp
với kết quả trong các công bố khoa học liên quan trên thế giới (Purity là 0.68 và Accuracy
là 0.65).
Nội dung của khóa luận được chia thành các chương như sau:
2
Chương 1: Khóa luận giới thiệu khái quát về khai phá quan điểm khách hàng cũng
như một số khái niệm liên quan trong khai phá quan điểm khách hàng dựa trên đặc trưng.
Ngoài ra, bài toán gom nhóm đặc trưng đồng nghĩa trong các đánh giá tiếng Việt cùng
một số nghiên cứu liên quan và giải pháp hiện thời của chúng tôi cũng được trình bày tại
chương này.
Chương 2: Khóa luận giới thiệu về thuật toán phân lớp SVM, kNN. Từ đó, khóa
luận trình bày chi tiết phương pháp phân lớp bán giám sát SVM-kNN là phương pháp
phân lớp được sử dụng để giải quyết bài toán gom nhóm đặc trưng sản phẩm.
Chương 3: Khóa luận đề xuất một mô hình giải pháp gom nhóm đặc trưng đồng
nghĩa dựa trên phân lớp bán giám sát SVM-kNN và phân cụm HAC trên miền dữ liệu
tiếng Việt. Đồng thời, khóa luận cũng trình bày chi tiết các pha cũng những các bước
trong mô hình.
Chương 4: Khóa luận trình bày một số thực nghiệm việc gom nhóm đặc trưng sản
phẩm đồng nghĩa tiếng Việt trong các đánh giá của khách hàng trên miền sản phẩm điện
thoại di động. Kết quả thực nghiệm được đánh giá theo các độ đo tương ứng phù hợp với
bài toán gom nhóm đặc trưng.
Phần kết luận: Tóm lược kết quả đạt được của khóa luận và định hướng phát triển
tương lai.
3
Chương 1. Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá
quan điểm khách hàng
1.1. Khái quát về khai phá quan điểm khách hàng
1.1.1. Khái niệm về khai phá quan điểm
Theo Bing Liu, 2010 [5], thông tin văn bản có thể được chia ra thành hai loại
chính, là sự kiện và quan điểm.Thông tin sự kiện thể hiện khách quan về những thực thể,
sự kiện hay các thuộc tính của chúng. Thông tin quan điểm thể hiện chủ quan của con
người, miêu tả quan điểm, ý kiến hướng đến thực thể, sự kiện hay thuộc tính. Khai phá
quan điểm đang là một lĩnh vực nghiên cứu gần đây thu hút sự quan tâm đặc biệt không
chỉ của các nhà khoa học trong giới học thuật mà còn của các nhà sản xuất, các công ty,…
trên thế giới nói chung và ở Việt Nam nói riêng. Quá trình khai phá quan điểm đóng một
vai trò quan trọng trong thế giới ngày nay, không chỉ trong lĩnh vực kinh tế (đặc biệt trong
thương mại điện tử) mà còn trong lĩnh vực xã hội (đặc biệt trong mạng xã hội trực tuyến).
Khai phá quan điểm thuộc vào lĩnh vực khai phá văn bản, đề cập đến việc áp dụng
các giải pháp của xử lý ngôn ngữ tự nhiên, khai phá dữ liệu và công nghệ mạng để trích
xuất và xác định quan điểm trong nguồn dữ liệu là các đánh giá, nhận định của con người
[20]. Khái niệm “quan điểm” là một khái niệm rất rộng, nó có thể được thể hiện theo
nhiều mức độ khác nhau.
1.1.2. Ứng dụng của khai phá quan điểm
Khai phá quan điểm đang trở thành một lĩnh vực quan trọng trong những năm gần
đây do phạm vi ứng dụng rộng của nó. Bo Pang and Lillian Lee, 2008 [6] chỉ ra 4 miền
ứng dụng chính của khai phá quan điểm.
Miền ứng dụng đầu tiên là các website đánh giá. Các website này tự động tổng hợp
quan điểm và đánh giá của người sử dụng (chẳng hạn, trang Epinion:
http://www1.epinions.com/). Các website có tính năng mời gọi đánh giá (review-
solicitation) cũng được xếp vào loại này, trong đó tổng hợp đánh giá người dùng
(Summarizing user reviews) là một chứcc năng quan trọng.
Miền ứng dụng thứ hai là khai phá quan điểm đóng vai trò công nghệ thành phần
con (Sub-Component Technology) trong các hệ thống khác, chẳng hạn như các hệ thống
4
tư vấn (recommendation systems), hệ thống hỏi-đáp (Question answer systems), thành
phần tương tác người-máy (human–computer interaction) của các hệ thống.
Miền ứng dụng thứ ba là các ứng dụng trong thông minh doanh nghiệp (Business
Intelligence) và thông minh chính quyền (Government Intelligence). Khai phá quan điểm
được dùng trong nhận biết quan điểm khách hàng, tình báo công nghiệp... (thông minh
doanh nghiệp) hoặc xu hướng truyền thông thù địch… (thông minh chính quyền).
Cuối cùng, khai phá quan điểm áp dụng trong liên miền ứng dụng khác nhau.
1.1.3. Khai phá quan điểm khách hàng trên đặc trưng sản phẩm
Khai phá và tổng hợp quan điểm dựa trên đặc trưng là một trong ba bài toán điểm
hình thuộc lĩnh vực khai phá quan điểm. Ba bài toán điển hình đó là: Phân lớp quan điểm,
khai phá quan hệ so sánh và khai phá quan điểm dựa trên đặc trưng. Trong ba bài toán
trên, khai phá quan điểm dựa trên đặc trưng là một bài toán đang rất được chú ý trong lĩnh
vực khai phá quan điểm. Trong mục này, khóa luận sẽ trình bày một số khái niệm liên
quan đến bài toán khai phá quan điểm dựa trên đặc trưng và mô hình hóa cho bài toán
này.
a. Một số khái niệm liên quan
- Đối tượng (object): Một đối tượng O là một một sản phẩm [5].
Ví dụ: Điện thoại Nokia N72, bộ phim “Cuốn theo chiều gió”, …
- Đặc trưng (feature):
Bài toán gom nhóm đặc trưng đồng nghĩa liên quan trực tiếp đến khái niệm đặc
trưng. Do vậy, chúng tôi xin trình bày chi tiết về khái niệm này như dưới đây.
Mỗi đối tượng O được liên hệ với một cặp O (T,A) với T là một sự phân cấp của
các thành phần, thành phần con, … và A là một tập các thuộc tính của O [5]. Mỗi thành
phần lại có tập các thành phần con và thuộc tính riêng của nó. Để làm rõ hai khái niệm
thành phần và thuộc tính ở trên, có một ví dụ đơn giản như sau: Xét đối tượng là điện
thoại Nokia N72. Đối tượng này có một tập các thành phần, như: pin, màn hình, … và
một tập các thuộc tính như chất lượng âm thanh, kích cỡ, cảm ứng, … Thành phần pin
cũng có một tập các thuộc tính như: chất lượng pin, kích cỡ pin,…
5
Một đối tượng được thể hiện bởi một cây. Gốc cây là đối tượng đó, mỗi một node
không phải là gốc là một thành phần của đối tượng. Mỗi cung thể hiện quan hệ giữa các
thành phần. Mỗi node cũng được liên kết với các thuộc tính.
Hình 1. Ví dụ biểu diễn cây đối tượng
Tuy nhiên, việc xử lý ngôn ngữ tự nhiên liên quan là một nhiệm vụ rất khó; hơn
nữa, để tránh sự phân cấp, có thể coi thành phần và thuộc tính là đặc trưng quan điểm
(hay đặc trưng).
- Đoạn đánh giá về một đặc trưng: Đoạn văn bản đánh giá về một đặc trưng f của
đối tượng O trong s là một tập các câu liên tiếp trong s diễn tả quan điểm tích cực, tiêu
cực hay trung lập về đặc trưng f [5].
-Từ quan điểm (opinion word): Quan điểm trên một đặc trưng bất kỳ là hướng
nhìn, thái độ của khách hàng đối với mỗi đặc trưng [5]. Thái độ đó có thể theo hướng tích
cực, tiêu cực hay trung lập. Từ thể hiện được quan điểm của khách hàng được gọi là từ
quan điểm.
Ví dụ:
Câu = “Nội dung phim hay”.
Quan điểm của người dùng trên đặc trưng “nội dung” (phim) là một quan điểm
hướng tích cực, vì sử dụng từ quan điểm “hay”.
-Người đánh giá (opinion holder):
Là người hay tổ chức cụ thể đưa ra lời đánh giá. Với các đánh giá về sản phẩm trên
diễn đàn, blogs: người đánh giá chính là các tác giả của đánh giá hay bài viết [5].
6
Hình 2: Ví dụ minh họa các khái niệm Đặc trưng, Từ quan điểm, Đoạn đánh giá và
Đặc trưng trong 1 nhận xét của khách hàng trên forum http://tinhte.com
b. Mô hình hóa bài toán
Bing Liu [5] định nghĩa một mô hình của một đối tượng và một tập các quan điểm
về đối tượng. Một đối tượng được thể hiện với một tập xác định của đặc trưng, F =
{f1,f2,…,fn}. Mỗi đặc trưng fi trong F có thể được diễn tả bởi một tập các từ hoặc cụm từ
Wi là các đặc trưng đồng nghĩa. Mỗi người đánh giá j bình luận trên một tập con các
đặc tính Sj thuộc F. Với mỗi fk thuộc Sj, người đánh giá j diễn đạt quan điểm về đặc trưng
bằng một từ hoặc cụm từ trong Wk với một thái độ tích cực (positive) hay tiêu cực
(negative).
Mô hình này đòi hỏi ba tình huống bài toán trong thực tế. Giả sử có một tập các
văn bản đánh giá D là đầu vào, ba tình huống bài toán được phát biểu như sau:
Tình huống 1: Cả F và W đều không biết. Bài toán cần thực hiện ba nhiệm vụ:
- Nhiệm vụ 1: Xác định và trích chọn các đặc trưng được đề cập tới trong D.
- Nhiệm vụ 2: Xác định hướng quan điểm trên các đặc trưng.
- Nhiệm vụ 3: Nhóm các từ đồng nghĩa của các đặc trưng, vì những người khác
nhau có thể sử dụng các từ hoặc cụm từ khác nhau để diễn đạt cùng một đặc trưng. Đây
chính là bài toán gom nhóm đặc trưng đồng nghĩa mà khóa luận hướng tới giải quyết.
Nhiệm vụ này sẽ được chúng tôi trình bày trong mục 1.2.
7
Tình huống 2: F đã biết, nhưng W lại không. Tất cả ba nhiệm vụ của bài toán 1
cần được thực hiện, nhưng nhiệm vụ 3 trở thành bài toán ghép các đặc trưng phát hiện
được với tập đặc trưng F đã cho.
Tình huống 3: W và F cùng đã biết. Thực hiện nhiệm vụ 2 ở trên, tức là xác định
xem quan điểm trên thuộc tính là thái độ tích cực hay tiêu cực, hay trung lập sau khi tất cả
các câu chứa chúng được trích chọn.
Đầu ra của một tập văn bản D là một tập các cặp, mỗi cặp được kí hiệu bởi (f, SO),
trong đó f là một đặc trưng và SO là hướng ngữ nghĩa hay hướng quan điểm được diễn
đạt trong D trên đặc trưng f. Cuối cùng, từ kết quả này, đưa ra một bản tổng hợp các quan
điểm về một đối tượng dựa trên các đặc trưng.
Hình 3: Ví dụ về bản tổng hợp quan điểm về điện thoại N72 [21]
1.2. Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm tiếng
Việt dựa trên đặc trưng sản phẩm
1.2.1. Bài toán gom nhóm đặc trưng đồng nghĩa
Trong các đánh giá của người dùng trên mạng thường chứa các yếu tố không
chuẩn [22]. Nói riêng, trong các văn bản đánh giá sản phẩm, khách hàng thường sử dụng
những từ hoặc cụm từ rất khác nhau để nhắc đến cùng một đặc trưng sản phẩm.
Ví dụ: Trong hình 4, với miền sản phẩm điện thoại Nokia E63, chúng tôi khảo sát
trên website bán hàng trực tuyến http://www.thegioididong.com thì khách hàng sử dụng
8
từ “tính năng” và “chức năng” cùng nhắc đến đặc trưng “tính năng”, nên chúng được coi
là các từ đặc trưng đồng nghĩa.
Hình 4: Ví dụ về đặc trưng đồng nghĩa
Do đó, để tạo ra một bản tổng kết có ý nghĩa, những từ hoặc cụm từ đồng nghĩa
cần được nhóm vào cùng một nhóm đặc trưng. Theo Bing Liu [5] việc xác định và gom
nhóm các đặc trưng đồng nghĩa là rất cần thiết cho các ứng dụng thực tế.
Từ mô hình hóa bài toán, có thể thấy bài toán gom nhóm đặc trưng đồng nghĩa
chính là một trong ba nhiệm vụ của tình huống bài toán 1 trong khai phá quan điểm cần
phải giải quyết.
Zhongwu Zhai và cộng sự [27] nêu ra hai khái niệm trong bài toán gom nhóm đặc
trưng đồng nghĩa là “thể hiện đặc trưng” và “nhóm đặc trưng”. Nhóm đặc trưng là tên của
một đặc trưng của sản phẩm mà người dùng muốn nói đến, trong khi thể hiện đặc trưng là
một từ hoặc cụm từ xuất hiện thực sự trong các đánh giá sản phẩm để chỉ đặc trưng đó.
Những khái niệm này được sử dụng trong phương pháp đề xuất của chúng tôi.
Ví dụ:
Một nhóm đặc trưng tên là “Hình thức”, có thể có nhiều thể hiện đặc trưng như:
“Thiết kế”, “Kiểu cách”, “Mẫu mã”, hoặc thậm chí có thể là “Hình thức”.
Mục tiêu của bài toán là xác định được các đặc trưng đồng nghĩa và đưa chúng vào
cùng một nhóm đặc trưng. Bài toán gom nhóm đặc trưng đồng nghĩa trong các đánh giá
liên quan nhiều đến bài toán xác định từ đồng nghĩa [27]. Đây là một thách thức trong xử
lý ngôn ngữ tự nhiên.
9
1.2.2. Một số nghiên cứu liên quan trên thế giới
Bài toán gom nhóm đặc trưng đồng nghĩa đã và đang nhận được nhiều sự quan tâm
trên thế giới. Có khá nhiều công trình đã nghiên cứu nhằm tìm ra các phương án tối ưu để
giải quyết bài toán, chẳng hạn [7, 11, 27].
Theo Bing Liu [5], một trong số các phương pháp nhằm giải quyết bài toán này là
sử dụng từ điển Wordnet và các từ điển đồng nghĩa khác. Một một số phương pháp hướng
sử dụng từ đồng nghĩa song kết hợp một số cải tiến đã được đề xuất.
Carenini và cộng sự, 2005 [8] đề xuất một phương pháp tinh vi dựa trên các số liệu
tương tự như một số yêu cầu phân lớp các đặc trưng được đưa ra. Hệ thống này kết hợp
đặc trưng phát hiện mỗi một nút đặc trưng trong phân lớp này. Các số liệu tương tự được
xác định dựa trên các chuỗi tương tự, từ đồng nghĩa và khoảng cách đo khác bằng cách sử
dụng WordNet.
Zhongwu Zhai và cộng sự, 2010 [27] nêu ra ba hạn chế khi dùng từ điển đồng
nghĩa trong gom nhóm từ đặc trưng.
Thứ nhất, có nhiều từ không phải là đồng nghĩa trong từ điển nhưng lại có thể là
đồng nghĩa trong một miền ứng dụng nào đó. Ví dụ, hai từ “design” và “appearance”
không là từ đồng nghĩa nếu xét trong từ điển nhưng được coi là hai từ đồng nghĩa trong
miền “mobile”.
Thứ hai, từ đồng nghĩa có tính phụ thuộc miền ứng dụng. Ví dụ, hai từ “movie” và
“picture” là đồng nghĩa trong miền “movie” nhưng trong miền “video” thì hai từ này lại
chỉ đến hai đặc trưng hoàn toàn khác nhau.
Thứ ba, việc xác định các từ đồng nghĩa có thể phụ thuộc vào yêu cầu mức độ trừu
tượng hóa của miền ứng dụng. Ví dụ, trong miền “car” thì “internal design” và “external
design” là thuộc hai nhóm đặc trưng khác nhau theo mức chi tiết nào đó song lại được coi
là thuộc cùng một nhóm đặc trưng theo một mức trừu tượng cao hơn.
Dựa theo hướng tiếp cận không giám sát, Guo và cộng sự, 2009 [12] đề xuất một
kỹ thuật việc kết hợp ngữ nghĩa ẩn đa mức để góm nhóm các thể hiện đặc trưng. Kỹ thuật
này chạy LDA hai lần. Kỹ thuật này tránh được việc phụ thuộc vào từ điển đồng nghĩa.
Tuy nhiên phương pháp này còn phụ thuộc vào miền và ngôn ngữ.
10
Gần đây, Zhongwu Zhai và cộng sự, 2010 [27] đề xuất một phương pháp nhóm
đặc trưng đồng nghĩa dựa trên hướng tiếp cận học bán giám sát, đồng thời kết hợp ràng
buộc mềm để áp dụng cho bài toán này nhằm khắc phục những hạn chế còn gặp phải khi
sử dụng từ điển đồng nghĩa. Phương pháp học bán giám sát được sử dụng là Naïve-
Bayesian Expectation-Maximization, bộ phân lớp Bayesian được chạy lặp lại trên dữ liệu
đã gán nhãn và dữ liệu chưa gán nhãn cho đến khi các xác suất cho dữ liệu chưa gán nhãn
hội tụ. Việc gán nhãn dữ liệu được tạo bằng tay. Để có kết quả tốt hơn, các tác giả đã tạo
ra 2 ràng buộc mềm nhằm làm giàu tập dữ liệu đã gán nhãn. Hai ràng buộc mềm này là:
(1) – Những thể hiện đặc trưng có chung một số từ nào đó thì thuộc về cùng một nhóm;
(2) – Những thể hiện đặc trưng đồng nghĩa trong từ điển đồng nghĩa thì thuộc về cùng
một nhóm.
Việc tạo ra những ràng buộc mềm có hai ưu điểm:
Một là, hai ràng buộc này tạo ra các mẫu nhãn mềm (soft-labeled examples) và
chúng được đưa vào tập huấn luyện nhằm làm giàu tập huấn luyện đó.
Hai là, trong trường hợp ràng buộc mềm gán sai nhãn do những hạn chế của bộ từ
điển đồng nghĩa mang lại thì bộ phân lớp bán giám sát vẫn được phép thay đổi nhãn.
Các tác giả tiến hành thực nghiệm trên các đánh giá từ 5 miền khác nhau, kết quả
cho thấy phương pháp gom nhóm đặc trưng sử dụng học bán giám sát là khá hiệu quả.
Thực nghiệm trên 5 bộ dữ liệu, độ đo purity thuộc khoảng 0.66-0.70 và độ đo accuracy
thuộc khoảng 0.67-0.71.
1.2.3. Giải pháp hiện thời
Hiện nay, tại Việt Nam, chưa có một công trình nghiên cứu nào đi sâu giải quyết
bài toán gom nhóm đặc trưng sản phẩm trong các đánh giá tiếng Việt.
Trong [21], chúng tôi đề xuất một mô hình khai phá quan điểm dựa trên đặc trưng
đối với các đánh giá sản phẩm điện thoại bằng tiếng Việt. Khó khăn lớn nhất của chúng
tôi khi giải quyết bài toán này trong miền dữ liệu tiếng Việt là tại Việt Nam, chưa có bộ từ
điển đồng nghĩa kiểu Wordnet; trong khi các công trình nghiên cứu nêu trên (mục 1.2.2)
đều sử dụng bộ từ điển đồng nghĩa. Ngoài ra, trong miền dữ liệu đánh giá tiếng Việt của
khách hàng về sản phẩm, chất lượng cũng như số lượng của các đánh giá là khá thấp.
11
Trong công trình nói trên [21], chúng tôi sử dụng một giải pháp rất đơn giản để
nhóm các đặc trưng “đồng nghĩa” – đó là sử dụng một bộ từ điển đặc trưng đồng nghĩa
xây dựng bằng tay. Từ điển này chứa các đặc trưng đồng nghĩa trên miền sản phẩm “điện
thoại”. Khi trong câu đánh giá xuất hiện một thể hiện đặc trưng có trong từ điển thì tên
thể hiện đặc trưng sẽ được suy ra tên nhóm đặc trưng.
Tuy nhiên, ngoài những hạn chế đã nêu ở mục 1.2.2 khi sử dụng từ điển đồng
nghĩa, giải pháp này còn gặp một số điểm hạn chế. Thứ nhất, việc nhóm các thể hiện đặc
trưng vào nhóm đặc trưng phù hợp là một công việc tốn rất nhiều thời gian, vì người dùng
thường sử dụng rất nhiều những từ ngữ khác nhau để thể hiện cùng một đặc trưng, có
những nhóm đặc trưng có thể có đến hàng chục thể hiện đặc trưng. Thứ hai, trong trường
hợp xuất hiện những thể hiện đặc trưng mới trong đánh giá của người dùng, và đặc trưng
này không có trong từ điển thì mô hình vẫn chưa phát hiện được nhóm đặc trưng của nó.
Bởi lẽ, việc xác định đặc trưng đồng nghĩa phụ thuộc hoàn toàn vào bộ từ điển. Thứ ba,
việc xây dựng từ điển đồng nghĩa trong [21] chỉ áp dụng được trong miền sản phẩm điện
thoại, khi chuyển sang miền dữ liệu khác thì phải xây dựng một bộ từ điển khác.
Khóa luận này đề xuất một giải pháp gom nhóm đặc trưng đồng nghĩa cũng dựa
trên phân lớp bán giám sát. Tuy nhiên, so với [26], mô hình của chúng tôi có các điểm
khác biệt: Thứ nhất, chúng tôi không tạo một tập huấn luyện bằng tay để tạo ra một bộ
phân lớp như [26], mà thay vào đó, tập huấn luyện này được tạo một cách tự động nhờ áp
dụng thuật toán phân cụm HAC. Thứ hai, chúng tôi không sử dụng từ điển đồng nghĩa,
mà thay vào đó là một từ điển Việt-Việt cùng các đánh giá của khách hàng để tạo tập
huấn luyện. Thứ ba, phương pháp phân lớp bán giám sát mà chúng tôi sử dụng là SVM-
kNN, trong khi phương pháp được sử dụng trong [26] là EM.
Tóm tắt chương một
Trong chương này, khóa luận giới thiệu khái quát về bài toán gom nhóm đặc trưng
đồng nghĩa trong khai phá quan điểm khách hàng theo đặc trưng. Khóa luận cũng trình
bày một số hướng giải quyết của bài toán trên thế giới cũng như giải pháp hiện thời của
chúng tôi.
Từ những phân tích về khó khăn khi giải quyết bài toán trên miền tiếng Việt cùng
với các điểm hạn chế về giải pháp hiện thời cũng như hạn chế về việc sử dụng từ điển
12
đồng nghĩa, chúng tôi đề xuất một giải pháp gom nhóm đặc trưng “đồng nghĩa” sử dụng
phương pháp phân lớp bán giám sát SVM-kNN kết hợp phân cụm HAC.
Chương tiếp theo giới thiệu phương pháp phân lớp bán giám sát SVM-kNN – là
một phương pháp phân lớp bán giám sát cho kết quả cao do Kunlun Li và cộng sự đề xuất
năm 2010.
13
Chương 2. Phân lớp bán giám sát SVM-kNN
2.1. Một số nội dung cơ bản về phân lớp bán giám sát
2.1.1.Khái niệm
a. Học bán giám sát
Học bán giám sát là một mô hình học máy liên quan đến việc tận dụng các dữ liệu
chưa gán nhãn để xây dựng các bộ phân lớp và các bộ hồi qui tốt hơn (A. B. Goldberg,
2010, [4]). Học bán giám sát là việc học trên cả dữ liệu đã và chưa được gán nhãn. Từ
một số luợng lớn các dữ liệu chưa được gán nhãn, và một luợng nhỏ dữ liệu đã được gán
nhãn ban đầu (thuờng gọi là seed set) để xây dựng một bộ phân lớp thậm chí là tốt hơn.
Trong quá trình học như thế, phương pháp sẽ tận dụng được những thông tin phong phú
của dữ liệu chưa gán nhãn (unlabeled data), mà chỉ yêu cầu một số luợng nhỏ các dữ liệu
đã gán nhãn (labeled data ) [25, 26, 1]. Như tổng hợp của X.J. Zhu, 2008 [25], học bán
giám sát nhận được sự quan tâm đặc biệt của cộng đồng nghiên cứu về học máy.
Theo X.J. Zhu, 2008 [25], X. Zhu và A. B. Goldberg, 2009 [26], học bán giám sát
có thể được xem là:
• Học giám sát (tất cả các dữ liệu đều đã được gán nhãn) cộng thêm dữ liệu
chưa gán nhãn.
• Học không giám sát (tất cả các dữ liệu đều chưa được gán nhãn) cộng thêm
dữ liệu gãn nhãn.
Trên thực tế, hầu hết các chiến lược học bán giám sát dựa trên việc mở rộng học
giám sát hoặc học không giám sát đều chứa thêm thông tin của mô hình học khác [4].
Nhiệm vụ chính của học bán giám sát chính là mở rộng tập các dữ liệu gán nhãn
ban đầu [25, 26, 1]. Phương pháp học này được cung cấp một số thông tin giám sát,
nhưng chỉ trên một số ví dụ mà không nhất thiết phải trên tất cả dữ liệu.
Việc học bán giám sát sẽ là hữu ích khi có nhiều dữ liệu không gán nhãn hơn là dữ
liệu gãn nhãn. Trong thực tế, tồn tại nhiều dữ liệu không gán nhãn hơn là dữ liệu gán
nhãn; bởi vì dữ liệu không gãn nhãn có thể dễ dàng được thu thập với chi phí thấp, nhưng
công việc gãn nhãn cho các dữ liệu lại tốn rất nhiều thời gian, công sức và tiền bạc [4, 7,
14
25, 26]. Chính vì khả năng tận dụng cả dữ liệu đã gán nhãn để đạt được kết quả cao hơn
học giám sát nên học bán giám sát mang giá trị thực tiễn cao [5].
b. Phân lớp bán giám sát
Phân lớp bán giám sát đang là một lĩnh vực nhận được nhiều sự quan tâm trong cả
lý thuyết và thực tiễn [25]. Phân lớp bán giám sát là một dạng đặc biệt trong bài toán phân
lớp [26]. Nó sử dụng cả dữ liệu chưa gán nhãn, và dữ liệu đã gán nhãn – điều này chính là
một sự mở rộng so với bài toán phân lớp giám sát.
Giả sử tập dữ liệu huấn luyện bao gồm l ví dụ đã gán nhãn 1{(x ,y )}l
i i i= , trong đó yi
là nhãn tương ứng với vị dụ xi; và u ví dụ chưa gán nhãn 1{x }l u
j j l
+
= + . Trong phân lớp bán
giám sát, số lượng dữ liệu chưa gán nhãn là lớn hơn nhiều so với dữ liệu đã gán nhãn, tức
là u >> l. Mục tiêu của phân lớp bán giám sát là huấn luyện một bộ phân lớp f từ l và u;
trong khi đó, phân lớp giám sát lại tạo ra một bộ phân lớp chỉ từ những dữ liệu đã gãn
nhãn. Trong quá trình học, việc phân lớp bán giám sát sẽ tận dụng được những thông tin
phong phú của dữ liệu chưa gãn nhãn, mà chỉ yêu cầu một số lượng rất nhỏ các dữ liệu đã
gãn nhãn.
2.1.2. Các phương pháp phân lớp bán giám sát điển hình
Các thuật toán bán giám sát đã và đang được phát triển một cách nhanh chóng
trong những năm gần đây. Hiện nay, có rất nhiều phương pháp học bán giám sát như:
self-learning và self-labeling – là hai trong số những phương pháp phân lớp bán giám sát
sớm nhất, chúng vẫn được sử dụng rộng rãi trong lĩnh vực xử lý ngôn ngữ tự nhiên; hoặc
phương pháp SSSVM (SVM bán giám sát) với ý tưởng tìm một biên quyết định trong các
vùng mật độ thấp; hay phương pháp dựa trên đồ thị - phương pháp này xây dựng một đồ
thị có trọng số trên những ví dụ đã gán nhãn và ví dụ chưa gán nhãn và giả thiết rằng giữa
hai ví dụ có một kết nối mạnh thì có khuynh hướng có cùng nhãn và giải quyết bài toán
tối ưu hóa; một phương pháp phân lớp bán giám sát khác là sử dụng mô hình sinh, hỗn
hợp phân bố Gaussian trong thuật toán EM (K. Li và cộng sự, 2010 [167).
Vì vậy, trước khi quyết định lựa chọn phương pháp học cho một bài toán cụ thể
cần phải xem xét các giả thiết của mô hình. Theo [25], nên sử dụng phương pháp học mà
giả thiết của nó phù hợp với cấu trúc của bài toán. Việc lựa chọn này có thể là khó khăn
trong thực tế, tuy nhiên có thể thử các gợi ý sau: Nếu các lớp tạo ra dữ liệu có tính phân
15
cụm cao thì EM với mô hình trộn sinh có thể là một sự lựa chọn tốt; nếu các thuộc tính
có sự phân chia tự nhiên thành hai tập thì co-training có thể phù hợp; nếu hai mẫu dữ liệu
với các thuộc tính tương tự nhau hướng tới thuộc về cùng một lớp thì có thể sử dụng các
phương pháp dựa trên đồ thị; nếu các bộ phân lớp giám sát được xây dựng từ trước là
phức tạp và khó sửa đổi thì self-training sẽ là một lựa chọn ưu tiên.
Hiệu quả của những thuật toán phân lớp bán giám sát phụ thuộc vào chất lượng
của các ví dụ gán nhãn được thêm vào ở mỗi vòng lặp và được đánh giá dựa trên hai tiêu
chí [4, 25]:
- Các ví dụ được thêm vào phải được gán nhãn một cách chính xác.
- Các ví dụ được thêm vào phải mang lại thông tin hữu ích cho bộ phân lớp (hoặc
dữ liệu huấn luyện).
2.2. Phương pháp luận SVM-kNN dựa trên học bán giám sát
Khóa luận này tập trung nghiên cứu việc nhóm các đặc trưng đồng nghĩa trong
khai phá quan điểm dựa trên phân lớp bán giám sát SVM-kNN. Phương pháp phân lớp
bán giám sát SVM-kNN tỏ ra rất hiệu quả trong bài toán phân lớp nếu chọn các tham số
phù hợp. Phương pháp này có độ chính xác cao hơn so với thuật toán phân lớp SVM bởi
vì nó thực hiện việc cải tiến độ chính xác của mỗi bộ phân lớp SVM qua nhiều lần lặp
[16]. Trước hết, chúng tôi xin giới thiệu về thuật toán SVM, kNN và sau đó trình bày các
bước trong SVM-kNN.
2.2.1. Thuật toán máy vector hỗ trợ (SVM)
Giải thuật Máy vector hỗ trợ (SVM) dựa trên nguyên lý tối thiểu hóa rủi ro cấu
trúc (Structural Risk Minimization) trong lý thuyết thống kê (T. Joachims, 1997, [16]).
Xét bài toán phân lớp văn bản thành các lớp mẫu dương và mẫu âm: Cho một tập huấn
luyện các cặp (xi, yi), i = 1, …, l; trong đó xi∈ Rn
là không gian vector đặc trưng n chiều;
yi∈ {-1, 1}, các mẫu dương là các mẫu xi thuộc lĩnh vực quan tâm và được gán nhãn yi = 1
và các mẫu âm là các mẫu xi không thuộc lĩnh vực quan tâm và được gán nhãn yi = −1.
Bài toán đặt ra là khi đưa ra một vector đặc trưng x mới, cần dự đoán được y sao cho khả
năng lỗi xảy ra là tối thiểu.
16
a.Trường hợp khả tách tuyến tính
Trong trường hợp này, bộ phân lớp SVM là mặt siêu phẳng phân tách các mẫu
dương khỏi các mẫu âm với lề cực đại, được xác định bằng khoảng cách giữa các mẫu
dương và các mẫu âm gần mặt siêu phẳng lề tối ưu nhất (hình 5). Các mặt siêu phẳng
trong không gian đối tượng có phương trình là wT
x + b = 0, trong đó w là vector pháp
tuyến, b là tham số mô hình phân lớp. Khi thay đổi w và b, hướng và khoảng cách từ gốc
tọa độ đến mặt siêu phẳng thay đổi.
Hình 5: Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm
Bộ phân lớp SVM được định nghĩa như sau: f(x) = sign(wT
x + b)(1.1), trong đó:
sign(z) = +1 nếu z ≥ 0 và sign(z) = −1 nếu z < 0.
Nếu f(x) = +1 thì x thuộc về lớp dương, và ngược lại, nếu f(x) = −1 thì x thuộc
về lớp âm.
Mục tiêu của phương pháp SVM là ước lượng w và b để cực đại hóa lề giữa các
lớp dữ liệu dương và âm.Các giá trị khác nhau của lề cho ta các họ mặt siêu phẳng khác
nhau, và lề càng lớn thì lỗi tổng quát hóa của bộ phân lớp càng giảm.
Tập dữ liệu huấn luyện là khả tách tuyến tính, ta có các ràng buộc sau:
wT
xi + b ≥ +1 nếu yi = +1 (1.2)
wT
xi + b ≤ −1 nếu yi = −1 (1.3)
Hai mặt siêu phẳng có phương trình là wT x + b = ±1 được gọi là các mặt siêu
phẳng hỗ trợ (các đường nét đứt trên hình 5).
17
Để xây dựng một mặt siêu phẳng lề tối ưu thì:
- Vector w sẽ được tính:
w =
1
N
i i i
i
y xα
=
∑ (1.4)
- Tham số b được xác định sử dụng điều kiện Karush–Kuhn–Tucker(KKT) như
sau:
αi [ yi (wT
xi + b) – 1] = 0 (1.5)
Các mẫu xi tương ứng với αi> 0 là những mẫu nằm gần mặt siêu phẳng quyết định
nhất (thỏa mãn dấu đẳng thức trong (1.2), (1.3)) và được gọi là các vector hỗ trợ. Những
vector hỗ trợ là những thành phần quan trọng nhất của tập dữ liệu huấn luyện. Bởi vì nếu
chỉ có các vector hỗ trợ, ta vẫn có thể xây dựng mặt siêu phẳng lề tối ưu như khi có một
tập dữ liệu huấn luyện đầy đủ.
b. Trường hợp không khả tách tuyến tính
Với dữ liệu huấn luyện không khả tách tuyến tính thì ta có thể giải quyết theo hai
cách.
Cách thứ nhất sử dụng một mặt siêu phẳng lề mềm, nghĩa là cho phép một số mẫu
huấn luyện nằm về phía sai của mặt siêu phẳng phân tách hoặc vẫn ở vị trí đúng nhưng
rơi vào vùng giữa mặt siêu phẳng phân tách và mặt siêu phẳng hỗ trợ tương ứng. Trong
trường hợp này, các hệ số Lagrange của bài toán quy hoạch toàn phương có thêm một cận
trên C dương - tham số do người sử dụng lựa chọn. Tham số này tương ứng với giá trị
phạt đối với các mẫu bị phân loại sai.
Cách thứ hai sử dụng một ánh xạ phi tuyến Φ để ánh xạ các điểm dữ liệu đầu vào
sang một không gian mới có số chiều cao hơn.
Trong không gian này, các điểm dữ liệu trở thành khả tách tuyến tính, hoặc có thể
phân tách với ít lỗi hơn so với trường hợp sử dụng không gian ban đầu. Một mặt quyết
định tuyến tính trong không gian mới sẽ tương ứng với một mặt quyết định phi tuyến
trong không gian ban đầu.
Với k là một hàm nhân thoản mãn:
k(xi, xj) = Φ(xi)T
. Φ(xj) (1.6)
18
Nếu chọn một hàm nhân phù hợp, ta có thể xây dựng được nhiều bộ phân loại khác
nhau. Có một số hàm nhân cơ bản sau đây:
- Hàm nhân đa thức:
k(xi, xj) = deg
( amma.x oef0)T ree
i jg x c+
(1.7)
- Hàm vòng RBF (Radial Basic Function):
2
( , ) exp( .| | )i j i jk x x gamma x x= − −
(1.8)
- Hàm chữ S Sigmoid:
k(xi, xj) = tan( . . oef0)T
i jgamma x x c+
(1.9)
trong đó gamma, coef0 và degree là các tham số nhân.
2.2.2. Thuật toán K người láng giềng gần nhất (kNN)
Bộ phân lớp dựa trên thuật toán K người láng giềng gần nhất là một bộ phânlớp
dựa trên bộ nhớ, đơn giản vì nó không phải thực hiện quá trình học mô hình, thay thế điều
đó, phương pháp cần sử dụng tất cả các đốitượng trong tập huấn luyện khi phân lớp cho
một đối tượng dữ liệu mới.
Để phân lớp cho một điểm dữ liệu mới x, trước hết bộphân lớp sẽ tính khoảng
cách từ điểm x đến tất cả các điểm dữ liệu trong tập huấnluyện. Qua đó tìm được tập
N(x, D, k) gồm k điểm dữ liệu mẫu có khoảng cách đến x là gần nhất. Ví dụ nếu các dữ
liệu mẫu được biểu diễn bởi không gian vector thì chúng ta có thể sử dụng khoảng cách
Euclian để tính khoảng cách giữa các điểm dữ liệu với nhau. Sau khi xác định được tập
N(x, D, k), bộ phân lớp sẽ gán nhãn cho điểm dữ liệu x bằng lớp chiếm đại đa số trong
tập N(x, D, k). Mặc dù rất đơn giản, nhưng thuật toán K người láng giềng gần nhất đã cho
kết quả tốt trong nhiều ứng dụng thực tế. Cũng như SVM, k-NN được xếp vào 10 thuật
toán khai phá dữ liệu điển hình nhất [24].
Để áp dụng thuật toán k-NN vào tài liệu văn bản, chúng ta sử dụng hàm tính trọng
số cho mỗi lớp theo biểu thức (2.1). Trong đó NC(x, D, k)là tập con chỉ chứa các đối tượng
thuộc lớp c của tập N(x, D, k).
'
'
( , , )
( | ) os( , )
cx N x D k
Score c x c x x
∈
= ∑ (2.1)
19
Khi đó tài liệu x sẽ được phân vào lớp c0nếu:
0( | ) ax{ ( | ), }score c x M score c x c C= ∈ (2.2)
Hình 6: Ví dụ về thuật toán kNN
Một ví dụ đơn giản về thuật toán kNN được minh họa trong hình 6. Trong đó, các
nút tròn màu đỏ thể hiện lớp A, các nút tam giác màu xanh nước biển thể hiện lớp B và
nút tròn màu xanh lá cây là nút chưa được gán nhãn. Với tham số k = 4, thuật toán sẽ tính
khoảng cách từ nút xanh lá cây đến 4 nút gần nó nhất. Nút xanh lá cây có khoảng cách
gần nhất đến 3 nút màu đỏ và 1 nút màu xanh biển.Từ hình có thể dễ dàng nhận thấy, nút
xanh lá cây sẽ thuộc vào lớp A.
Để chọn được tham số k tốt nhất cho thao tác phân loại, thuật toán cần được chạy
thử nghiệm trên nhiều giá trị k khác nhau, giá trị k càng lớn thì thuật toán càng ổn định và
sai sót càng thấp.
2.2.3. Phương pháp phân lớp bán giám sát SVM-kNN
Thuật toán SVM đã cho thấy được rất nhiều những ưu điểm vượt trội như SVM có
khả năng học độc lập với số chiều trong không gian đặc trưng, kết quả phân lớp khi sử
dụng thuật toán SVM là khá tốt kể cả trong không gian đặc trưng nhiều chiều. Tuy nhiên,
SVM có một nhược điểm là không cung cấp một ước lượng chính xác các biên quyết định
đúng nếu có ít dữ liệu đã được gán nhãn.
20
Trong suốt quá trình quyết định của phương pháp kNN chỉ liên quan đến số lượng
nhỏ các hàng xóm gần nhất, do đó việc áp dụng phương pháp này có thể tránh được vấn
đề về sự cân bằng giữa các ví dụ. Mặt khác, kNN chủ yếu phụ thuộc vào số lượng giới
hạn các hàng xóm gần nhất không phải xung quanh một biên quyết định, vì vậy, nó phù
hợp với việc phân lớp trường hợp tập các ví dụ có biên giao nhau và trường hợp có sự
chồng chéo giữa các ví dụ.
Từ những ưu và nhược điểm của hai thuật toán SVM và kNN, Hao Zhang,
Alexander C. Berg, Michael Maire và Jitendra Malik, 2006 [13] đã đề xuất một phương
pháp kết hợp hai thuật toán trên. Công trình là một trong những công trình điển hình sớm
nhất về phương pháp SVM-kNN. Ý tưởng cơ bản của phương pháp này là tìm các hàng
xóm gần với mẫu truy vấn và huấn luyện một máy vector hỗ trợ cục bộ. Máy vector hỗ
trợ cục bộ này duy trì hàm khoảng cách trên tập các hàng xóm. H. Zhang và cộng sự đã
chứng minh được rằng phương pháp này có thể áp dụng với tập dữ liệu lớn và đa lớp với
kết quả tốt hơn so với khi chỉ áp dụng thuật toán SVM hay kNN.
Sau đó, Kunlun Li và cộng sự, 2010 [17] đã đề xuất một phương pháp phân lớp
SVM-KNN dựa trên học bán giám sát nhằm cải tiến thuật toán SVM bằng cách tận dụng
những ưu điểm của thuật toán kNN đã nêu ra ở trên. Phương pháp này kết hợp thuật toán
SVM và kNN, trong đó có sử dụng những thông tin từ dữ liệu chưa gán nhãn – những
thông tin này có thể giúp khôi phục các biên quyết định đúng cho việc phân lớp. Trong
thuật toán SVM, các vector hỗ trợ quyết định các biên quyết định một cách trực tiếp,
trong khi các vector biên có thể là một ứng viên tốt cho vị trí vector hỗ trợ (hình 7), do đó,
phương pháp này sử dụng các vector biên để khắc phục các biên quyết định trong mỗi lần
lặp. Thuật toán kNN được dùng để gán nhãn các vector biên. Những vector biên cuối
cùng được trộn với các ví dụ huấn luyện khởi tạo để cải tiến độ chính xác của phân lớp.
Phương pháp này hiệu quả hơn so với phương pháp của H.Zhang và cộng sự [13]. Do đó,
trong khóa luận này, chúng tôi tập trung nghiên cứu phương pháp phân lớp bán giám sát
SVM-kNN do K.Li và cộng sự đề xuất năm 2010.
21
Hình 7: Minh họa vector hỗ trợ và vector biên
Tư tưởng bán giám sát trong SVM-kNN:
Tư tưởng chính của phương pháp này dựa trên lý thuyết học bán giám sát, sử dụng
cả dữ liệu đã gán nhãn và dữ liệu chưa gán nhãn cho quá trình phân lớp. Cụ thể là phương
pháp sử dụng số ít các dữ liệu đã gán nhãn để huấn luyện một bộ phân lớp SVM và sử
dụng bộ phân lớp SVM này để dự đoán dữ liệu chưa được gán nhãn. Từ những dữ liệu đã
được gãn nhãn trong tập huấn luyện và những dữ liệu vừa được dự đoán bởi SVM, chọn
ra những vector biên,và sử dụng những vector biên này để cải tiến bộ phân lớp SVM đó
bằng cách sử dụng kNN. Việc sử dụng kNN để phân lớp không chỉ làm giàu số lượng tập
huấn luyện, mà còn làm cải tiến được chất lượng của những ví dụ huấn luyện mới – chính
là những ví dụ được chuyển từ các vector biên ở trên. Cuối cùng, tập dữ liệu đã được gán
nhãn được mở rộng. Đây cũng chính là mục đích chính trong học bán giám sát.
Ba bước chính trong phương pháp SVM-kNN:
Đầu tiên, xây dựng một bộ phân lớp SVM yếu dựa trên một số ví dụ đã được gán
nhãn có sẵn (tập huấn luyện). Sử dụng bộ phân lớp SVM yếu này để dự đoán nhãn lớp
cho số lượng lớn các dữ liệu chưa được gán nhãn còn lại trong tập dữ liệu ban đầu. Từ
những ví dụ đã được gán nhãn đó, lấy ra t ví dụ thuộc về mỗi lớp, những ví dụ này đứng
xung quanh biên quyết định (các vector biên) bằng cách tính khoảng cách Euclidean trong
22
không gian đặc trưng. Như vậy có được những vector biên đã được gán nhãn bởi bộ phân
lớp SVM yếu.
Ở bước thứ hai, tiếp tục sử dụng tập các ví dụ huấn luyện ban đầu làm tập huấn
luyện để tạo ra bộ phân lớp dựa trên thuật toán kNN. Những vector biên được lấy ra từ
bước đầu tiên được coi như là tập kiểm tra cho bộ phân lớp được tạo ra bởi kNN. Các
nhãn mới do kNN gán sẽ được gán lại cho các vector biên đó.
Cuối cùng, những vector biên và nhãn mới này được đặt vào tập huấn luyện ban
đầu để làm giàu số lượng các ví dụ huấn luyện, và sau đó tiếp tục huấn luyện lại SVM.
Vòng lặp này kết thúc khi số lượng các ví dụ huấn luyện là k lần toàn bộ tập dữ liệu.
Hình 8: Miêu tả khái quát của mô hình đề xuất bởi Kunlun Li, Xuerong Luo
vàMing Jin[17]
Giả sử tập dữ liệu ban đầu là X gồm n ví dụ, trong đó có l ví dụ đã được gán nhãn
(l << n) và u=n-m ví dụ chưa được gán nhãn (l< u). Gọi L⊂ X là tập ví dụ đã gán nhãn
(||L||=l), U⊂X là tập ví dụ chưa gán nhãn (||U||=u). Giả sử xét bài toán phân lớp hai lớp (A
và B) và tập L chứa các ví dụ thuộc A và B. Chi tiết các bước trong phương pháp này như
sau:
23
1-Dùng tập dữ liệu có nhãn L làm ví dụ huấn luyện để xây dựng một phân lớp yếu
SVM1.
2-Sử dụng SVM1 để dự đoán lớp của tất cả dữ liệu trong U, sau đó chọn ra 2s
(1≤s≤5) ví dụ làm các vector biên:
a. Chọn một ví dụ xi thuộc lớp A và tính khoảng cách Euclide giữa xi với tất
cả ví dụ của lớp B, sau đó chọn ra s ví dụ của B tương ứng với s khoảng cách tối
thiểu.
b. Chọn một ví dụ yi thuộc lớp B và tính khoảng cách Euclide giữa yivới tất
cả ví dụ của lớp A, sau đó chọn ra s ví dụ của A tương ứng với s khoảng cách tối
thiểu.
c. Gọi 2s ví dụ trên là vectơ biên và tập 2s vector biên này hợp thành một bộ
dữ liệu kiểm tra mới.
3-Dùng thuật toán kNN với tập huấn luyện L để phân lớp 2s vector biên, các vectơ
biên sẽ nhận được nhãn mới.
4-Bổ sung 2s vector biên (cùng nhãn của của chúng) vào tập L tạo thành một tập
dữ liệu học mở rộng mới (L=L∪ {2s vector biên}) làm tập ví dụ huấn luyện để xây
dựng bộ phân lớp SVM2mới. Gán SVM2 cho SVM1.
5-Lặp đi lặp lại các bước từ 2-4 cho đến khi kích thước tập L (tập các ví dụcó
nhãn) bằng k (0 < k < 1) lần kích thước của X (toàn bộ bộ dữ liệu).
Kết quả của phương pháp bán giám sát do SVM-kNN do K.Li và cộng sự [17] đề
xuất có thể hỗ trợ các kết quả lý thuyết học thống kê kết hợp với dữ liệu chưa gán nhãn
nhằm cải tiến độ chính xác của bộ phân lớp khi thông tin huấn luyện là không đầy đủ. Để
có được kết quả tốt hơn thì có thể điểu chỉnh 3 tham số: k – số hàng xóm gần nhất, là
tham số trong bước 3, t – kích thước dữ liệu huấn luyện cần đạt so với kích thước tập toàn
bộ dữ liệu, s – số vector biên tùy theo điều kiện thực tiễn. Thực nghiệm của các tác giả
với 3 bộ dữ liệu: Iris, Breast cancer và Ionosphere cho thấy kết quả khi áp dụng phương
pháp bán giám sát SVM-kNN là khá tốt. Đặc biệt khi chọn tham số tốt, độ chính xác trên
tập dữ liệu iris lên tới 98.15%; trên tập Breast cancer khỏang 90% và trên tập Ionosphere
độ chính xác khoảng 80%. Bộ tham số s=4 (hoặc 5), k=5 và t=0.6 là hiệu quả nhất cho 3
bộ dữ liệu nói trên.
24
Tóm tắt chương hai:
Chương hai đã trình bày chi tiết thuật toán SVM, thuật toán kNN và phương pháp
phân lớp bán giám sát SVM-kNN. Phương pháp này đã cho thấy được những ưu điểm
vượt trội, cùng với một số kết quả thực nghiệm với độ chính xác cao. Đây là phương pháp
chúng tôi sử dụng để giải quyết bài toán gom nhóm đặc trưng sản phẩm.
Chương 3 sẽ trình bày chi tiết giải pháp đề xuất dựa trên thuật toán phân lớp bán
giám sát này để giải quyết bài toán gom nhóm các đặc trưng trong các đánh giá tiếng Việt
đối với các sản phẩm.
25
Chương 3. Giải pháp gom nhóm tự động đặc trưng sản phẩm tiếng
Việt
3.1. Một giải pháp gom nhóm đặc trưng sản phẩm tiếng Việt dựa trên
phân lớp bán giám sát SVM-kNN kết hợp phân cụm HAC
Hướng tiếp cận giải quyết bài toán dựa trên phân lớp bán giám sát EM được
Z.Zhai và cộng sự [27] nghiên cứu và phát triển. Tiếp cận theo cách này đã cho kết quả
khả quan khi giải quyết bài toán, với độ đo purity thuộc khoảng 0.66-0.70 và độ đo
accuracy thuộc khoảng 0.67-0.71. Tuy nhiên, việc tạo tập huấn luyện cho bộ phân lớp
EM khi thay đổi miền sản phẩm vẫn phải làm một cách thủ công.
Chính vì thế, chúng tôi đề xuất một giải pháp tự động gom nhóm đặc trưng sản
phẩm tiếng Việt dựa trên phân lớp bán giám sát SVM-kNN kết hợp phân cụm HAC.
Trong giải pháp này, chúng tôi không tạo một tập huấn luyện bằng tay để tạo ra một bộ
phân lớp khi thay đổi miền sản phẩm, mà thay vào đó, tập huấn luyện này được tạo một
cách tự động nhờ áp dụng thuật toán phân cụm HAC. Chúng tôi chọn thuật toán phân
cụm phân HAC vì đây là một thuật toán phân cấp cho phép người dùng đưa ra một
ngưỡng để dừng thuật toán nếu độ tương tự giữa 2 cụm nhỏ hơn ngưỡng này. Do đó,
những mẫu đã được đưa vào cụm có chất lượng tốt. Nhờ vậy mà phân lớp SVM-kNN
cũng sẽ có được kết quả cao.
Tư tưởng chính của giải pháp đề xuất như sau:
Các thể hiện đặc trưng sẽ được đưa vào các nhóm đặc trưng - cụm khác nhau, sao
cho các thể hiện đặc trưng trong cùng một cụm thì cùng chỉ đến một đặc trưng sản phẩm
nào đó, trong đó một cụm có thể có nhiều thể hiện đặc trưng nhưng một thể hiện đặc
trưng chỉ có thể thuộc vào một nhóm đặc trưng. Ví dụ, cụm “hình thức” có thể có nhiều
thể hiện đặc trưng như: “mẫu mã”, “thiết kế”, “kiểu cách”, “kiểu dáng”,… ; nhưng một
thể hiện đặc trưng “mẫu mã” chỉ thuộc vào một cụm “hình thức”. Vì hiện nay, tại Việt
Nam chưa có bộ từ điển đồng nghĩa, do đó độ tương tự giữa 2 thể hiện đặc trưng dùng
trong phân cụm HAC được tính dựa trên độ tương tự về ngữ nghĩa và ngữ cảnh của 2 thể
hiện đặc trưng đó. Ngữ nghĩa của mỗi thể hiện đặc trưng được thể hiện thông qua bộ từ
26
điển Việt-Việt. Ngữ cảnh của mỗi thể hiện đặc trưng được xác định bằng cách xem xét
các từ xuất hiện xung quanh thể hiện đặc trưng trong các đánh giá của khách hàng. Vì kết
quả phân cụm có thể có sai sót, nên chúng tôi đưa ra một ngưỡng cho trước. Ngưỡng này
được so sánh với độ đo tương đồng giữa 2 thể hiện đặc trưng nhằm tạo ra một tập huấn
luyện có độ chính xác cao. Sau khi áp dụng thuật toán HAC, thu được các cụm chứa các
thể hiện đặc trưng. Với cụm có nhiều hơn một thể hiện đặc trưng, nếu coi các cụm là các
nhãn lớp và các thể hiện đặc trưng là các mẫu, thì các mẫu này được xem là những mẫu
đã được gán nhãn.Với cụm chỉ có 1 thể hiện đặc trưng thì coi các mẫu này là những mẫu
chưa gán nhãn. Sử dụng những mẫu gán nhãn và chưa gán nhãn cùng với ngữ cảnh của
những mẫu này để áp dụng phân lớp bán giám sát SVM-kNN. Chi tiết các bước được biểu
diễn bởi mô hình hình 9.
Đầu vào:
- Tập các thể hiện đặc trưng
- Tập các đánh giá của khách hàng S đã được tách từ
Đầu ra:
- Tập các thể hiện đặc trưng cùng với nhóm đặc trưng tương ứng
Phát biểu bài toán: Coi mỗi thể hiện đặc trưng là một mẫu dữ liệu, mỗi nhóm đặc
trưng là một lớp. Cần xây dựng một bộ phân lớp SVM-kNN để phân lớp các mẫu dữ liệu
này vào các lớp khác nhau, thỏa mãn các mẫu dữ liệu thuộc cùng một lớp thì có một độ
tương tự nhất định về ngữ nghĩa và ngữ cảnh của miền sản phẩm nào đó, và mỗi mẫu chỉ
thuộc về một lớp nhưng một lớp có thể có nhiều mẫu.
Các pha chính:
1. Biểu diễn vector thể hiện đặc trưng
2. Tạo tập huấn luyện SVM-kNN
3. Phân lớp SVM-kNN
27
Hình 9: Mô hình đề xuất gom nhóm đặc trưng đồng nghĩa
Chi tiết về các bước trong mỗi pha cũng như chi tiết về giải pháp đề xuất được
trình bày ở mục 3.1, 3.2 và 3.3.
3.2. Pha 1: Biểu diễn vector thể hiện đặc trưng
Khóa luận tập trung xây dựng một mô hình gom nhóm đặc trưng đồng nghĩa, trong
đó, các đặc trưng được xác định là đồng nghĩa dựa trên ngữ nghĩa và ngữ cảnh của những
đặc trưng đó. Để áp dụng được thuật toán phân lớp bán giám sát SVM-kNN và phân cụm
HAC, cần phải có 1 tài liệu ti để thể hiện ngữ nghĩadivà ngữ cảnhcicho mỗi thể hiện đặc
trưng ei. tiđược tạo thành bởi việc kết hợp ngữ nghĩa của thể hiện đặc trưng trong từ điển
Việt – Việt và ngữ cảnh của các câu sij trong tập S mà chứa thể hiện đặc trưng ei. Chính vì
vậy, chúng tôi biểu diễn một thể hiện đặc trưng dưới dạng một vector thông qua ngữ
nghĩa và ngữ cảnh của thể hiện đặc trưng đó.
28
3.2.1. Xác định ngữ nghĩa của các thể hiện đặc trưng.
Việc xác định ngữ nghĩa của các thể hiện đặc trưng eidựa trên định nghĩa của
những từ đó trong từ điển Việt-Việt.Chúng tôi sử dụng từ điển Việt – Việt trên website
http://www.tratu.vn. Thuật toán trích xuất ngữ nghĩa của các thể hiện đặc trưng là khá đơn
giản.
Ví dụ, từ thể hiện đặc trưng “kiểu dáng” được định nghĩa trong từ điển là:
Nghĩa = “hình dáng bên ngoài được làm theo một mẫu, một kiểu, phân biệt với
các kiểu khác (nói khái quát)”.Do đó, ngữ nghĩa của từ “kiểu dáng” là cặp <kiểu dáng,
Nghĩa>.
Với những từ có nhiều nghĩa, chúng tôi thực hiện trích xuất tất cả các nghĩa của từ
đó. Ví dụ, từ thể hiện đặc trưng “hình ảnh” có 2 nghĩa trong từ điển Việt – Việt, là:
Nghĩa 1 = “hình người, vật, cảnh tượng thu được bằng khí cụ quang học (như máy
ảnh), hoặc để lại ấn tượng nhất định và tái hiện được trong trí”.
Nghĩa 2 = “khả năng gợi tả sinh động trong cách diễn đạt”.
Ngữ nghĩa trong trường hợp này là 2 cặp <hình ảnh, Nghĩa 1>và <hình ảnh, Nghĩa
2>.
Đầu vào: Thể hiện đặc trưng
Đầu ra: Ngữ nghĩa của thể hiện đặc trưng đầu vào
Các bước:
1. Truy vấn vào trang http://tratu.vn/dict/vn_vn/ để lấy mã nguồn trang chứa
ngữ nghĩa của từ
2. Phân tích mã nguồn trang web để tìm được ngữ nghĩa của từ
3. Duyệt với mỗi 1 ngữ nghĩa tìm được
3.1. Nếu kết quả chứa "như 'từ khóa' "
thì "Thực hiện lại việc tìm nghĩa của 'từ khóa' mới"
3.2. Nếu không thì "thêm ngữ nghĩa vào nghĩa của từ ban đầu"
4. Trả về ngữ nghĩa của từ
29
Sau đó, tiến hành loại bỏ từ dừng (do từ dừng không mang lại ý nghĩa cho câu) và
tách từ.Khi đó, thể hiện đặc trưng và nghĩa tương ứng được biểu diễn thông qua một tập
các từ. Ở ví dụ về từ “kiểu dáng” trên, ngữ nghĩa của nó được biểu diễn là:
di = <kiểu dáng, hình dáng, bên ngoài, mẫu, kiểu, phân biệt, kiểu, khái quát>
3.2.2. Xác định ngữ cảnh của thể hiện đặc trưng
Khóa luận này xem xét ngữ cảnh của mỗi câu là những từ xuất hiện xung quanh
thể hiện đặc trưng ei trong cửa sổ [-a,a], a∈Z*
và chính bản thân ei. Để làm rõ khái niệm
ngữ cảnh này, xem xét ví dụ sau đây:
Một thể hiện đặc trưng từ tập S đã trích xuất được là ei = “pin”. Trong tập S có 3
câu chứa từ “pin” là:
si1= “pin không được lâu lắm”.
si2= “thấy pin hơi yếu nên chỉ lo lắng cái pin”.
si3 = “pin mau hết quá”.
Ngữ cảnh của câu si1 được thể hiện thông qua các từ<pin, không, được, lâu>.
Tương tự với câu si2 và si3, có được ngữ cảnh của chúng là<thấy, pin, hơi, yếu > và <pin,
mau, hết>. Cuối cùng, thu được ngữ cảnh cho thể hiện đặc trưng ei là:
ci = <pin, không, được, lâu, thấy, pin, hơi, yếu, pin, mau, hết>
3.2.3. Biểu diễn thể hiện đặc trưng dưới dạng vector
Mỗi một thể hiện đặc trưng được thể hiện thông qua ngữ nghĩa và ngữ cảnh đã
trích xuất được của chúng. Trước khi bước vào qúa trình phân lớp cho các thể hiện đặc
trưng này, chúng tôi thực hiện việc biểu diễn thể hiện đặc trưng dưới dạng vector. Coi tập
D gồm có m văn bản, là m cặp <thể hiện đặc trưng, nghĩa>. Mỗi văn bản cần được biểu
diễn trong một không gian nhiều chiều, trong đó mỗi chiều tương ứng với một từ. Như
vậy:
- Số chiều trong không gian chính là số từ xuất hiện tập D. Tập các từ này được gọi
là tập từ vựng.
- Giá trị của mỗi chiều trong không gian vector là trọng số được đánh cho từ đó
trong tập D.
30
Có hai phương pháp đánh trọng số cho từ điển hình, là phương pháp Boolean và
phương pháp dựa trên tần số [3]. Phương pháp dựa trên tần số xác định được độ quan
trọng của mỗi từ trong mỗi văn bản tốt hơn so với phương pháp Boolean do dựa trên tần
số xuất hiện của những từ vựng trong văn bản và tần số xuất hiện của văn bản trong tập
D. Do vậy, chúng tôi sử dụng phương pháp đánh trọng số dựa trên tần số để áp dụng
trong khóa luận này. Một phương pháp chuẩn thường được sử dụng dựa trên phương pháp
đánh trọng số dựa trên tần số là Term Frequency Inverse Document Frequency (TFIDF).
Đây cũng là công thức được lựa chọn cho khóa luận trong việc tính trọng số cho các từ.
Hàm tính trọng số được xác định bởi công thức:
, ,
| |
*log( )l d l d
l
D
TFIDF freq
df
=
Trong đó, tần xuất từ l trong văn bản d : freql,d là số lần xuất hiện của từ l trong
văn bản d.
Tần xuất văn bản dfl là số văn bản trong D có chứa từ l .
Trọng số TFIDF của một từ mục biểu diễn độ quan trọng của từ mục.TFIDF của một từ
mục trong một tài liệu sẽ giảm nếu như từ đó xuất hiện trong hầu hết các văn bản. Vì vậy,
một từ xuất hiện quá ít hoặc quá nhiều được đánh giá ít quan trọng hơn so với các từ xuất
hiện cân bằng.
3.3. Pha 2: Tạo tập huấn luyện cho bộ phân lớp SVM-kNN
Giải pháp đề xuất cho bài toán gom nhóm đặc trưng đồng nghĩa dựa trên phương
pháp phân lớp bán giám sát SVM-kNN, tức là cần phải xây dựng một bộ phân lớp SVM-
kNN từ dữ liệu đã được gán nhãn và dữ liệu chưa được gán nhãn. Các dữ liệu đã được
gán nhãn đó được gọi là tập huấn luyện.Thông thường, để tạo tập huấn luyện cho bộ phân
lớp SVM-kNN, dữ liệu chưa được gán nhãn cần phải được gán nhãn thủ công. Mặc dù,
đối với phân lớp bán giám sát thì chỉ cần số lượng dữ liệu được gán nhãn ít hơn nhiều so
với dữ liệu chưa được gán nhãn. Tuy nhiên, công việc gán nhãn vẫn tốn khá nhiều thời
gian và công sức. Do vậy, chúng tôi đề xuất một phương pháp trong việc tạo tập huấn
luyện cho bộ phân lớp SVM-kNN một cách tự động, không đòi hỏi việc gán nhãn thủ
công – Đó là sử dụng thuật toán phân cụm phân cấp tích tụ từ dưới lên (Hierarchyical
Agglomerative Clustering – HAC).
31
Tư tưởng chính của thuật toán HAC:
Thuật toán HAC là thuật toán phân cụm được sử dụng rất rộng rãi và được tích
hợp vào các ứng dụng thu thập thông tin [3]. Đầu tiên, mỗi mẫu dữ liệu được coi như một
cụm phân biệt.Sau đó, tiến hành ghép lần lượt hai cụm giống nhau nhiều nhất hay khác
nhau ít nhất làm một.Việc làm này được tiếp tục cho đến khi tất cả các cụm được ghép
vào một cụm duy nhất chứa tất cả các mẫu.Hình 10 và hình 11 minh họa các mẫu dữ liệu
trước và sau quá trình phân cụm.
Hình 10: Sơ đồ các phần tử trước khi phân cụm
Hình 11: Sơ đồ các phần tử sau khi phân cụm phân cấp tích tụ từ dưới lên – HAC
32
Mục 3.2.1 và 3.2.2 sẽ trình bày chi tiết việc áp dụng thuật toán HAC cho bài toán
gom nhóm đặc trưng đồng nghĩa trong các đánh giá tiếng Việt của khách hàng.
3.3.1. Quá trình phân cụm
Các tham số dùng trong quá trình phân cụm HAC:
G là tập hợp các cụm.
D là tập hợp các cặp <thể hiện đặc trưng, nghĩa> cần phân cụm. Gọi mỗi cặpnày là
1 văn bản.
là ngưỡng để cắt cây phân cấp HAC tìm ra được số cụm, tương ứng là số nhóm
đặc trưng.
Các bước trong quá trình phân cụm:
Độ đo tương tự sử dụng trong quá trình phân cụm:
- Độ tượng tự giữa 2 cụm đơn (cụm chỉ chứa 1 văn bản)sử dụng độ đo Euclide,
được định nghĩa:
sim (d1 , d2) = cos (d1 , d2)
Trường hợp 1 thể hiện đặc trưng có nhiều nghĩa thì như vậy cụm chứa thể hiện đặc
trưng đó có thể tương tự với nhiều cụm khác nhau. Để tránh trường hợp này, chúng tôi chỉ
xét 1 thể hiện đặc trưng chỉ thuộc 1 cụm nào mà có độ tương tự cao nhất trong các độ
tương tự ứng với từng nghĩa của thể hiện đặc trưng đó với những thể hiện đặc trưng khác.
1. G {{d} | d thuộc S } (Khởi tạo G là tập các cụm chỉ gồm 1 cặp <thể
hiện đặc trưng, nghĩa>
2. Tìm 2 cụm Si và Sj thuộc G sao cho:
(i , j) = arg max(i , j) sim (Si , Sj)
(Tìm 2 cụm có độ tương tự lớn nhất)
3. Nếu sim (Si, Sj) < thì dừng thuật toán. (Độ tương tự của 2 cụm nhỏ hơn
ngưỡng cho phép)
4. Loại bỏ Si, Sj khỏi G
5. G = G {Si, Sj}
6. Chuyển đến bước 2
33
Nói cách khác, nếu gọi I = (di1, di2, …, din) là các nghĩa của tài liệu di và J = (dj1, dj2, …,
djm) là các nghĩa của tài liệu dj thì độ tương tự được tính bởi:
,( , ) ax os( , )it jki j d I d J it jksim d d m c d d∈ ∈=
- Độ tương tự giữa 2 cụm không đơn S1 và S2 (cụm chứa nhiều hơn 1 văn bản)
được tính dựa trên một số phương pháp tính độ tương tự như:
+ Đo độ tương tự giữa trọng tâm c1, c2của S1và S1:
sim(S1, S2) = sim(c1, c2)
+ Đo độ tương tự cực đại giữa 2 văn bản thuộc vào 2 cụm (hay còn gọi là single-
link):
sim(S1, S2) = max 1 1 2 2,d S d S∈ ∈ sim (d1, d2)
+ Đo độ tương tự cực tiểu giữa 2 mẫu thuộc vào 2 cụm (hay còn gọi là complete-
link):
sim(S1, S2) = min 1 1 2 2,d S d S∈ ∈ sim (d1, d2)
+ Đô độ tương tự trung bình giữa các mẫu trong 2 cụm (hay còn gọi là group-
average):
1 1 2 2
1 2 1 2
,1 2
1
( , ) ( , )
| || | d S d S
sim S S sim d d
S S ∈ ∈
= ∑
Theo [3], độ đo group-average tránh được những trường hợp không mong muốn
gặp phải như các độ đo còn lại, như : Độ đo single-link mang tính cục bộ, do vậy chất
lượng phân cụm có thể sẽ kém nếu có trường hợp chỉ có duy nhất 2 văn bản ở trong 2
cụm là gần nhau, còn các văn bản còn lại trong 2 cụm là ở rất xa nhau. Độ đo complete-
link, tương tự với độ đo single-link, chất lượng phân cụm có thể sẽ kém nếu có trường
hợp chỉ có duy nhất 2 văn bản ở trong 2 cụm là xa nhau, còn các văn bản còn lại trong 2
cụm là ở rất gần nhau. Hơn nữa, cả 2 độ đo này có thể tạo ra các cụm không mong muốn
do đều đánh giá độ tương tự của 2 cụm dựa trên một cặp văn bản duy nhất. Độ tương tự
giữa trọng tâm của các cụm từ dưới lên trên cây phân cấp có thể là không giảm dần. Điều
này trái ngược với giả thuyết cơ bản là các cụm nhỏ thường có độ kết dính cao hơn các
cụm có kích thước lớn hơn.
34
Từ những nhận xét trên, khóa luận này tập trung sử dụng độ đo Euclide để tính độ
tương tự giữa 2 cụm đơn và độ đo group-avarage để tính toán độ tương tự giữa 2 cụm
không đơn.
3.3.2. Gán nhãn cho các cụm
Việc gãn nhãn cho cụm là một việc đóng vai trò quan trọng trong giải pháp đề xuất
của chúng tôi. Bởi vì, việc quyết định gãn nhãn cho cụm sẽ ảnh hưởng trực tiếp đến tên
lớp cho bộ phân lớp sau đó. Như vậy, nếu gãn nhãn cho các cụm không tốt sẽ gây ra một
tên lớp không tốt và do đó tên của nhóm đặc trưng cũng sẽ không phù hợp. Khóa luận này
sử dụng phương pháp gán nhãn cho các cụm là chọn các từ khóa có trọng số (tần suất)
cao làm nhãn cho cụm. Phương pháp này không quan tâm đến nội dung của các cụm khác
mà chỉ quan tâm đến bản thân nội dụng của cụm.
Như vậy, sau pha 1, thu được các thể hiện đặc trưng nằm trong cụm đơn và các thể
hiện đặc trưng nằm trong cụm không đơn.
3.3.Pha 2: Phân lớp bán giám sát SVM-kNN
Tập những thể hiện đặc trưng nằm trong cụm không đơn được coi là tập các mẫu
huấn luyện đã gán nhãn, và tập những thể hiện đặc trưng nằm trong cụm đơn là tập các
mẫuchưa gán nhãn cho bộ phân lớp SVM-kNN. Bộ phân lớp bán giám sát SVM-kNN sẽ
học trên cả những mẫu chưa được gán nhãn và mẫu đã được gán nhãn đó.
Quá trình phân lớp bán giám sát SVM-kNN trong bài toán gom nhóm đặc trưng
dựa trên cơ sở phương pháp phân lớp bán giám sát SVM-kNN do Kunlun Li và cộng sự
[17] đề xuất đã được trình bày trong khóa luận ở chương 2. Tuy nhiên, để có được kết quả
tốt hơn, thay vì sử dụng những vector biên làm tập kiểm tra cho bộ phân lớp kNN, chúng
tôi sử dụng các vector hỗ trợ làm tập kiểm tra, vì các vector hỗ trợ là những mẫu dữ liệu
có độ tin cậy cao.Nhờ vậy mà kết quả của bộ phân lớp SVM cuối cùng sẽ cao hơn nhiều.
Quá trình phân lớp bán giám sát SVM-kNN sử dụng thuật toán học giám sát SVM
và học giám sát kNN cơ bản. Nhiệm vụ của thuật toán SVM trong phương pháp này là tạo
ra một bộ phân lớp SVM yếu từ những mẫu đã được gán nhãn.Sử dụng vector hỗ trợ để
cải tiến bộ phân lớp SVM yếu này bằng cách áp dụng thuật toán kNN.Sau đó, khi có được
tập huấn luyện đã được gán nhãn đã được làm giàu bởi kNN, tiếp tục huấn luyện tập mẫu
đã được gán nhãn đó sử dụng SVM.Nhiệm vụ của thuật toán kNN không chỉ làm giàu số
35
lượng tập huấn luyện đã được gán nhãn mà còn cải tiến chất lượng của những mẫu đã
được gán nhãn mới. Thuật toán phân lớp bán giám sát SVM-kNN cho bài toán gom nhóm
đặc trưng trở thành như sau:
Đầu vào:
L: Tập các mẫu huấn luyện đã gán nhãn
c: Số lượng cụm sau bước 1 (số nhóm đặc trưng)
U: Tập các mẫu chưa gán nhãn
SVM: Thuật toán học giám sát SVM cơ bản
kNN: Thuật toán học kNN cơ bản
s: số vector hỗ trợ cần lấy ở mỗi lớp
t: kích thước tập mẫu cần đạt
Thuật toán:
1. Dùng thuật toán SVM với tập ví dụ có nhãn L để tạo bộ phân lớp SVM1.
2. Lặp cho đến khi ||L|| ≥ t * ||L∪U||
Begin
2.1. Cho SVM1 gán nhãn các mẫu trong U.
2.2. Lấy s*c vector hỗ trợ từ U làm tập dữ liệu test cho thuật toán
kNN ở bước 4.
2.3. Dùng thuật toán kNN với tập ví dụ huấn luyện L gán nhãn lại cho
s dữ liệu test. Gọi tập s ví dụ có nhãn này là NEW.
2.4. L ← L ∪ NEW; U ← U  NEW (Cập nhật lại hai tập L và U theo
Chuyển các mẫu đã được gán nhãn lại vào tập huấn luyện L được
tập L’
.
2.5. Dùng thuật toán SVM với tập ví dụ có nhãn L để tạo ra bộ phân
lớp SVM2
2.6. SVM1 ← SVM2.
End
3. Dùng bộ phân lớp SVM2 gán nhãn cho mọi ví dụ thuộc tập U.
36
Quá trình phân lớp bán giám sát SVM-kNN dừng lại khi số dữ liệu đã được gán
nhãn không nhỏ thua t (0 < m < 1) phần tổng số dữ liệu. Sau đó bộ phân lớp SVM2 tiến
hành gán nhãn cho tất cả các dữ liệu chưa gán nhãn còn lại.
Vì thuật toán S3VM-kNN gốc trong [16] chỉ làm việc với số nhãn lớp là 2 cho nên
thuật toán SVM cơ sở trong mô hình của chúng tôi phải làm việc được với số lớp (tương
ứng với số nhóm đặc trưng) lớn hơn. Để giải quyết bài toán SVM đa lớp, theo Jagath C.
Rajapakse, Limsoon Wong và Raj Acharya, 2006 [15], có hai hướng tiếp cận: một là xử
lý trực tiếp tất cả các dữ liệu trên một công thức tối ưu hóa; hai là phân tích đa lớp thành
một chuỗi các SVM nhị phân. Ở cách tiếp cận thứ hai, có khác nhiều chiến lược phù hợp,
tuy nhiên, 3 chiến lược: “one-against-all”, “one-against-one” và DAGSVM được đánh giá
là tốt nhất [15]. Theo C.-W. Hsu and C.-J. Lin, 2002 [14], thực nghiệm áp dụng 3 chiến
lược trên cho tập dữ liệu lớn thì chiến lược “one-against-one” và DAGSVM là 2 chiến
lược cho kết quả cao nhất.
Khóa luận này sử dụng chiến lược “one-against-one” làm chiến lược cho thuật toán
SVM cơ bản. Gọi k là số lớp cần gán nhãn. Tập L là tập đã gán nhãn hay tập huấn luyện
gồm l phần tử: (x1,y1), …,(xl,yl); trong đó xi∈Rn
, i = 1,…, l và yi∈{1,…, k} là lớp tương
ứng của xi. Chiến lược này xây dựng k(k-1)/2 bộ phân lớp, trong đó mỗi một bộ phân lớp
được huấn luyện trên dữ liệu từ 2 lớp. Với dữ liệu huấn luyện từ các lớp thứ i và j,
phương pháp sẽ giải quyết phân lớp nhị phân như sau:
ij ij ij
ij ij ij ij
w , ,
1
min (w ) w (w )
2
T T
t
b
t
C
ξ
ξ+ ∑
ij ij ij
(w ) ( ) 1T
t tx b ξ∅ + ≥ − nếu ty i=
ij ij ij
(w ) ( ) 1T
t tx b ξ∅ + ≤ − + nếu ty j=
ij
0tξ ≥ ij
0tξ ≥
Hiện nay có khá nhiều mã nguồn để hỗ trợ cho việc thực thi thuật toán SVM đa
lớp, trong đó LibSVM [9] là một bộ thư viện được viết bằng ngôn ngữ C++ và Java cho
phép phân lớp vector hỗ trợ, hồi qui và ước lượng phân phối. Chính vì vậy, chúng tôi
chọn LibSVM làm công cụ cho việc thực thi thuật toán SVM trong bài toán của chúng tôi.
Bộ phần mềm mã nguồn mở này cài đặt thuật toán SVM đa lớp sử dụng chiến lược “one-
against-one” đã trình bày ở trên.
37
Như vậy, sau quá trình phân lớp bán giám sát SVM-kNN, các dữ liệu chưa được
gán nhãn đều đã được gán nhãn lớp. Nói cách khác, sau 3 pha, hệ thống thu được nhóm
đặc trưng cùng các thể hiện đặc trưng tương ứng.
Tóm tắt chương 3
Chương 3 của khóa luận trình bày về tư tưởng chính của phương pháp đề xuất cho
bài toán gom nhóm đặc trưng đồng nghĩa dựa trên phân lớp bán giám sát SVM-kNN và
thuật toán phân cụm HAC. Khóa luận cũng đã giới thiệu chi tiết các pha cũng như các
bước trong từng pha của phương pháp đề xuất.
Trong chương tiếp theo, khóa luận tiến hành thực nghiệm trên phương pháp đã xây
dựng và đánh giá kết quả đạt được của phương pháp đề xuất.
38
Chương 4. Thực nghiệm và đánh giá
Dựa vào mô hình đề xuất ở chương 3, khóa luận tiến hành thực nghiệm việc gom
nhóm đặc trưng sản phẩm đồng nghĩa trong các đánh giá tiếng Việt của khách hàng. Để
làm rõ mô hình đề xuất cũng như 3 pha chính trong mô hình, các thực nghiệm trên miền
sản phẩm điện thoại di động được tiến hành. Khóa luận tập trung đánh giá kết quả thực
nghiệm từ 2 pha: tạo tập huấn luyện cho SVM-kNN và phân lớp SVM-kNN.
4.1. Môi trường và các công cụ sử dụng thực nghiệm
Cấu hình phần cứng
Thành phần Chỉ số
CPU 2.2 GHz Core Duo Intel
RAM 1GB
OS Windows7
Bộ nhớ ngoài 160GB
Bảng 1. Cấu hình hệ thống thử nghiệm
Các phần mềm sử dụng
STT Tên phần mềm Tác giả Nguồn
1 Eclipse-SDK-
3.5-win32
http://www.eclipse.org/downloads
2 WordSeg Phạm Đức Đăng,
Trần Bình Giang,
Phạm Bảo Sơn
3 LibSVM C. Chang, C.-J.
Lin
http://www.csie.ntu.edu.tw/~cjlin/libsvm/
39
4 Weka Machine Learning
Group, University
of Waikato.
http://www.cs.waikato.ac.nz/ml/weka/
5 ASV Toolbox Chris Biemann,
Uwe Quasthoff,
Gerhard Heyer and
Florian Holz
http://wortschatz,uni-
leipzig.de/~cbiemann/software/toolbox/
Bảng 2. Công cụ phần mềm sử dụng
Ngoài các công cụ trên, chúng tôi tiến hành cài đặt các module xử lý dựa trên ngôn
ngữ Java, bao gồm các package chính như sau:
- Om.Classifying:
- Om.Dictionary:
- Om.File:
- Om.libsvm:
- Om.Webpage:
- File Run:
4.2. Xây dựng tập dữ liệu
Khóa luận thực nghiệm trên miền dữ liệu là các đánh giá của khách hàng trong
miền sản phẩm điện thoại di động. Tập các đánh giá của người dùng được chúng tôi thu
thập từ website bán hàng trực tuyến http://wwwthegioididong.com. Các đánh giá có cấu
trúc gồm người đánh giá, thời gian đánh giá và nội dung ý kiến.
Tập các thể hiện đặc trưng là các đặc trưng đã trích xuất được bởi mô hình khai
phá và tổng hợp quan điểm khách hàng mà chúng tôi đã xây dựng trong [21].
Dữ liệu đầu vào Số lượng
Các đánh giá của khách hàng 669 comment
40
Các thể hiện đặc trưng 152 đặc trưng
Bảng 3: Bảng số lượng dữ liệu đầu vào
4.3. Thực nghiệm
Thực hiện gom nhóm các đặc trưng sản phẩm điện thoại di động đồng nghĩa trong
tập các đánh giá của khách hàng.
4.3.1. Quá trình biểu diễn vector thể hiện đặc trưng
- Trích xuất ngữ nghĩa của thể hiện đặc trưng bằng cách tiến hành lấy định nghĩa
của thể hiện đặc trưng trên website http://tratu.vn, chứa 36.862 từ trong từ điển
Việt – Việt.
- Trích xuất ngữ cảnh của thể hiện đặc trưng bằng cách tiến hành trích xuất ra
các câu có chứa tên thể hiện đặc trưng trong 669 câu đánh giá của khách hàng.
- Với mỗi thể hiện đặc trưng, thu được các bộ <thể hiện đặc trưng, ngữ nghĩa,
ngữ cảnh>. Tiến hành tách từ bằng phần mềm WordSeg [11] và loại bỏ từ dừng
(tập từ dừng có trong file vnstopword.txt).
- Biểu diễn TFIDF để tính trọng số các từ.
4.3.2. Thực nghiệm tạo tập huấn luyện cho SVM-kNN
Việc tạo tập huấn luyện cho SVM-kNN được thực hiện dựa trên phân cụm HAC
kết hợp ngưỡng α. Chúng tôi thực nghiệm trên 5 giá trị ngưỡng α. Sau đó, lấy ra những
cụm không đơn và tính độ chính xác của những mẫu đã được đưa vào cụm, kết quả thu
được như bảng 4.
Giá trị α Số cụm thu được Tổng số mẫu
trong cụm
Độ chính xác
0.3 20 88 60.08%
0.4 14 72 86.98%
0.5 10 51 100%
41
0.6 7 34 100%
0.7 5 22 100%
Bảng 4. Kết quả thực nghiệm thuật toán HAC với 5 giá trị ngưỡng α
Nhận xét: Tại ngưỡng α = 0.4, α = 0.5, α = 0.6, α = 0.7 thì độ chính xác đạt được
là 100%. Tuy nhiên, để có được tập huấn luyện tốt cho phân lớp bán giám sát SVM-kNN,
thì ngoài độ chính xác cao cần có số lượng tập huấn luyện tốt. Do vậy, giá trị ngưỡng α là
0.5 với số mẫu thu được là 51, là phù hợp làm tập dữ liệu huấn luyện cho phân lớp SVM-
kNN.
9 cụm thu được với giá trị ngưỡng α= 0.5 được thể hiện trong bảng 5. Đây cũng là
9 cụm mà khóa luận sử dụng làm tập dữ liệu đã gán nhãn để huấn luyện SVM-kNN. Tuy
nhiên, việc gán nhãn cho lớp cho kết quả chưa tốt (ví dụ cụm 9, tên cụm là thẻ nhớ, chưa
bao quát được các thể hiện trong cụm).
STT Tên cụm Các thể hiện đặc trưng
1 Giá Tiền, giá, giá thành
2 Ảnh Camera, chụp hình, hình ảnh, hình, máy ảnh,
ảnh, chụp ảnh
3 Nhạc Tai nghe, âm thanh, nghe nhạc, nhạc, loa, loa
ngoài
4 Ứng dụng Symbian, hệ điều hành, ứng dụng, tính năng,
nhắn tin
5 Bàn phím Phím, bàn phím, navi, phím navi, phím điều
khiển, phím quang học, quang học
6 Hình thức Kiểu dáng, màu, màu sắc, mẫu mã, kiểu
cách,hình thức
42
7 Màn hình Điện dung, điện trở, màn hình, cảm ứng
8 Mạng Mạng, internet, gprs, gps
9 Thẻ nhớ Thẻ nhớ, thẻ, phụ kiện, usb, phần cứng, cấu
hình
10 Phim Phim, xem phim
Bảng 5. Các thể hiện đặc trưng cùng các cụm không đơn tương ứng
4.3.3. Thực nghiệm phân lớp bán giám sát SVM-kNN:
a. Dữ liệu đã gán nhãn chiếm 30% tổng số dữ liệu
Từ số ít các thể hiện đặc trưng cùng 9 cụm không đơn tương ứng (dữ liệu đã gán
nhãn), và các thể hiện đặc trưng nằm trong cụm đơn (dữ liệu chưa được gán nhãn) thu
được, tiến hành phân lớp bán giám sát SVM-kNN. Dựa trên những thể hiện đặc trưng thu
được trong cụm 9 ở bảng 5, chúng tôi tiến hành thay đổi tên nhãn là “phần cứng” cho phù
hợp với những đặc trưng trong cụm, nhằm kiểm tra độ chính xác của phân lớp SVM-
kNN.
Khóa luận sử dụng bộ phần mềm mã nguồn mở LIBSVM [9] để áp dụng thuật toán
SVM cơ bản, và bộ phần mềm mã nguồn mở WEKA [19] để thực thi thuật toán kNN cơ
bản. Các tham số sử dụng trong phân lớp bán giám sát SVM-kNN là: k – số hàng xóm
gần nhất, là tham số khi sử dụng thuật toán kNN, t – kích thước dữ liệu huấn luyện cần
đạt so với kích thước tập toàn bộ dữ liệu, s – số vector hỗ trợ.
Thuật toán SVM là bước đầu tiên trong SVM-kNN, do vậy, việc chọn các tham số
cho SVM là rất quan trọng, ảnh hưởng đến các bộ phân lớp SVM sau, đặc biệt là tham số
hàm nhân. Chúng tôi thực hiện khảo sát độ chính xác của SVM (bằng cách lựa chọn số
lần kiểm thử chéo fold-validation là 10) trên 4 hàm nhân được tích hợp trong LIBSVM là
hàm nhân tuyến tính, hàm nhân đa thức, hàm vòng RBF, hàm chữ S Sigmoid. Kết quả độ
chính xác lần lượt là 51.12%, 35.4%, 29.09% và 32.98%. Vì vậy, chúng tôi chọn hàm
nhân tuyến tính cho phân lớp SVM.
43
Theo K.Li và cộng sự [17], tham số k=5, t=0.8 là hiệu quả. Do đó, chúng tôi tiến
hành thực nghiệm trên một số tham số s khi k=5 và t = 0.8. Phương pháp đánh giá mà
chúng tôi sử dụng dựa trên 3 độ đo Entropy, Purity và Accuracy tương tự [17]. Gọi n là
tổng số thể hiện đặc trưng. Ba độ đo được tính như sau:
Lớp thực tế Lớp dự đoán
1 … j … m
1 n11 … n1j … n1m
… … … … … …
i ni1 … nịj … nim
… … … ... … …
m nm1 … nmj … nmm
ij ij
1 1
ij ij
1 1
log
m m
j
m m
j i
i i
n n n
Entropy
n
n n= =
= =
= ∑ ∑
∑ ∑
ij
1 1
ij
1
ur ax
m m
j
mi
j i
i
n n
P ity m
n
n= =
=
= ∑ ∑
∑
1
m
ii
i
n
Accuracy
n
=
=
∑
1
m
ii
i
n
A ccu ra cy
n
=
=
∑
Kết quả thu được như bảng 6.
Ent Pur Acc
s=3 1.34 0.62 0.66
s=4 1.23 0.68 0.65
GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC
GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC
GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC
GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC
GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC
GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC
GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC
GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC

More Related Content

Similar to GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC

Tác động của chất lượng dịch vụ đến ý định tham gia Hội chợ
Tác động của chất lượng dịch vụ đến ý định tham gia Hội chợTác động của chất lượng dịch vụ đến ý định tham gia Hội chợ
Tác động của chất lượng dịch vụ đến ý định tham gia Hội chợ
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Yếu tố rủi ro ảnh hưởng đến tiến độ hoàn thành dự án phần mềm
Yếu tố rủi ro ảnh hưởng đến tiến độ hoàn thành dự án phần mềmYếu tố rủi ro ảnh hưởng đến tiến độ hoàn thành dự án phần mềm
Yếu tố rủi ro ảnh hưởng đến tiến độ hoàn thành dự án phần mềm
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Phát triển năng lực giải quyết vấn đề cho học sinh thông qua dạy học phần hiđ...
Phát triển năng lực giải quyết vấn đề cho học sinh thông qua dạy học phần hiđ...Phát triển năng lực giải quyết vấn đề cho học sinh thông qua dạy học phần hiđ...
Phát triển năng lực giải quyết vấn đề cho học sinh thông qua dạy học phần hiđ...
nataliej4
 
Luận văn thạc sĩ sư phạm.
Luận văn thạc sĩ sư phạm.Luận văn thạc sĩ sư phạm.
Luận văn thạc sĩ sư phạm.
ssuser499fca
 
Phân Tích Các Nhân Tố Ảnh Hưởng Quyết Định Gửi Tiết Kiệm Tại Vietinbank
Phân Tích Các Nhân Tố Ảnh Hưởng Quyết Định Gửi Tiết Kiệm Tại VietinbankPhân Tích Các Nhân Tố Ảnh Hưởng Quyết Định Gửi Tiết Kiệm Tại Vietinbank
Phân Tích Các Nhân Tố Ảnh Hưởng Quyết Định Gửi Tiết Kiệm Tại Vietinbank
Viết Thuê Đề Tài Luận Văn trangluanvan.com
 
Luận văn: Sử dụng thí nghiệm hỗ trợ quá trình dạy học Vật lý 10
Luận văn: Sử dụng thí nghiệm hỗ trợ quá trình dạy học Vật lý 10Luận văn: Sử dụng thí nghiệm hỗ trợ quá trình dạy học Vật lý 10
Luận văn: Sử dụng thí nghiệm hỗ trợ quá trình dạy học Vật lý 10
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Luận văn: Ứng dụng công nghệ Webrtc cho giải pháp cộng tác, 9đ
Luận văn: Ứng dụng công nghệ Webrtc cho giải pháp cộng tác, 9đLuận văn: Ứng dụng công nghệ Webrtc cho giải pháp cộng tác, 9đ
Luận văn: Ứng dụng công nghệ Webrtc cho giải pháp cộng tác, 9đ
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Đề tài: Nhu cầu lựa chọn sản phẩm du lịch của sinh viên, HAY
Đề tài: Nhu cầu lựa chọn sản phẩm du lịch của sinh viên, HAYĐề tài: Nhu cầu lựa chọn sản phẩm du lịch của sinh viên, HAY
Đề tài: Nhu cầu lựa chọn sản phẩm du lịch của sinh viên, HAY
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Đề tài hiệu quả tài chính công ty bất động sản, ĐIỂM CAO
Đề tài hiệu quả tài chính công ty bất động sản, ĐIỂM CAOĐề tài hiệu quả tài chính công ty bất động sản, ĐIỂM CAO
Đề tài hiệu quả tài chính công ty bất động sản, ĐIỂM CAO
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Phân tích các nhân tố tác động đến hiệu quả tài chính của các công ty cổ phần...
Phân tích các nhân tố tác động đến hiệu quả tài chính của các công ty cổ phần...Phân tích các nhân tố tác động đến hiệu quả tài chính của các công ty cổ phần...
Phân tích các nhân tố tác động đến hiệu quả tài chính của các công ty cổ phần...
https://www.facebook.com/garmentspace
 
Đề tài: Thẩm định giá bất động sản bằng phương pháp sánh, HAY
Đề tài: Thẩm định giá bất động sản bằng phương pháp sánh, HAY Đề tài: Thẩm định giá bất động sản bằng phương pháp sánh, HAY
Đề tài: Thẩm định giá bất động sản bằng phương pháp sánh, HAY
Dịch vụ viết bài trọn gói ZALO: 0909232620
 
Các Nhân Tố Ảnh Hưởng Đến Quyết Định Mua Bảo Hiểm Tại Công Ty
Các Nhân Tố Ảnh Hưởng Đến Quyết Định Mua Bảo Hiểm Tại Công TyCác Nhân Tố Ảnh Hưởng Đến Quyết Định Mua Bảo Hiểm Tại Công Ty
Các Nhân Tố Ảnh Hưởng Đến Quyết Định Mua Bảo Hiểm Tại Công Ty
Viết Thuê Đề Tài Luận Văn trangluanvan.com
 
Bước đầu hình thành kỹ năng tạo lập văn bản đa phương thức bằng megastory cho...
Bước đầu hình thành kỹ năng tạo lập văn bản đa phương thức bằng megastory cho...Bước đầu hình thành kỹ năng tạo lập văn bản đa phương thức bằng megastory cho...
Bước đầu hình thành kỹ năng tạo lập văn bản đa phương thức bằng megastory cho...
https://www.facebook.com/garmentspace
 
Luận Văn Các Yếu Tố Tác Động Đến Nợ Xấu Tại Các Ngân Hàng
Luận Văn Các Yếu Tố Tác Động Đến Nợ Xấu Tại Các Ngân HàngLuận Văn Các Yếu Tố Tác Động Đến Nợ Xấu Tại Các Ngân Hàng
Luận Văn Các Yếu Tố Tác Động Đến Nợ Xấu Tại Các Ngân Hàng
Viết Thuê Luận Văn Luanvanpanda.com
 
THỰC TRẠNG TRIỂN KHAI VÀ GIẢI PHÁP TĂNG CƯỜNG ÁP DỤNG SẢN XUẤT SẠCH HƠN TRONG...
THỰC TRẠNG TRIỂN KHAI VÀ GIẢI PHÁP TĂNG CƯỜNG ÁP DỤNG SẢN XUẤT SẠCH HƠN TRONG...THỰC TRẠNG TRIỂN KHAI VÀ GIẢI PHÁP TĂNG CƯỜNG ÁP DỤNG SẢN XUẤT SẠCH HƠN TRONG...
THỰC TRẠNG TRIỂN KHAI VÀ GIẢI PHÁP TĂNG CƯỜNG ÁP DỤNG SẢN XUẤT SẠCH HƠN TRONG...
lamluanvan.net Viết thuê luận văn
 
Khóa luận Nghiên cứu ảnh hưởng chất lượng dịch vụ đến sự hài lòng khách hàng ...
Khóa luận Nghiên cứu ảnh hưởng chất lượng dịch vụ đến sự hài lòng khách hàng ...Khóa luận Nghiên cứu ảnh hưởng chất lượng dịch vụ đến sự hài lòng khách hàng ...
Khóa luận Nghiên cứu ảnh hưởng chất lượng dịch vụ đến sự hài lòng khách hàng ...
lamluanvan.net Viết thuê luận văn
 
Luận văn: quản lý việc giảng dạy trong các trường trung cấp, HAY
Luận văn: quản lý việc giảng dạy trong các trường trung cấp, HAYLuận văn: quản lý việc giảng dạy trong các trường trung cấp, HAY
Luận văn: quản lý việc giảng dạy trong các trường trung cấp, HAY
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Luận Văn Các Yếu Tố Tác Động Đến Hành Vi Mua Thực Phẩm Hữu Cơ
Luận Văn Các Yếu Tố Tác Động Đến Hành Vi Mua Thực Phẩm Hữu CơLuận Văn Các Yếu Tố Tác Động Đến Hành Vi Mua Thực Phẩm Hữu Cơ
Luận Văn Các Yếu Tố Tác Động Đến Hành Vi Mua Thực Phẩm Hữu Cơ
Viết Thuê Luận Văn Luanvanpanda.com
 
Tác động của sở hữu nước ngoài, cạnh tranh thị trường dòng sản phẩm đến quản ...
Tác động của sở hữu nước ngoài, cạnh tranh thị trường dòng sản phẩm đến quản ...Tác động của sở hữu nước ngoài, cạnh tranh thị trường dòng sản phẩm đến quản ...
Tác động của sở hữu nước ngoài, cạnh tranh thị trường dòng sản phẩm đến quản ...
luanvantrust
 
Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...
Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...
Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...
Viết Thuê Luận Văn Luanvanpanda.com
 

Similar to GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC (20)

Tác động của chất lượng dịch vụ đến ý định tham gia Hội chợ
Tác động của chất lượng dịch vụ đến ý định tham gia Hội chợTác động của chất lượng dịch vụ đến ý định tham gia Hội chợ
Tác động của chất lượng dịch vụ đến ý định tham gia Hội chợ
 
Yếu tố rủi ro ảnh hưởng đến tiến độ hoàn thành dự án phần mềm
Yếu tố rủi ro ảnh hưởng đến tiến độ hoàn thành dự án phần mềmYếu tố rủi ro ảnh hưởng đến tiến độ hoàn thành dự án phần mềm
Yếu tố rủi ro ảnh hưởng đến tiến độ hoàn thành dự án phần mềm
 
Phát triển năng lực giải quyết vấn đề cho học sinh thông qua dạy học phần hiđ...
Phát triển năng lực giải quyết vấn đề cho học sinh thông qua dạy học phần hiđ...Phát triển năng lực giải quyết vấn đề cho học sinh thông qua dạy học phần hiđ...
Phát triển năng lực giải quyết vấn đề cho học sinh thông qua dạy học phần hiđ...
 
Luận văn thạc sĩ sư phạm.
Luận văn thạc sĩ sư phạm.Luận văn thạc sĩ sư phạm.
Luận văn thạc sĩ sư phạm.
 
Phân Tích Các Nhân Tố Ảnh Hưởng Quyết Định Gửi Tiết Kiệm Tại Vietinbank
Phân Tích Các Nhân Tố Ảnh Hưởng Quyết Định Gửi Tiết Kiệm Tại VietinbankPhân Tích Các Nhân Tố Ảnh Hưởng Quyết Định Gửi Tiết Kiệm Tại Vietinbank
Phân Tích Các Nhân Tố Ảnh Hưởng Quyết Định Gửi Tiết Kiệm Tại Vietinbank
 
Luận văn: Sử dụng thí nghiệm hỗ trợ quá trình dạy học Vật lý 10
Luận văn: Sử dụng thí nghiệm hỗ trợ quá trình dạy học Vật lý 10Luận văn: Sử dụng thí nghiệm hỗ trợ quá trình dạy học Vật lý 10
Luận văn: Sử dụng thí nghiệm hỗ trợ quá trình dạy học Vật lý 10
 
Luận văn: Ứng dụng công nghệ Webrtc cho giải pháp cộng tác, 9đ
Luận văn: Ứng dụng công nghệ Webrtc cho giải pháp cộng tác, 9đLuận văn: Ứng dụng công nghệ Webrtc cho giải pháp cộng tác, 9đ
Luận văn: Ứng dụng công nghệ Webrtc cho giải pháp cộng tác, 9đ
 
Đề tài: Nhu cầu lựa chọn sản phẩm du lịch của sinh viên, HAY
Đề tài: Nhu cầu lựa chọn sản phẩm du lịch của sinh viên, HAYĐề tài: Nhu cầu lựa chọn sản phẩm du lịch của sinh viên, HAY
Đề tài: Nhu cầu lựa chọn sản phẩm du lịch của sinh viên, HAY
 
Đề tài hiệu quả tài chính công ty bất động sản, ĐIỂM CAO
Đề tài hiệu quả tài chính công ty bất động sản, ĐIỂM CAOĐề tài hiệu quả tài chính công ty bất động sản, ĐIỂM CAO
Đề tài hiệu quả tài chính công ty bất động sản, ĐIỂM CAO
 
Phân tích các nhân tố tác động đến hiệu quả tài chính của các công ty cổ phần...
Phân tích các nhân tố tác động đến hiệu quả tài chính của các công ty cổ phần...Phân tích các nhân tố tác động đến hiệu quả tài chính của các công ty cổ phần...
Phân tích các nhân tố tác động đến hiệu quả tài chính của các công ty cổ phần...
 
Đề tài: Thẩm định giá bất động sản bằng phương pháp sánh, HAY
Đề tài: Thẩm định giá bất động sản bằng phương pháp sánh, HAY Đề tài: Thẩm định giá bất động sản bằng phương pháp sánh, HAY
Đề tài: Thẩm định giá bất động sản bằng phương pháp sánh, HAY
 
Các Nhân Tố Ảnh Hưởng Đến Quyết Định Mua Bảo Hiểm Tại Công Ty
Các Nhân Tố Ảnh Hưởng Đến Quyết Định Mua Bảo Hiểm Tại Công TyCác Nhân Tố Ảnh Hưởng Đến Quyết Định Mua Bảo Hiểm Tại Công Ty
Các Nhân Tố Ảnh Hưởng Đến Quyết Định Mua Bảo Hiểm Tại Công Ty
 
Bước đầu hình thành kỹ năng tạo lập văn bản đa phương thức bằng megastory cho...
Bước đầu hình thành kỹ năng tạo lập văn bản đa phương thức bằng megastory cho...Bước đầu hình thành kỹ năng tạo lập văn bản đa phương thức bằng megastory cho...
Bước đầu hình thành kỹ năng tạo lập văn bản đa phương thức bằng megastory cho...
 
Luận Văn Các Yếu Tố Tác Động Đến Nợ Xấu Tại Các Ngân Hàng
Luận Văn Các Yếu Tố Tác Động Đến Nợ Xấu Tại Các Ngân HàngLuận Văn Các Yếu Tố Tác Động Đến Nợ Xấu Tại Các Ngân Hàng
Luận Văn Các Yếu Tố Tác Động Đến Nợ Xấu Tại Các Ngân Hàng
 
THỰC TRẠNG TRIỂN KHAI VÀ GIẢI PHÁP TĂNG CƯỜNG ÁP DỤNG SẢN XUẤT SẠCH HƠN TRONG...
THỰC TRẠNG TRIỂN KHAI VÀ GIẢI PHÁP TĂNG CƯỜNG ÁP DỤNG SẢN XUẤT SẠCH HƠN TRONG...THỰC TRẠNG TRIỂN KHAI VÀ GIẢI PHÁP TĂNG CƯỜNG ÁP DỤNG SẢN XUẤT SẠCH HƠN TRONG...
THỰC TRẠNG TRIỂN KHAI VÀ GIẢI PHÁP TĂNG CƯỜNG ÁP DỤNG SẢN XUẤT SẠCH HƠN TRONG...
 
Khóa luận Nghiên cứu ảnh hưởng chất lượng dịch vụ đến sự hài lòng khách hàng ...
Khóa luận Nghiên cứu ảnh hưởng chất lượng dịch vụ đến sự hài lòng khách hàng ...Khóa luận Nghiên cứu ảnh hưởng chất lượng dịch vụ đến sự hài lòng khách hàng ...
Khóa luận Nghiên cứu ảnh hưởng chất lượng dịch vụ đến sự hài lòng khách hàng ...
 
Luận văn: quản lý việc giảng dạy trong các trường trung cấp, HAY
Luận văn: quản lý việc giảng dạy trong các trường trung cấp, HAYLuận văn: quản lý việc giảng dạy trong các trường trung cấp, HAY
Luận văn: quản lý việc giảng dạy trong các trường trung cấp, HAY
 
Luận Văn Các Yếu Tố Tác Động Đến Hành Vi Mua Thực Phẩm Hữu Cơ
Luận Văn Các Yếu Tố Tác Động Đến Hành Vi Mua Thực Phẩm Hữu CơLuận Văn Các Yếu Tố Tác Động Đến Hành Vi Mua Thực Phẩm Hữu Cơ
Luận Văn Các Yếu Tố Tác Động Đến Hành Vi Mua Thực Phẩm Hữu Cơ
 
Tác động của sở hữu nước ngoài, cạnh tranh thị trường dòng sản phẩm đến quản ...
Tác động của sở hữu nước ngoài, cạnh tranh thị trường dòng sản phẩm đến quản ...Tác động của sở hữu nước ngoài, cạnh tranh thị trường dòng sản phẩm đến quản ...
Tác động của sở hữu nước ngoài, cạnh tranh thị trường dòng sản phẩm đến quản ...
 
Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...
Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...
Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...
 

GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC

  • 1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Huyền Trang GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2011
  • 2. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Huyền Trang GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy ThS Trần Mai Vũ HÀ NỘI - 2011
  • 3. i Lời cảm ơn Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới Thầy giáo, PGS-TS Hà Quang Thụy và Thạc sỹ Trần Mai Vũ đã tận tình chỉ bảo, hướng dẫn, động viên, giúp đỡ em trong suốt quá trình thực hiện đề tài. Em xin gửi lời cảm ơn sâu sắc tới quí Thầy Cô trong Khoa Công nghệ thông tin đã truyền đạt kiến thức quí báu cho em trong những năm học vừa qua. Em cũng xin gửi lời cảm ơn tới các anh chị, các bạn và các em sinh viên trong nhóm “Khai phá dữ liệu” phòng thí nghiệm KT-Sislab đã giúp em rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận. Xin cảm ơn sự hỗ trợ từ đề tài QG.10.38 trong thời gian em thực hiện khóa luận. Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn chăm sóc, động viên, khích lệ con trên mỗi bước đường học vấn của con. Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, đặc biệt là các thành viên lớp K52CA và K52CHTTT đã ủng hộ và giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường đại học và thực hiện đề tài. Tôi xin chân thành cảm ơn ! Hà Nội, ngày 20 tháng 05 năm 2011 Sinh viên Phạm Huyền Trang
  • 4. ii Tóm tắt nội dung Khai phá quan điểm dựa trên đặc trưng (FOM) là một trong những bài toán khai phá quan điểm quan trọng [5, 18, 23]. Đối với một sản phẩm, bài toán này tìm đến mức câu đánh giá để phát hiện các đặc trưng của sản phẩm, và tạo ra một bản tổng kết quan điểm đánh giá theo từng đặc trưng đó. Tuy nhiên, trong văn bản đánh giá sản phẩm, khách hàng thường dùng các từ hoặc cụm từ rất khác nhau để nói đến cùng một đặc trưng sản phẩm. Vì vậy, để tạo ra một bản tổng kết có ý nghĩa, những từ hoặc cụm từ được coi là đồng nghĩa trên một miền sản phẩm cần được nhóm vào cùng một nhóm đặc trưng [27]. Dựa trên phương pháp phân lớp bán giám sát gom nhóm đặc trưng sản phẩm của Zhongwu Zhai và cộng sự, 2010 [27], khóa luận đề xuất một giải pháp gom nhóm các đặc trưng đồng nghĩa trong các đánh giá tiếng Việt dựa trên phân lớp bán giám sát SVM-kNN [17] và phân cụm HAC. Thực nghiệm trên miền sản phẩm điện thoại di động trên website bán hàng trực tuyến Thế giới di động (http://thegioididong.com) cho thấy giải pháp gom nhóm đặc trưng sản phẩm đồng nghĩa tiếng Việt do khóa luận đề xuất có độ đo Purity là 0.68 và độ đo Accuracy là 0.65. Kết quả trên cho thấy phương pháp gom nhóm đặc trưng đồng nghĩa tiếng Việt được khóa luận đề xuất và triển khai là có tính hiệu quả.
  • 5. iii Lời cam đoan Tôi xin cam đoan giải pháp gom nhóm đặc trưng đồng nghĩa tiếng Việt trong các đánh giá sản phẩm dựa trên phân lớp bán giám sát SVM-kNN và phân cụm HAC được trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của PGS. TS. Hà Quang Thụy và ThS. Trần Mai Vũ Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. Hà Nội, ngày 20 tháng 05 năm 2011 Tác giả Phạm Huyền Trang
  • 6. iv Mục lục Lời cảm ơn...........................................................................................................................i  Tóm tắt nội dung................................................................................................................ii  Lời cam đoan.....................................................................................................................iii  Danh sách hình vẽ............................................................................................................vii  Danh sách bảng biểu.......................................................................................................viii  Danh sách các từ viết tắt..................................................................................................ix  Mở đầu................................................................................................................................1  Chương 1. Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm khách hàng .........................................................................................................................3  1.1. Khái quát về khai phá quan điểm khách hàng...........................................................3  1.1.1. Khái niệm về khai phá quan điểm......................................................................3  1.1.2. Ứng dụng của khai phá quan điểm.....................................................................3  1.1.3. Khai phá quan điểm khách hàng trên đặc trưng sản phẩm.................................4  1.2. Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm tiếng Việt dựa trên đặc trưng sản phẩm....................................................................................................7  1.2.1. Bài toán gom nhóm đặc trưng đồng nghĩa .........................................................7  1.2.2. Một số nghiên cứu liên quan trên thế giới..........................................................9  1.2.3. Giải pháp hiện thời ...........................................................................................10  Tóm tắt chương một .......................................................................................................11  Chương 2. Phân lớp bán giám sát SVM-kNN...............................................................13  2.1. Một số nội dung cơ bản về phân lớp bán giám sát..................................................13  2.1.1.Khái niệm ..........................................................................................................13  2.1.2. Các phương pháp phân lớp bán giám sát điển hình .........................................14  2.2. Phương pháp luận SVM-kNN dựa trên học bán giám sát.......................................15 
  • 7. v 2.2.1. Thuật toán máy vector hỗ trợ (SVM)...............................................................15  2.2.2. Thuật toán K người láng giềng gần nhất (kNN)...............................................18  2.2.3. Phương pháp phân lớp bán giám sát SVM-kNN..............................................19  Tóm tắt chương hai:........................................................................................................24  Chương 3.Đề xuất một giải pháp gom nhóm đặc trưng sản phẩm tiếng Việt tự động ...........................................................................................................................................25  3.1. Đề xuất một giải pháp gom nhóm đặc trưng sản phẩm tiếng Việt dựa trên phân lớp bán giám sát SVM-kNN kết hợp phân cụm HAC..........................................................25  3.2. Pha 1: Biểu diễn vector thể hiện đặc trưng..............................................................27  3.2.1. Xác định ngữ nghĩa của các thể hiện đặc trưng................................................28  3.2.2. Xác định ngữ cảnh của thể hiện đặc trưng .......................................................29  3.2.3. Biểu diễn thể hiện đặc trưng dưới dạng vector ................................................29  3.3. Pha 2: Tạo tập huấn luyện cho bộ phân lớp SVM-kNN..........................................30  3.3.1. Quá trình phân cụm ..........................................................................................32  3.3.2. Gán nhãn cho các cụm......................................................................................34  3.3.Pha 2: Phân lớp bán giám sát SVM-kNN.................................................................34  Tóm tắt chương 3: ..........................................................................................................37  Chương 4. Thực nghiệm và đánh giá.............................................................................38  4.1. Môi trường và các công cụ sử dụng thực nghiệm ...................................................38  4.2. Xây dựng tập dữ liệu ...............................................................................................39  4.3. Thực nghiệm............................................................................................................40  4.3.1. Quá trình biểu diễn vector thể hiện đặc trưng..................................................40  4.3.2. Thực nghiệm tạo tập huấn luyện cho SVM-kNN.............................................40  4.3.3. Thực nghiệm phân lớp bán giám sát SVM-kNN: ............................................42  Tóm tắt chương 4............................................................................................................47 
  • 8. vi Kết luận ............................................................................................................................48  Tài liệu tham khảo...........................................................................................................49 
  • 9. vii Danh sách hình vẽ Hình 1: Ví dụ biểu diễn cây đối tượng .................................................................................5  Hình 2: Ví dụ minh họa các khái niệm Đặc trưng, Từ quan điểm, Đoạn đánh giá và Đặc trưng trong 1 nhận xét của khách hàng trên forum http://tinhte.com...................................6  Hình 3: Ví dụ về bản tổng hợp quan điểm về điện thoại N72..............................................7  Hình 4: Ví dụ về đặc trưng đồng nghĩa ................................................................................8  Hình 5: Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm.........................................16  Hình 6: Ví dụ về thuật toán kNN........................................................................................19  Hình 7: Minh họa vector hỗ trợ và vector biên ..................................................................21  Hình 8: Miêu tả khái quát của mô hình đề xuất bởi Kunlun Li, Xuerong Luo vàMing Jin[17].................................................................................................................................22  Hình 9: Mô hình đề xuất gom nhóm đặc trưng đồng nghĩa ...............................................27  Hình 10: Sơ đồ các phần tử trước khi phân cụm................................................................31  Hình 11: Sơ đồ các phần tử sau khi phân cụm phân cấp tích tụ từ dưới lên – HAC..........31  Hình 12: Sơ đồ so sánh kết quả của mô hình đề xuất với phương pháp của K.Li và cộng sự [17].................................................................................................................................44 
  • 10. viii Danh sách bảng biểu Bảng 1. Cấu hình hệ thống thử nghiệm.............................................................................38  Bảng 2. Công cụ phần mềm sử dụng.................................................................................39  Bảng 3: Bảng số lượng dữ liệu đầu vào ............................................................................40  Bảng 4. Kết quả thực nghiệm thuật toán HAC với 5 giá trị ngưỡng α.............................41  Bảng 5. Các thể hiện đặc trưng cùng các cụm không đơn tương ứng...............................42  Bảng 6. Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5khi dữ liệu gán nhãn chiếm 30% tổng số dữ liệu ................................................................................................44  Bảng 7: Kết quả thực nghiệm khi s = 4, t= 0.8, k = 5 .......................................................46  Bảng 8. Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5khi dữ liệu gán nhãn chiếm 40% tổng số dữ liệu ................................................................................................46 
  • 11. ix Danh sách các từ viết tắt LDA Latent Dirichlet Allocation HAC Hierarchical Agglomerative Clustering SVM Support Vector Machine kNN K Nearest Neighbors EM Expectation Maximization SSSVM Semi-Supervisered Support Vector Machine S3VM-kNN Semi-Supervisered Support Vector Machine-k Nearest Neighbors TFIDF Term Frequency Inverse Document Frequency
  • 12. 1 Mở đầu Khai phá và tổng hợp quan điểm khách hàng dựa trên đặc trưng sản phẩm (FOM) đang là một trong những lĩnh vực nhận thu hút nhiều sự quan tâm trên thế giới [5, 18, 20, 23]. Mục tiêu của bài toán này là tạo ra một bản tổng hợp các quan điểm của khách hàng trên từng đặc trưng sản phẩm. Bản tổng hợp như vậy cung cấp cho khách hàng một cái nhìn trực quan về ý kiến của những khách hàng đã dùng sản phẩm trước đó, đồng thời, giúp nhà sản xuất phát hiện ra những hạn chế còn mắc phải của sản phẩm và nhờ vậy có thể khắc phục những nhược điểm đang tồn tại. Gom nhóm đặc trưng đồng nghĩa được người dùng đề cập đến trong các đánh giá là một bài toán con của bài toán FOM thực hiện việc nhóm các từ cùng chỉ đến một đặc trưng nào đó vào một nhóm. Các đặc trưng được xác định là đồng nghĩa tùy thuộc từng miền sản phẩm khác nhau. Trong những năm gần đây, một số giải pháp gom nhóm đặc trưng sản phẩm đã được đưa ra [7, 11, 27]. Tuy nhiên, đối với tiếng Việt, chưa có một nghiên cứu nào đi sâu nghiên cứu vấn đề này. Giải pháp hiện thời của chúng tôi trong [21] là xây dựng bằng tay bộ từ điển đồng nghĩa tiếng Việt trên miền sản phẩm điện thoại. Trong khóa luận này, chúng tôi sử dụng kỹ thuật học bán giám sát để gom nhóm đặc trưng sản phẩm trên miền sản phẩm điện thoại di động dựa trên hướng tiếp cận của Zhongwu Zhai và cộng sự, 2010 [27]. Chúng tôi đề xuất một mô hình tự động gom nhóm đặc trưng đồng nghĩa, theo đó, đối với một miền sản phẩm mới, việc tạo tập dữ liệu huấn luyện được thi hành bằng thuật toán phân cụm HAC theo ngưỡng α. Sau đó, thuật toán phân lớp bán giám sát SVM-kNN dựa trên ngữ nghĩa và ngữ cảnh của từng đặc trưng được áp dụng. Chúng tôi lựa chọn phân lớp bán giám sát SVM-kNN vì phương pháp này cho kết quả tốt với độ đo F1 khoảng 80 đến 98% với miền dữ liệu tiếng Anh như kết quả nghiên cứu của Kunlun Li và cộng sự năm 2010 [17]. Khóa luận tiến hành thực nghiệm mô hình gom nhóm đặc trưng dựa trên HAC và SVM-kNN với kết quả đạt mức phù hợp với kết quả trong các công bố khoa học liên quan trên thế giới (Purity là 0.68 và Accuracy là 0.65). Nội dung của khóa luận được chia thành các chương như sau:
  • 13. 2 Chương 1: Khóa luận giới thiệu khái quát về khai phá quan điểm khách hàng cũng như một số khái niệm liên quan trong khai phá quan điểm khách hàng dựa trên đặc trưng. Ngoài ra, bài toán gom nhóm đặc trưng đồng nghĩa trong các đánh giá tiếng Việt cùng một số nghiên cứu liên quan và giải pháp hiện thời của chúng tôi cũng được trình bày tại chương này. Chương 2: Khóa luận giới thiệu về thuật toán phân lớp SVM, kNN. Từ đó, khóa luận trình bày chi tiết phương pháp phân lớp bán giám sát SVM-kNN là phương pháp phân lớp được sử dụng để giải quyết bài toán gom nhóm đặc trưng sản phẩm. Chương 3: Khóa luận đề xuất một mô hình giải pháp gom nhóm đặc trưng đồng nghĩa dựa trên phân lớp bán giám sát SVM-kNN và phân cụm HAC trên miền dữ liệu tiếng Việt. Đồng thời, khóa luận cũng trình bày chi tiết các pha cũng những các bước trong mô hình. Chương 4: Khóa luận trình bày một số thực nghiệm việc gom nhóm đặc trưng sản phẩm đồng nghĩa tiếng Việt trong các đánh giá của khách hàng trên miền sản phẩm điện thoại di động. Kết quả thực nghiệm được đánh giá theo các độ đo tương ứng phù hợp với bài toán gom nhóm đặc trưng. Phần kết luận: Tóm lược kết quả đạt được của khóa luận và định hướng phát triển tương lai.
  • 14. 3 Chương 1. Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm khách hàng 1.1. Khái quát về khai phá quan điểm khách hàng 1.1.1. Khái niệm về khai phá quan điểm Theo Bing Liu, 2010 [5], thông tin văn bản có thể được chia ra thành hai loại chính, là sự kiện và quan điểm.Thông tin sự kiện thể hiện khách quan về những thực thể, sự kiện hay các thuộc tính của chúng. Thông tin quan điểm thể hiện chủ quan của con người, miêu tả quan điểm, ý kiến hướng đến thực thể, sự kiện hay thuộc tính. Khai phá quan điểm đang là một lĩnh vực nghiên cứu gần đây thu hút sự quan tâm đặc biệt không chỉ của các nhà khoa học trong giới học thuật mà còn của các nhà sản xuất, các công ty,… trên thế giới nói chung và ở Việt Nam nói riêng. Quá trình khai phá quan điểm đóng một vai trò quan trọng trong thế giới ngày nay, không chỉ trong lĩnh vực kinh tế (đặc biệt trong thương mại điện tử) mà còn trong lĩnh vực xã hội (đặc biệt trong mạng xã hội trực tuyến). Khai phá quan điểm thuộc vào lĩnh vực khai phá văn bản, đề cập đến việc áp dụng các giải pháp của xử lý ngôn ngữ tự nhiên, khai phá dữ liệu và công nghệ mạng để trích xuất và xác định quan điểm trong nguồn dữ liệu là các đánh giá, nhận định của con người [20]. Khái niệm “quan điểm” là một khái niệm rất rộng, nó có thể được thể hiện theo nhiều mức độ khác nhau. 1.1.2. Ứng dụng của khai phá quan điểm Khai phá quan điểm đang trở thành một lĩnh vực quan trọng trong những năm gần đây do phạm vi ứng dụng rộng của nó. Bo Pang and Lillian Lee, 2008 [6] chỉ ra 4 miền ứng dụng chính của khai phá quan điểm. Miền ứng dụng đầu tiên là các website đánh giá. Các website này tự động tổng hợp quan điểm và đánh giá của người sử dụng (chẳng hạn, trang Epinion: http://www1.epinions.com/). Các website có tính năng mời gọi đánh giá (review- solicitation) cũng được xếp vào loại này, trong đó tổng hợp đánh giá người dùng (Summarizing user reviews) là một chứcc năng quan trọng. Miền ứng dụng thứ hai là khai phá quan điểm đóng vai trò công nghệ thành phần con (Sub-Component Technology) trong các hệ thống khác, chẳng hạn như các hệ thống
  • 15. 4 tư vấn (recommendation systems), hệ thống hỏi-đáp (Question answer systems), thành phần tương tác người-máy (human–computer interaction) của các hệ thống. Miền ứng dụng thứ ba là các ứng dụng trong thông minh doanh nghiệp (Business Intelligence) và thông minh chính quyền (Government Intelligence). Khai phá quan điểm được dùng trong nhận biết quan điểm khách hàng, tình báo công nghiệp... (thông minh doanh nghiệp) hoặc xu hướng truyền thông thù địch… (thông minh chính quyền). Cuối cùng, khai phá quan điểm áp dụng trong liên miền ứng dụng khác nhau. 1.1.3. Khai phá quan điểm khách hàng trên đặc trưng sản phẩm Khai phá và tổng hợp quan điểm dựa trên đặc trưng là một trong ba bài toán điểm hình thuộc lĩnh vực khai phá quan điểm. Ba bài toán điển hình đó là: Phân lớp quan điểm, khai phá quan hệ so sánh và khai phá quan điểm dựa trên đặc trưng. Trong ba bài toán trên, khai phá quan điểm dựa trên đặc trưng là một bài toán đang rất được chú ý trong lĩnh vực khai phá quan điểm. Trong mục này, khóa luận sẽ trình bày một số khái niệm liên quan đến bài toán khai phá quan điểm dựa trên đặc trưng và mô hình hóa cho bài toán này. a. Một số khái niệm liên quan - Đối tượng (object): Một đối tượng O là một một sản phẩm [5]. Ví dụ: Điện thoại Nokia N72, bộ phim “Cuốn theo chiều gió”, … - Đặc trưng (feature): Bài toán gom nhóm đặc trưng đồng nghĩa liên quan trực tiếp đến khái niệm đặc trưng. Do vậy, chúng tôi xin trình bày chi tiết về khái niệm này như dưới đây. Mỗi đối tượng O được liên hệ với một cặp O (T,A) với T là một sự phân cấp của các thành phần, thành phần con, … và A là một tập các thuộc tính của O [5]. Mỗi thành phần lại có tập các thành phần con và thuộc tính riêng của nó. Để làm rõ hai khái niệm thành phần và thuộc tính ở trên, có một ví dụ đơn giản như sau: Xét đối tượng là điện thoại Nokia N72. Đối tượng này có một tập các thành phần, như: pin, màn hình, … và một tập các thuộc tính như chất lượng âm thanh, kích cỡ, cảm ứng, … Thành phần pin cũng có một tập các thuộc tính như: chất lượng pin, kích cỡ pin,…
  • 16. 5 Một đối tượng được thể hiện bởi một cây. Gốc cây là đối tượng đó, mỗi một node không phải là gốc là một thành phần của đối tượng. Mỗi cung thể hiện quan hệ giữa các thành phần. Mỗi node cũng được liên kết với các thuộc tính. Hình 1. Ví dụ biểu diễn cây đối tượng Tuy nhiên, việc xử lý ngôn ngữ tự nhiên liên quan là một nhiệm vụ rất khó; hơn nữa, để tránh sự phân cấp, có thể coi thành phần và thuộc tính là đặc trưng quan điểm (hay đặc trưng). - Đoạn đánh giá về một đặc trưng: Đoạn văn bản đánh giá về một đặc trưng f của đối tượng O trong s là một tập các câu liên tiếp trong s diễn tả quan điểm tích cực, tiêu cực hay trung lập về đặc trưng f [5]. -Từ quan điểm (opinion word): Quan điểm trên một đặc trưng bất kỳ là hướng nhìn, thái độ của khách hàng đối với mỗi đặc trưng [5]. Thái độ đó có thể theo hướng tích cực, tiêu cực hay trung lập. Từ thể hiện được quan điểm của khách hàng được gọi là từ quan điểm. Ví dụ: Câu = “Nội dung phim hay”. Quan điểm của người dùng trên đặc trưng “nội dung” (phim) là một quan điểm hướng tích cực, vì sử dụng từ quan điểm “hay”. -Người đánh giá (opinion holder): Là người hay tổ chức cụ thể đưa ra lời đánh giá. Với các đánh giá về sản phẩm trên diễn đàn, blogs: người đánh giá chính là các tác giả của đánh giá hay bài viết [5].
  • 17. 6 Hình 2: Ví dụ minh họa các khái niệm Đặc trưng, Từ quan điểm, Đoạn đánh giá và Đặc trưng trong 1 nhận xét của khách hàng trên forum http://tinhte.com b. Mô hình hóa bài toán Bing Liu [5] định nghĩa một mô hình của một đối tượng và một tập các quan điểm về đối tượng. Một đối tượng được thể hiện với một tập xác định của đặc trưng, F = {f1,f2,…,fn}. Mỗi đặc trưng fi trong F có thể được diễn tả bởi một tập các từ hoặc cụm từ Wi là các đặc trưng đồng nghĩa. Mỗi người đánh giá j bình luận trên một tập con các đặc tính Sj thuộc F. Với mỗi fk thuộc Sj, người đánh giá j diễn đạt quan điểm về đặc trưng bằng một từ hoặc cụm từ trong Wk với một thái độ tích cực (positive) hay tiêu cực (negative). Mô hình này đòi hỏi ba tình huống bài toán trong thực tế. Giả sử có một tập các văn bản đánh giá D là đầu vào, ba tình huống bài toán được phát biểu như sau: Tình huống 1: Cả F và W đều không biết. Bài toán cần thực hiện ba nhiệm vụ: - Nhiệm vụ 1: Xác định và trích chọn các đặc trưng được đề cập tới trong D. - Nhiệm vụ 2: Xác định hướng quan điểm trên các đặc trưng. - Nhiệm vụ 3: Nhóm các từ đồng nghĩa của các đặc trưng, vì những người khác nhau có thể sử dụng các từ hoặc cụm từ khác nhau để diễn đạt cùng một đặc trưng. Đây chính là bài toán gom nhóm đặc trưng đồng nghĩa mà khóa luận hướng tới giải quyết. Nhiệm vụ này sẽ được chúng tôi trình bày trong mục 1.2.
  • 18. 7 Tình huống 2: F đã biết, nhưng W lại không. Tất cả ba nhiệm vụ của bài toán 1 cần được thực hiện, nhưng nhiệm vụ 3 trở thành bài toán ghép các đặc trưng phát hiện được với tập đặc trưng F đã cho. Tình huống 3: W và F cùng đã biết. Thực hiện nhiệm vụ 2 ở trên, tức là xác định xem quan điểm trên thuộc tính là thái độ tích cực hay tiêu cực, hay trung lập sau khi tất cả các câu chứa chúng được trích chọn. Đầu ra của một tập văn bản D là một tập các cặp, mỗi cặp được kí hiệu bởi (f, SO), trong đó f là một đặc trưng và SO là hướng ngữ nghĩa hay hướng quan điểm được diễn đạt trong D trên đặc trưng f. Cuối cùng, từ kết quả này, đưa ra một bản tổng hợp các quan điểm về một đối tượng dựa trên các đặc trưng. Hình 3: Ví dụ về bản tổng hợp quan điểm về điện thoại N72 [21] 1.2. Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm tiếng Việt dựa trên đặc trưng sản phẩm 1.2.1. Bài toán gom nhóm đặc trưng đồng nghĩa Trong các đánh giá của người dùng trên mạng thường chứa các yếu tố không chuẩn [22]. Nói riêng, trong các văn bản đánh giá sản phẩm, khách hàng thường sử dụng những từ hoặc cụm từ rất khác nhau để nhắc đến cùng một đặc trưng sản phẩm. Ví dụ: Trong hình 4, với miền sản phẩm điện thoại Nokia E63, chúng tôi khảo sát trên website bán hàng trực tuyến http://www.thegioididong.com thì khách hàng sử dụng
  • 19. 8 từ “tính năng” và “chức năng” cùng nhắc đến đặc trưng “tính năng”, nên chúng được coi là các từ đặc trưng đồng nghĩa. Hình 4: Ví dụ về đặc trưng đồng nghĩa Do đó, để tạo ra một bản tổng kết có ý nghĩa, những từ hoặc cụm từ đồng nghĩa cần được nhóm vào cùng một nhóm đặc trưng. Theo Bing Liu [5] việc xác định và gom nhóm các đặc trưng đồng nghĩa là rất cần thiết cho các ứng dụng thực tế. Từ mô hình hóa bài toán, có thể thấy bài toán gom nhóm đặc trưng đồng nghĩa chính là một trong ba nhiệm vụ của tình huống bài toán 1 trong khai phá quan điểm cần phải giải quyết. Zhongwu Zhai và cộng sự [27] nêu ra hai khái niệm trong bài toán gom nhóm đặc trưng đồng nghĩa là “thể hiện đặc trưng” và “nhóm đặc trưng”. Nhóm đặc trưng là tên của một đặc trưng của sản phẩm mà người dùng muốn nói đến, trong khi thể hiện đặc trưng là một từ hoặc cụm từ xuất hiện thực sự trong các đánh giá sản phẩm để chỉ đặc trưng đó. Những khái niệm này được sử dụng trong phương pháp đề xuất của chúng tôi. Ví dụ: Một nhóm đặc trưng tên là “Hình thức”, có thể có nhiều thể hiện đặc trưng như: “Thiết kế”, “Kiểu cách”, “Mẫu mã”, hoặc thậm chí có thể là “Hình thức”. Mục tiêu của bài toán là xác định được các đặc trưng đồng nghĩa và đưa chúng vào cùng một nhóm đặc trưng. Bài toán gom nhóm đặc trưng đồng nghĩa trong các đánh giá liên quan nhiều đến bài toán xác định từ đồng nghĩa [27]. Đây là một thách thức trong xử lý ngôn ngữ tự nhiên.
  • 20. 9 1.2.2. Một số nghiên cứu liên quan trên thế giới Bài toán gom nhóm đặc trưng đồng nghĩa đã và đang nhận được nhiều sự quan tâm trên thế giới. Có khá nhiều công trình đã nghiên cứu nhằm tìm ra các phương án tối ưu để giải quyết bài toán, chẳng hạn [7, 11, 27]. Theo Bing Liu [5], một trong số các phương pháp nhằm giải quyết bài toán này là sử dụng từ điển Wordnet và các từ điển đồng nghĩa khác. Một một số phương pháp hướng sử dụng từ đồng nghĩa song kết hợp một số cải tiến đã được đề xuất. Carenini và cộng sự, 2005 [8] đề xuất một phương pháp tinh vi dựa trên các số liệu tương tự như một số yêu cầu phân lớp các đặc trưng được đưa ra. Hệ thống này kết hợp đặc trưng phát hiện mỗi một nút đặc trưng trong phân lớp này. Các số liệu tương tự được xác định dựa trên các chuỗi tương tự, từ đồng nghĩa và khoảng cách đo khác bằng cách sử dụng WordNet. Zhongwu Zhai và cộng sự, 2010 [27] nêu ra ba hạn chế khi dùng từ điển đồng nghĩa trong gom nhóm từ đặc trưng. Thứ nhất, có nhiều từ không phải là đồng nghĩa trong từ điển nhưng lại có thể là đồng nghĩa trong một miền ứng dụng nào đó. Ví dụ, hai từ “design” và “appearance” không là từ đồng nghĩa nếu xét trong từ điển nhưng được coi là hai từ đồng nghĩa trong miền “mobile”. Thứ hai, từ đồng nghĩa có tính phụ thuộc miền ứng dụng. Ví dụ, hai từ “movie” và “picture” là đồng nghĩa trong miền “movie” nhưng trong miền “video” thì hai từ này lại chỉ đến hai đặc trưng hoàn toàn khác nhau. Thứ ba, việc xác định các từ đồng nghĩa có thể phụ thuộc vào yêu cầu mức độ trừu tượng hóa của miền ứng dụng. Ví dụ, trong miền “car” thì “internal design” và “external design” là thuộc hai nhóm đặc trưng khác nhau theo mức chi tiết nào đó song lại được coi là thuộc cùng một nhóm đặc trưng theo một mức trừu tượng cao hơn. Dựa theo hướng tiếp cận không giám sát, Guo và cộng sự, 2009 [12] đề xuất một kỹ thuật việc kết hợp ngữ nghĩa ẩn đa mức để góm nhóm các thể hiện đặc trưng. Kỹ thuật này chạy LDA hai lần. Kỹ thuật này tránh được việc phụ thuộc vào từ điển đồng nghĩa. Tuy nhiên phương pháp này còn phụ thuộc vào miền và ngôn ngữ.
  • 21. 10 Gần đây, Zhongwu Zhai và cộng sự, 2010 [27] đề xuất một phương pháp nhóm đặc trưng đồng nghĩa dựa trên hướng tiếp cận học bán giám sát, đồng thời kết hợp ràng buộc mềm để áp dụng cho bài toán này nhằm khắc phục những hạn chế còn gặp phải khi sử dụng từ điển đồng nghĩa. Phương pháp học bán giám sát được sử dụng là Naïve- Bayesian Expectation-Maximization, bộ phân lớp Bayesian được chạy lặp lại trên dữ liệu đã gán nhãn và dữ liệu chưa gán nhãn cho đến khi các xác suất cho dữ liệu chưa gán nhãn hội tụ. Việc gán nhãn dữ liệu được tạo bằng tay. Để có kết quả tốt hơn, các tác giả đã tạo ra 2 ràng buộc mềm nhằm làm giàu tập dữ liệu đã gán nhãn. Hai ràng buộc mềm này là: (1) – Những thể hiện đặc trưng có chung một số từ nào đó thì thuộc về cùng một nhóm; (2) – Những thể hiện đặc trưng đồng nghĩa trong từ điển đồng nghĩa thì thuộc về cùng một nhóm. Việc tạo ra những ràng buộc mềm có hai ưu điểm: Một là, hai ràng buộc này tạo ra các mẫu nhãn mềm (soft-labeled examples) và chúng được đưa vào tập huấn luyện nhằm làm giàu tập huấn luyện đó. Hai là, trong trường hợp ràng buộc mềm gán sai nhãn do những hạn chế của bộ từ điển đồng nghĩa mang lại thì bộ phân lớp bán giám sát vẫn được phép thay đổi nhãn. Các tác giả tiến hành thực nghiệm trên các đánh giá từ 5 miền khác nhau, kết quả cho thấy phương pháp gom nhóm đặc trưng sử dụng học bán giám sát là khá hiệu quả. Thực nghiệm trên 5 bộ dữ liệu, độ đo purity thuộc khoảng 0.66-0.70 và độ đo accuracy thuộc khoảng 0.67-0.71. 1.2.3. Giải pháp hiện thời Hiện nay, tại Việt Nam, chưa có một công trình nghiên cứu nào đi sâu giải quyết bài toán gom nhóm đặc trưng sản phẩm trong các đánh giá tiếng Việt. Trong [21], chúng tôi đề xuất một mô hình khai phá quan điểm dựa trên đặc trưng đối với các đánh giá sản phẩm điện thoại bằng tiếng Việt. Khó khăn lớn nhất của chúng tôi khi giải quyết bài toán này trong miền dữ liệu tiếng Việt là tại Việt Nam, chưa có bộ từ điển đồng nghĩa kiểu Wordnet; trong khi các công trình nghiên cứu nêu trên (mục 1.2.2) đều sử dụng bộ từ điển đồng nghĩa. Ngoài ra, trong miền dữ liệu đánh giá tiếng Việt của khách hàng về sản phẩm, chất lượng cũng như số lượng của các đánh giá là khá thấp.
  • 22. 11 Trong công trình nói trên [21], chúng tôi sử dụng một giải pháp rất đơn giản để nhóm các đặc trưng “đồng nghĩa” – đó là sử dụng một bộ từ điển đặc trưng đồng nghĩa xây dựng bằng tay. Từ điển này chứa các đặc trưng đồng nghĩa trên miền sản phẩm “điện thoại”. Khi trong câu đánh giá xuất hiện một thể hiện đặc trưng có trong từ điển thì tên thể hiện đặc trưng sẽ được suy ra tên nhóm đặc trưng. Tuy nhiên, ngoài những hạn chế đã nêu ở mục 1.2.2 khi sử dụng từ điển đồng nghĩa, giải pháp này còn gặp một số điểm hạn chế. Thứ nhất, việc nhóm các thể hiện đặc trưng vào nhóm đặc trưng phù hợp là một công việc tốn rất nhiều thời gian, vì người dùng thường sử dụng rất nhiều những từ ngữ khác nhau để thể hiện cùng một đặc trưng, có những nhóm đặc trưng có thể có đến hàng chục thể hiện đặc trưng. Thứ hai, trong trường hợp xuất hiện những thể hiện đặc trưng mới trong đánh giá của người dùng, và đặc trưng này không có trong từ điển thì mô hình vẫn chưa phát hiện được nhóm đặc trưng của nó. Bởi lẽ, việc xác định đặc trưng đồng nghĩa phụ thuộc hoàn toàn vào bộ từ điển. Thứ ba, việc xây dựng từ điển đồng nghĩa trong [21] chỉ áp dụng được trong miền sản phẩm điện thoại, khi chuyển sang miền dữ liệu khác thì phải xây dựng một bộ từ điển khác. Khóa luận này đề xuất một giải pháp gom nhóm đặc trưng đồng nghĩa cũng dựa trên phân lớp bán giám sát. Tuy nhiên, so với [26], mô hình của chúng tôi có các điểm khác biệt: Thứ nhất, chúng tôi không tạo một tập huấn luyện bằng tay để tạo ra một bộ phân lớp như [26], mà thay vào đó, tập huấn luyện này được tạo một cách tự động nhờ áp dụng thuật toán phân cụm HAC. Thứ hai, chúng tôi không sử dụng từ điển đồng nghĩa, mà thay vào đó là một từ điển Việt-Việt cùng các đánh giá của khách hàng để tạo tập huấn luyện. Thứ ba, phương pháp phân lớp bán giám sát mà chúng tôi sử dụng là SVM- kNN, trong khi phương pháp được sử dụng trong [26] là EM. Tóm tắt chương một Trong chương này, khóa luận giới thiệu khái quát về bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm khách hàng theo đặc trưng. Khóa luận cũng trình bày một số hướng giải quyết của bài toán trên thế giới cũng như giải pháp hiện thời của chúng tôi. Từ những phân tích về khó khăn khi giải quyết bài toán trên miền tiếng Việt cùng với các điểm hạn chế về giải pháp hiện thời cũng như hạn chế về việc sử dụng từ điển
  • 23. 12 đồng nghĩa, chúng tôi đề xuất một giải pháp gom nhóm đặc trưng “đồng nghĩa” sử dụng phương pháp phân lớp bán giám sát SVM-kNN kết hợp phân cụm HAC. Chương tiếp theo giới thiệu phương pháp phân lớp bán giám sát SVM-kNN – là một phương pháp phân lớp bán giám sát cho kết quả cao do Kunlun Li và cộng sự đề xuất năm 2010.
  • 24. 13 Chương 2. Phân lớp bán giám sát SVM-kNN 2.1. Một số nội dung cơ bản về phân lớp bán giám sát 2.1.1.Khái niệm a. Học bán giám sát Học bán giám sát là một mô hình học máy liên quan đến việc tận dụng các dữ liệu chưa gán nhãn để xây dựng các bộ phân lớp và các bộ hồi qui tốt hơn (A. B. Goldberg, 2010, [4]). Học bán giám sát là việc học trên cả dữ liệu đã và chưa được gán nhãn. Từ một số luợng lớn các dữ liệu chưa được gán nhãn, và một luợng nhỏ dữ liệu đã được gán nhãn ban đầu (thuờng gọi là seed set) để xây dựng một bộ phân lớp thậm chí là tốt hơn. Trong quá trình học như thế, phương pháp sẽ tận dụng được những thông tin phong phú của dữ liệu chưa gán nhãn (unlabeled data), mà chỉ yêu cầu một số luợng nhỏ các dữ liệu đã gán nhãn (labeled data ) [25, 26, 1]. Như tổng hợp của X.J. Zhu, 2008 [25], học bán giám sát nhận được sự quan tâm đặc biệt của cộng đồng nghiên cứu về học máy. Theo X.J. Zhu, 2008 [25], X. Zhu và A. B. Goldberg, 2009 [26], học bán giám sát có thể được xem là: • Học giám sát (tất cả các dữ liệu đều đã được gán nhãn) cộng thêm dữ liệu chưa gán nhãn. • Học không giám sát (tất cả các dữ liệu đều chưa được gán nhãn) cộng thêm dữ liệu gãn nhãn. Trên thực tế, hầu hết các chiến lược học bán giám sát dựa trên việc mở rộng học giám sát hoặc học không giám sát đều chứa thêm thông tin của mô hình học khác [4]. Nhiệm vụ chính của học bán giám sát chính là mở rộng tập các dữ liệu gán nhãn ban đầu [25, 26, 1]. Phương pháp học này được cung cấp một số thông tin giám sát, nhưng chỉ trên một số ví dụ mà không nhất thiết phải trên tất cả dữ liệu. Việc học bán giám sát sẽ là hữu ích khi có nhiều dữ liệu không gán nhãn hơn là dữ liệu gãn nhãn. Trong thực tế, tồn tại nhiều dữ liệu không gán nhãn hơn là dữ liệu gán nhãn; bởi vì dữ liệu không gãn nhãn có thể dễ dàng được thu thập với chi phí thấp, nhưng công việc gãn nhãn cho các dữ liệu lại tốn rất nhiều thời gian, công sức và tiền bạc [4, 7,
  • 25. 14 25, 26]. Chính vì khả năng tận dụng cả dữ liệu đã gán nhãn để đạt được kết quả cao hơn học giám sát nên học bán giám sát mang giá trị thực tiễn cao [5]. b. Phân lớp bán giám sát Phân lớp bán giám sát đang là một lĩnh vực nhận được nhiều sự quan tâm trong cả lý thuyết và thực tiễn [25]. Phân lớp bán giám sát là một dạng đặc biệt trong bài toán phân lớp [26]. Nó sử dụng cả dữ liệu chưa gán nhãn, và dữ liệu đã gán nhãn – điều này chính là một sự mở rộng so với bài toán phân lớp giám sát. Giả sử tập dữ liệu huấn luyện bao gồm l ví dụ đã gán nhãn 1{(x ,y )}l i i i= , trong đó yi là nhãn tương ứng với vị dụ xi; và u ví dụ chưa gán nhãn 1{x }l u j j l + = + . Trong phân lớp bán giám sát, số lượng dữ liệu chưa gán nhãn là lớn hơn nhiều so với dữ liệu đã gán nhãn, tức là u >> l. Mục tiêu của phân lớp bán giám sát là huấn luyện một bộ phân lớp f từ l và u; trong khi đó, phân lớp giám sát lại tạo ra một bộ phân lớp chỉ từ những dữ liệu đã gãn nhãn. Trong quá trình học, việc phân lớp bán giám sát sẽ tận dụng được những thông tin phong phú của dữ liệu chưa gãn nhãn, mà chỉ yêu cầu một số lượng rất nhỏ các dữ liệu đã gãn nhãn. 2.1.2. Các phương pháp phân lớp bán giám sát điển hình Các thuật toán bán giám sát đã và đang được phát triển một cách nhanh chóng trong những năm gần đây. Hiện nay, có rất nhiều phương pháp học bán giám sát như: self-learning và self-labeling – là hai trong số những phương pháp phân lớp bán giám sát sớm nhất, chúng vẫn được sử dụng rộng rãi trong lĩnh vực xử lý ngôn ngữ tự nhiên; hoặc phương pháp SSSVM (SVM bán giám sát) với ý tưởng tìm một biên quyết định trong các vùng mật độ thấp; hay phương pháp dựa trên đồ thị - phương pháp này xây dựng một đồ thị có trọng số trên những ví dụ đã gán nhãn và ví dụ chưa gán nhãn và giả thiết rằng giữa hai ví dụ có một kết nối mạnh thì có khuynh hướng có cùng nhãn và giải quyết bài toán tối ưu hóa; một phương pháp phân lớp bán giám sát khác là sử dụng mô hình sinh, hỗn hợp phân bố Gaussian trong thuật toán EM (K. Li và cộng sự, 2010 [167). Vì vậy, trước khi quyết định lựa chọn phương pháp học cho một bài toán cụ thể cần phải xem xét các giả thiết của mô hình. Theo [25], nên sử dụng phương pháp học mà giả thiết của nó phù hợp với cấu trúc của bài toán. Việc lựa chọn này có thể là khó khăn trong thực tế, tuy nhiên có thể thử các gợi ý sau: Nếu các lớp tạo ra dữ liệu có tính phân
  • 26. 15 cụm cao thì EM với mô hình trộn sinh có thể là một sự lựa chọn tốt; nếu các thuộc tính có sự phân chia tự nhiên thành hai tập thì co-training có thể phù hợp; nếu hai mẫu dữ liệu với các thuộc tính tương tự nhau hướng tới thuộc về cùng một lớp thì có thể sử dụng các phương pháp dựa trên đồ thị; nếu các bộ phân lớp giám sát được xây dựng từ trước là phức tạp và khó sửa đổi thì self-training sẽ là một lựa chọn ưu tiên. Hiệu quả của những thuật toán phân lớp bán giám sát phụ thuộc vào chất lượng của các ví dụ gán nhãn được thêm vào ở mỗi vòng lặp và được đánh giá dựa trên hai tiêu chí [4, 25]: - Các ví dụ được thêm vào phải được gán nhãn một cách chính xác. - Các ví dụ được thêm vào phải mang lại thông tin hữu ích cho bộ phân lớp (hoặc dữ liệu huấn luyện). 2.2. Phương pháp luận SVM-kNN dựa trên học bán giám sát Khóa luận này tập trung nghiên cứu việc nhóm các đặc trưng đồng nghĩa trong khai phá quan điểm dựa trên phân lớp bán giám sát SVM-kNN. Phương pháp phân lớp bán giám sát SVM-kNN tỏ ra rất hiệu quả trong bài toán phân lớp nếu chọn các tham số phù hợp. Phương pháp này có độ chính xác cao hơn so với thuật toán phân lớp SVM bởi vì nó thực hiện việc cải tiến độ chính xác của mỗi bộ phân lớp SVM qua nhiều lần lặp [16]. Trước hết, chúng tôi xin giới thiệu về thuật toán SVM, kNN và sau đó trình bày các bước trong SVM-kNN. 2.2.1. Thuật toán máy vector hỗ trợ (SVM) Giải thuật Máy vector hỗ trợ (SVM) dựa trên nguyên lý tối thiểu hóa rủi ro cấu trúc (Structural Risk Minimization) trong lý thuyết thống kê (T. Joachims, 1997, [16]). Xét bài toán phân lớp văn bản thành các lớp mẫu dương và mẫu âm: Cho một tập huấn luyện các cặp (xi, yi), i = 1, …, l; trong đó xi∈ Rn là không gian vector đặc trưng n chiều; yi∈ {-1, 1}, các mẫu dương là các mẫu xi thuộc lĩnh vực quan tâm và được gán nhãn yi = 1 và các mẫu âm là các mẫu xi không thuộc lĩnh vực quan tâm và được gán nhãn yi = −1. Bài toán đặt ra là khi đưa ra một vector đặc trưng x mới, cần dự đoán được y sao cho khả năng lỗi xảy ra là tối thiểu.
  • 27. 16 a.Trường hợp khả tách tuyến tính Trong trường hợp này, bộ phân lớp SVM là mặt siêu phẳng phân tách các mẫu dương khỏi các mẫu âm với lề cực đại, được xác định bằng khoảng cách giữa các mẫu dương và các mẫu âm gần mặt siêu phẳng lề tối ưu nhất (hình 5). Các mặt siêu phẳng trong không gian đối tượng có phương trình là wT x + b = 0, trong đó w là vector pháp tuyến, b là tham số mô hình phân lớp. Khi thay đổi w và b, hướng và khoảng cách từ gốc tọa độ đến mặt siêu phẳng thay đổi. Hình 5: Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm Bộ phân lớp SVM được định nghĩa như sau: f(x) = sign(wT x + b)(1.1), trong đó: sign(z) = +1 nếu z ≥ 0 và sign(z) = −1 nếu z < 0. Nếu f(x) = +1 thì x thuộc về lớp dương, và ngược lại, nếu f(x) = −1 thì x thuộc về lớp âm. Mục tiêu của phương pháp SVM là ước lượng w và b để cực đại hóa lề giữa các lớp dữ liệu dương và âm.Các giá trị khác nhau của lề cho ta các họ mặt siêu phẳng khác nhau, và lề càng lớn thì lỗi tổng quát hóa của bộ phân lớp càng giảm. Tập dữ liệu huấn luyện là khả tách tuyến tính, ta có các ràng buộc sau: wT xi + b ≥ +1 nếu yi = +1 (1.2) wT xi + b ≤ −1 nếu yi = −1 (1.3) Hai mặt siêu phẳng có phương trình là wT x + b = ±1 được gọi là các mặt siêu phẳng hỗ trợ (các đường nét đứt trên hình 5).
  • 28. 17 Để xây dựng một mặt siêu phẳng lề tối ưu thì: - Vector w sẽ được tính: w = 1 N i i i i y xα = ∑ (1.4) - Tham số b được xác định sử dụng điều kiện Karush–Kuhn–Tucker(KKT) như sau: αi [ yi (wT xi + b) – 1] = 0 (1.5) Các mẫu xi tương ứng với αi> 0 là những mẫu nằm gần mặt siêu phẳng quyết định nhất (thỏa mãn dấu đẳng thức trong (1.2), (1.3)) và được gọi là các vector hỗ trợ. Những vector hỗ trợ là những thành phần quan trọng nhất của tập dữ liệu huấn luyện. Bởi vì nếu chỉ có các vector hỗ trợ, ta vẫn có thể xây dựng mặt siêu phẳng lề tối ưu như khi có một tập dữ liệu huấn luyện đầy đủ. b. Trường hợp không khả tách tuyến tính Với dữ liệu huấn luyện không khả tách tuyến tính thì ta có thể giải quyết theo hai cách. Cách thứ nhất sử dụng một mặt siêu phẳng lề mềm, nghĩa là cho phép một số mẫu huấn luyện nằm về phía sai của mặt siêu phẳng phân tách hoặc vẫn ở vị trí đúng nhưng rơi vào vùng giữa mặt siêu phẳng phân tách và mặt siêu phẳng hỗ trợ tương ứng. Trong trường hợp này, các hệ số Lagrange của bài toán quy hoạch toàn phương có thêm một cận trên C dương - tham số do người sử dụng lựa chọn. Tham số này tương ứng với giá trị phạt đối với các mẫu bị phân loại sai. Cách thứ hai sử dụng một ánh xạ phi tuyến Φ để ánh xạ các điểm dữ liệu đầu vào sang một không gian mới có số chiều cao hơn. Trong không gian này, các điểm dữ liệu trở thành khả tách tuyến tính, hoặc có thể phân tách với ít lỗi hơn so với trường hợp sử dụng không gian ban đầu. Một mặt quyết định tuyến tính trong không gian mới sẽ tương ứng với một mặt quyết định phi tuyến trong không gian ban đầu. Với k là một hàm nhân thoản mãn: k(xi, xj) = Φ(xi)T . Φ(xj) (1.6)
  • 29. 18 Nếu chọn một hàm nhân phù hợp, ta có thể xây dựng được nhiều bộ phân loại khác nhau. Có một số hàm nhân cơ bản sau đây: - Hàm nhân đa thức: k(xi, xj) = deg ( amma.x oef0)T ree i jg x c+ (1.7) - Hàm vòng RBF (Radial Basic Function): 2 ( , ) exp( .| | )i j i jk x x gamma x x= − − (1.8) - Hàm chữ S Sigmoid: k(xi, xj) = tan( . . oef0)T i jgamma x x c+ (1.9) trong đó gamma, coef0 và degree là các tham số nhân. 2.2.2. Thuật toán K người láng giềng gần nhất (kNN) Bộ phân lớp dựa trên thuật toán K người láng giềng gần nhất là một bộ phânlớp dựa trên bộ nhớ, đơn giản vì nó không phải thực hiện quá trình học mô hình, thay thế điều đó, phương pháp cần sử dụng tất cả các đốitượng trong tập huấn luyện khi phân lớp cho một đối tượng dữ liệu mới. Để phân lớp cho một điểm dữ liệu mới x, trước hết bộphân lớp sẽ tính khoảng cách từ điểm x đến tất cả các điểm dữ liệu trong tập huấnluyện. Qua đó tìm được tập N(x, D, k) gồm k điểm dữ liệu mẫu có khoảng cách đến x là gần nhất. Ví dụ nếu các dữ liệu mẫu được biểu diễn bởi không gian vector thì chúng ta có thể sử dụng khoảng cách Euclian để tính khoảng cách giữa các điểm dữ liệu với nhau. Sau khi xác định được tập N(x, D, k), bộ phân lớp sẽ gán nhãn cho điểm dữ liệu x bằng lớp chiếm đại đa số trong tập N(x, D, k). Mặc dù rất đơn giản, nhưng thuật toán K người láng giềng gần nhất đã cho kết quả tốt trong nhiều ứng dụng thực tế. Cũng như SVM, k-NN được xếp vào 10 thuật toán khai phá dữ liệu điển hình nhất [24]. Để áp dụng thuật toán k-NN vào tài liệu văn bản, chúng ta sử dụng hàm tính trọng số cho mỗi lớp theo biểu thức (2.1). Trong đó NC(x, D, k)là tập con chỉ chứa các đối tượng thuộc lớp c của tập N(x, D, k). ' ' ( , , ) ( | ) os( , ) cx N x D k Score c x c x x ∈ = ∑ (2.1)
  • 30. 19 Khi đó tài liệu x sẽ được phân vào lớp c0nếu: 0( | ) ax{ ( | ), }score c x M score c x c C= ∈ (2.2) Hình 6: Ví dụ về thuật toán kNN Một ví dụ đơn giản về thuật toán kNN được minh họa trong hình 6. Trong đó, các nút tròn màu đỏ thể hiện lớp A, các nút tam giác màu xanh nước biển thể hiện lớp B và nút tròn màu xanh lá cây là nút chưa được gán nhãn. Với tham số k = 4, thuật toán sẽ tính khoảng cách từ nút xanh lá cây đến 4 nút gần nó nhất. Nút xanh lá cây có khoảng cách gần nhất đến 3 nút màu đỏ và 1 nút màu xanh biển.Từ hình có thể dễ dàng nhận thấy, nút xanh lá cây sẽ thuộc vào lớp A. Để chọn được tham số k tốt nhất cho thao tác phân loại, thuật toán cần được chạy thử nghiệm trên nhiều giá trị k khác nhau, giá trị k càng lớn thì thuật toán càng ổn định và sai sót càng thấp. 2.2.3. Phương pháp phân lớp bán giám sát SVM-kNN Thuật toán SVM đã cho thấy được rất nhiều những ưu điểm vượt trội như SVM có khả năng học độc lập với số chiều trong không gian đặc trưng, kết quả phân lớp khi sử dụng thuật toán SVM là khá tốt kể cả trong không gian đặc trưng nhiều chiều. Tuy nhiên, SVM có một nhược điểm là không cung cấp một ước lượng chính xác các biên quyết định đúng nếu có ít dữ liệu đã được gán nhãn.
  • 31. 20 Trong suốt quá trình quyết định của phương pháp kNN chỉ liên quan đến số lượng nhỏ các hàng xóm gần nhất, do đó việc áp dụng phương pháp này có thể tránh được vấn đề về sự cân bằng giữa các ví dụ. Mặt khác, kNN chủ yếu phụ thuộc vào số lượng giới hạn các hàng xóm gần nhất không phải xung quanh một biên quyết định, vì vậy, nó phù hợp với việc phân lớp trường hợp tập các ví dụ có biên giao nhau và trường hợp có sự chồng chéo giữa các ví dụ. Từ những ưu và nhược điểm của hai thuật toán SVM và kNN, Hao Zhang, Alexander C. Berg, Michael Maire và Jitendra Malik, 2006 [13] đã đề xuất một phương pháp kết hợp hai thuật toán trên. Công trình là một trong những công trình điển hình sớm nhất về phương pháp SVM-kNN. Ý tưởng cơ bản của phương pháp này là tìm các hàng xóm gần với mẫu truy vấn và huấn luyện một máy vector hỗ trợ cục bộ. Máy vector hỗ trợ cục bộ này duy trì hàm khoảng cách trên tập các hàng xóm. H. Zhang và cộng sự đã chứng minh được rằng phương pháp này có thể áp dụng với tập dữ liệu lớn và đa lớp với kết quả tốt hơn so với khi chỉ áp dụng thuật toán SVM hay kNN. Sau đó, Kunlun Li và cộng sự, 2010 [17] đã đề xuất một phương pháp phân lớp SVM-KNN dựa trên học bán giám sát nhằm cải tiến thuật toán SVM bằng cách tận dụng những ưu điểm của thuật toán kNN đã nêu ra ở trên. Phương pháp này kết hợp thuật toán SVM và kNN, trong đó có sử dụng những thông tin từ dữ liệu chưa gán nhãn – những thông tin này có thể giúp khôi phục các biên quyết định đúng cho việc phân lớp. Trong thuật toán SVM, các vector hỗ trợ quyết định các biên quyết định một cách trực tiếp, trong khi các vector biên có thể là một ứng viên tốt cho vị trí vector hỗ trợ (hình 7), do đó, phương pháp này sử dụng các vector biên để khắc phục các biên quyết định trong mỗi lần lặp. Thuật toán kNN được dùng để gán nhãn các vector biên. Những vector biên cuối cùng được trộn với các ví dụ huấn luyện khởi tạo để cải tiến độ chính xác của phân lớp. Phương pháp này hiệu quả hơn so với phương pháp của H.Zhang và cộng sự [13]. Do đó, trong khóa luận này, chúng tôi tập trung nghiên cứu phương pháp phân lớp bán giám sát SVM-kNN do K.Li và cộng sự đề xuất năm 2010.
  • 32. 21 Hình 7: Minh họa vector hỗ trợ và vector biên Tư tưởng bán giám sát trong SVM-kNN: Tư tưởng chính của phương pháp này dựa trên lý thuyết học bán giám sát, sử dụng cả dữ liệu đã gán nhãn và dữ liệu chưa gán nhãn cho quá trình phân lớp. Cụ thể là phương pháp sử dụng số ít các dữ liệu đã gán nhãn để huấn luyện một bộ phân lớp SVM và sử dụng bộ phân lớp SVM này để dự đoán dữ liệu chưa được gán nhãn. Từ những dữ liệu đã được gãn nhãn trong tập huấn luyện và những dữ liệu vừa được dự đoán bởi SVM, chọn ra những vector biên,và sử dụng những vector biên này để cải tiến bộ phân lớp SVM đó bằng cách sử dụng kNN. Việc sử dụng kNN để phân lớp không chỉ làm giàu số lượng tập huấn luyện, mà còn làm cải tiến được chất lượng của những ví dụ huấn luyện mới – chính là những ví dụ được chuyển từ các vector biên ở trên. Cuối cùng, tập dữ liệu đã được gán nhãn được mở rộng. Đây cũng chính là mục đích chính trong học bán giám sát. Ba bước chính trong phương pháp SVM-kNN: Đầu tiên, xây dựng một bộ phân lớp SVM yếu dựa trên một số ví dụ đã được gán nhãn có sẵn (tập huấn luyện). Sử dụng bộ phân lớp SVM yếu này để dự đoán nhãn lớp cho số lượng lớn các dữ liệu chưa được gán nhãn còn lại trong tập dữ liệu ban đầu. Từ những ví dụ đã được gán nhãn đó, lấy ra t ví dụ thuộc về mỗi lớp, những ví dụ này đứng xung quanh biên quyết định (các vector biên) bằng cách tính khoảng cách Euclidean trong
  • 33. 22 không gian đặc trưng. Như vậy có được những vector biên đã được gán nhãn bởi bộ phân lớp SVM yếu. Ở bước thứ hai, tiếp tục sử dụng tập các ví dụ huấn luyện ban đầu làm tập huấn luyện để tạo ra bộ phân lớp dựa trên thuật toán kNN. Những vector biên được lấy ra từ bước đầu tiên được coi như là tập kiểm tra cho bộ phân lớp được tạo ra bởi kNN. Các nhãn mới do kNN gán sẽ được gán lại cho các vector biên đó. Cuối cùng, những vector biên và nhãn mới này được đặt vào tập huấn luyện ban đầu để làm giàu số lượng các ví dụ huấn luyện, và sau đó tiếp tục huấn luyện lại SVM. Vòng lặp này kết thúc khi số lượng các ví dụ huấn luyện là k lần toàn bộ tập dữ liệu. Hình 8: Miêu tả khái quát của mô hình đề xuất bởi Kunlun Li, Xuerong Luo vàMing Jin[17] Giả sử tập dữ liệu ban đầu là X gồm n ví dụ, trong đó có l ví dụ đã được gán nhãn (l << n) và u=n-m ví dụ chưa được gán nhãn (l< u). Gọi L⊂ X là tập ví dụ đã gán nhãn (||L||=l), U⊂X là tập ví dụ chưa gán nhãn (||U||=u). Giả sử xét bài toán phân lớp hai lớp (A và B) và tập L chứa các ví dụ thuộc A và B. Chi tiết các bước trong phương pháp này như sau:
  • 34. 23 1-Dùng tập dữ liệu có nhãn L làm ví dụ huấn luyện để xây dựng một phân lớp yếu SVM1. 2-Sử dụng SVM1 để dự đoán lớp của tất cả dữ liệu trong U, sau đó chọn ra 2s (1≤s≤5) ví dụ làm các vector biên: a. Chọn một ví dụ xi thuộc lớp A và tính khoảng cách Euclide giữa xi với tất cả ví dụ của lớp B, sau đó chọn ra s ví dụ của B tương ứng với s khoảng cách tối thiểu. b. Chọn một ví dụ yi thuộc lớp B và tính khoảng cách Euclide giữa yivới tất cả ví dụ của lớp A, sau đó chọn ra s ví dụ của A tương ứng với s khoảng cách tối thiểu. c. Gọi 2s ví dụ trên là vectơ biên và tập 2s vector biên này hợp thành một bộ dữ liệu kiểm tra mới. 3-Dùng thuật toán kNN với tập huấn luyện L để phân lớp 2s vector biên, các vectơ biên sẽ nhận được nhãn mới. 4-Bổ sung 2s vector biên (cùng nhãn của của chúng) vào tập L tạo thành một tập dữ liệu học mở rộng mới (L=L∪ {2s vector biên}) làm tập ví dụ huấn luyện để xây dựng bộ phân lớp SVM2mới. Gán SVM2 cho SVM1. 5-Lặp đi lặp lại các bước từ 2-4 cho đến khi kích thước tập L (tập các ví dụcó nhãn) bằng k (0 < k < 1) lần kích thước của X (toàn bộ bộ dữ liệu). Kết quả của phương pháp bán giám sát do SVM-kNN do K.Li và cộng sự [17] đề xuất có thể hỗ trợ các kết quả lý thuyết học thống kê kết hợp với dữ liệu chưa gán nhãn nhằm cải tiến độ chính xác của bộ phân lớp khi thông tin huấn luyện là không đầy đủ. Để có được kết quả tốt hơn thì có thể điểu chỉnh 3 tham số: k – số hàng xóm gần nhất, là tham số trong bước 3, t – kích thước dữ liệu huấn luyện cần đạt so với kích thước tập toàn bộ dữ liệu, s – số vector biên tùy theo điều kiện thực tiễn. Thực nghiệm của các tác giả với 3 bộ dữ liệu: Iris, Breast cancer và Ionosphere cho thấy kết quả khi áp dụng phương pháp bán giám sát SVM-kNN là khá tốt. Đặc biệt khi chọn tham số tốt, độ chính xác trên tập dữ liệu iris lên tới 98.15%; trên tập Breast cancer khỏang 90% và trên tập Ionosphere độ chính xác khoảng 80%. Bộ tham số s=4 (hoặc 5), k=5 và t=0.6 là hiệu quả nhất cho 3 bộ dữ liệu nói trên.
  • 35. 24 Tóm tắt chương hai: Chương hai đã trình bày chi tiết thuật toán SVM, thuật toán kNN và phương pháp phân lớp bán giám sát SVM-kNN. Phương pháp này đã cho thấy được những ưu điểm vượt trội, cùng với một số kết quả thực nghiệm với độ chính xác cao. Đây là phương pháp chúng tôi sử dụng để giải quyết bài toán gom nhóm đặc trưng sản phẩm. Chương 3 sẽ trình bày chi tiết giải pháp đề xuất dựa trên thuật toán phân lớp bán giám sát này để giải quyết bài toán gom nhóm các đặc trưng trong các đánh giá tiếng Việt đối với các sản phẩm.
  • 36. 25 Chương 3. Giải pháp gom nhóm tự động đặc trưng sản phẩm tiếng Việt 3.1. Một giải pháp gom nhóm đặc trưng sản phẩm tiếng Việt dựa trên phân lớp bán giám sát SVM-kNN kết hợp phân cụm HAC Hướng tiếp cận giải quyết bài toán dựa trên phân lớp bán giám sát EM được Z.Zhai và cộng sự [27] nghiên cứu và phát triển. Tiếp cận theo cách này đã cho kết quả khả quan khi giải quyết bài toán, với độ đo purity thuộc khoảng 0.66-0.70 và độ đo accuracy thuộc khoảng 0.67-0.71. Tuy nhiên, việc tạo tập huấn luyện cho bộ phân lớp EM khi thay đổi miền sản phẩm vẫn phải làm một cách thủ công. Chính vì thế, chúng tôi đề xuất một giải pháp tự động gom nhóm đặc trưng sản phẩm tiếng Việt dựa trên phân lớp bán giám sát SVM-kNN kết hợp phân cụm HAC. Trong giải pháp này, chúng tôi không tạo một tập huấn luyện bằng tay để tạo ra một bộ phân lớp khi thay đổi miền sản phẩm, mà thay vào đó, tập huấn luyện này được tạo một cách tự động nhờ áp dụng thuật toán phân cụm HAC. Chúng tôi chọn thuật toán phân cụm phân HAC vì đây là một thuật toán phân cấp cho phép người dùng đưa ra một ngưỡng để dừng thuật toán nếu độ tương tự giữa 2 cụm nhỏ hơn ngưỡng này. Do đó, những mẫu đã được đưa vào cụm có chất lượng tốt. Nhờ vậy mà phân lớp SVM-kNN cũng sẽ có được kết quả cao. Tư tưởng chính của giải pháp đề xuất như sau: Các thể hiện đặc trưng sẽ được đưa vào các nhóm đặc trưng - cụm khác nhau, sao cho các thể hiện đặc trưng trong cùng một cụm thì cùng chỉ đến một đặc trưng sản phẩm nào đó, trong đó một cụm có thể có nhiều thể hiện đặc trưng nhưng một thể hiện đặc trưng chỉ có thể thuộc vào một nhóm đặc trưng. Ví dụ, cụm “hình thức” có thể có nhiều thể hiện đặc trưng như: “mẫu mã”, “thiết kế”, “kiểu cách”, “kiểu dáng”,… ; nhưng một thể hiện đặc trưng “mẫu mã” chỉ thuộc vào một cụm “hình thức”. Vì hiện nay, tại Việt Nam chưa có bộ từ điển đồng nghĩa, do đó độ tương tự giữa 2 thể hiện đặc trưng dùng trong phân cụm HAC được tính dựa trên độ tương tự về ngữ nghĩa và ngữ cảnh của 2 thể hiện đặc trưng đó. Ngữ nghĩa của mỗi thể hiện đặc trưng được thể hiện thông qua bộ từ
  • 37. 26 điển Việt-Việt. Ngữ cảnh của mỗi thể hiện đặc trưng được xác định bằng cách xem xét các từ xuất hiện xung quanh thể hiện đặc trưng trong các đánh giá của khách hàng. Vì kết quả phân cụm có thể có sai sót, nên chúng tôi đưa ra một ngưỡng cho trước. Ngưỡng này được so sánh với độ đo tương đồng giữa 2 thể hiện đặc trưng nhằm tạo ra một tập huấn luyện có độ chính xác cao. Sau khi áp dụng thuật toán HAC, thu được các cụm chứa các thể hiện đặc trưng. Với cụm có nhiều hơn một thể hiện đặc trưng, nếu coi các cụm là các nhãn lớp và các thể hiện đặc trưng là các mẫu, thì các mẫu này được xem là những mẫu đã được gán nhãn.Với cụm chỉ có 1 thể hiện đặc trưng thì coi các mẫu này là những mẫu chưa gán nhãn. Sử dụng những mẫu gán nhãn và chưa gán nhãn cùng với ngữ cảnh của những mẫu này để áp dụng phân lớp bán giám sát SVM-kNN. Chi tiết các bước được biểu diễn bởi mô hình hình 9. Đầu vào: - Tập các thể hiện đặc trưng - Tập các đánh giá của khách hàng S đã được tách từ Đầu ra: - Tập các thể hiện đặc trưng cùng với nhóm đặc trưng tương ứng Phát biểu bài toán: Coi mỗi thể hiện đặc trưng là một mẫu dữ liệu, mỗi nhóm đặc trưng là một lớp. Cần xây dựng một bộ phân lớp SVM-kNN để phân lớp các mẫu dữ liệu này vào các lớp khác nhau, thỏa mãn các mẫu dữ liệu thuộc cùng một lớp thì có một độ tương tự nhất định về ngữ nghĩa và ngữ cảnh của miền sản phẩm nào đó, và mỗi mẫu chỉ thuộc về một lớp nhưng một lớp có thể có nhiều mẫu. Các pha chính: 1. Biểu diễn vector thể hiện đặc trưng 2. Tạo tập huấn luyện SVM-kNN 3. Phân lớp SVM-kNN
  • 38. 27 Hình 9: Mô hình đề xuất gom nhóm đặc trưng đồng nghĩa Chi tiết về các bước trong mỗi pha cũng như chi tiết về giải pháp đề xuất được trình bày ở mục 3.1, 3.2 và 3.3. 3.2. Pha 1: Biểu diễn vector thể hiện đặc trưng Khóa luận tập trung xây dựng một mô hình gom nhóm đặc trưng đồng nghĩa, trong đó, các đặc trưng được xác định là đồng nghĩa dựa trên ngữ nghĩa và ngữ cảnh của những đặc trưng đó. Để áp dụng được thuật toán phân lớp bán giám sát SVM-kNN và phân cụm HAC, cần phải có 1 tài liệu ti để thể hiện ngữ nghĩadivà ngữ cảnhcicho mỗi thể hiện đặc trưng ei. tiđược tạo thành bởi việc kết hợp ngữ nghĩa của thể hiện đặc trưng trong từ điển Việt – Việt và ngữ cảnh của các câu sij trong tập S mà chứa thể hiện đặc trưng ei. Chính vì vậy, chúng tôi biểu diễn một thể hiện đặc trưng dưới dạng một vector thông qua ngữ nghĩa và ngữ cảnh của thể hiện đặc trưng đó.
  • 39. 28 3.2.1. Xác định ngữ nghĩa của các thể hiện đặc trưng. Việc xác định ngữ nghĩa của các thể hiện đặc trưng eidựa trên định nghĩa của những từ đó trong từ điển Việt-Việt.Chúng tôi sử dụng từ điển Việt – Việt trên website http://www.tratu.vn. Thuật toán trích xuất ngữ nghĩa của các thể hiện đặc trưng là khá đơn giản. Ví dụ, từ thể hiện đặc trưng “kiểu dáng” được định nghĩa trong từ điển là: Nghĩa = “hình dáng bên ngoài được làm theo một mẫu, một kiểu, phân biệt với các kiểu khác (nói khái quát)”.Do đó, ngữ nghĩa của từ “kiểu dáng” là cặp <kiểu dáng, Nghĩa>. Với những từ có nhiều nghĩa, chúng tôi thực hiện trích xuất tất cả các nghĩa của từ đó. Ví dụ, từ thể hiện đặc trưng “hình ảnh” có 2 nghĩa trong từ điển Việt – Việt, là: Nghĩa 1 = “hình người, vật, cảnh tượng thu được bằng khí cụ quang học (như máy ảnh), hoặc để lại ấn tượng nhất định và tái hiện được trong trí”. Nghĩa 2 = “khả năng gợi tả sinh động trong cách diễn đạt”. Ngữ nghĩa trong trường hợp này là 2 cặp <hình ảnh, Nghĩa 1>và <hình ảnh, Nghĩa 2>. Đầu vào: Thể hiện đặc trưng Đầu ra: Ngữ nghĩa của thể hiện đặc trưng đầu vào Các bước: 1. Truy vấn vào trang http://tratu.vn/dict/vn_vn/ để lấy mã nguồn trang chứa ngữ nghĩa của từ 2. Phân tích mã nguồn trang web để tìm được ngữ nghĩa của từ 3. Duyệt với mỗi 1 ngữ nghĩa tìm được 3.1. Nếu kết quả chứa "như 'từ khóa' " thì "Thực hiện lại việc tìm nghĩa của 'từ khóa' mới" 3.2. Nếu không thì "thêm ngữ nghĩa vào nghĩa của từ ban đầu" 4. Trả về ngữ nghĩa của từ
  • 40. 29 Sau đó, tiến hành loại bỏ từ dừng (do từ dừng không mang lại ý nghĩa cho câu) và tách từ.Khi đó, thể hiện đặc trưng và nghĩa tương ứng được biểu diễn thông qua một tập các từ. Ở ví dụ về từ “kiểu dáng” trên, ngữ nghĩa của nó được biểu diễn là: di = <kiểu dáng, hình dáng, bên ngoài, mẫu, kiểu, phân biệt, kiểu, khái quát> 3.2.2. Xác định ngữ cảnh của thể hiện đặc trưng Khóa luận này xem xét ngữ cảnh của mỗi câu là những từ xuất hiện xung quanh thể hiện đặc trưng ei trong cửa sổ [-a,a], a∈Z* và chính bản thân ei. Để làm rõ khái niệm ngữ cảnh này, xem xét ví dụ sau đây: Một thể hiện đặc trưng từ tập S đã trích xuất được là ei = “pin”. Trong tập S có 3 câu chứa từ “pin” là: si1= “pin không được lâu lắm”. si2= “thấy pin hơi yếu nên chỉ lo lắng cái pin”. si3 = “pin mau hết quá”. Ngữ cảnh của câu si1 được thể hiện thông qua các từ<pin, không, được, lâu>. Tương tự với câu si2 và si3, có được ngữ cảnh của chúng là<thấy, pin, hơi, yếu > và <pin, mau, hết>. Cuối cùng, thu được ngữ cảnh cho thể hiện đặc trưng ei là: ci = <pin, không, được, lâu, thấy, pin, hơi, yếu, pin, mau, hết> 3.2.3. Biểu diễn thể hiện đặc trưng dưới dạng vector Mỗi một thể hiện đặc trưng được thể hiện thông qua ngữ nghĩa và ngữ cảnh đã trích xuất được của chúng. Trước khi bước vào qúa trình phân lớp cho các thể hiện đặc trưng này, chúng tôi thực hiện việc biểu diễn thể hiện đặc trưng dưới dạng vector. Coi tập D gồm có m văn bản, là m cặp <thể hiện đặc trưng, nghĩa>. Mỗi văn bản cần được biểu diễn trong một không gian nhiều chiều, trong đó mỗi chiều tương ứng với một từ. Như vậy: - Số chiều trong không gian chính là số từ xuất hiện tập D. Tập các từ này được gọi là tập từ vựng. - Giá trị của mỗi chiều trong không gian vector là trọng số được đánh cho từ đó trong tập D.
  • 41. 30 Có hai phương pháp đánh trọng số cho từ điển hình, là phương pháp Boolean và phương pháp dựa trên tần số [3]. Phương pháp dựa trên tần số xác định được độ quan trọng của mỗi từ trong mỗi văn bản tốt hơn so với phương pháp Boolean do dựa trên tần số xuất hiện của những từ vựng trong văn bản và tần số xuất hiện của văn bản trong tập D. Do vậy, chúng tôi sử dụng phương pháp đánh trọng số dựa trên tần số để áp dụng trong khóa luận này. Một phương pháp chuẩn thường được sử dụng dựa trên phương pháp đánh trọng số dựa trên tần số là Term Frequency Inverse Document Frequency (TFIDF). Đây cũng là công thức được lựa chọn cho khóa luận trong việc tính trọng số cho các từ. Hàm tính trọng số được xác định bởi công thức: , , | | *log( )l d l d l D TFIDF freq df = Trong đó, tần xuất từ l trong văn bản d : freql,d là số lần xuất hiện của từ l trong văn bản d. Tần xuất văn bản dfl là số văn bản trong D có chứa từ l . Trọng số TFIDF của một từ mục biểu diễn độ quan trọng của từ mục.TFIDF của một từ mục trong một tài liệu sẽ giảm nếu như từ đó xuất hiện trong hầu hết các văn bản. Vì vậy, một từ xuất hiện quá ít hoặc quá nhiều được đánh giá ít quan trọng hơn so với các từ xuất hiện cân bằng. 3.3. Pha 2: Tạo tập huấn luyện cho bộ phân lớp SVM-kNN Giải pháp đề xuất cho bài toán gom nhóm đặc trưng đồng nghĩa dựa trên phương pháp phân lớp bán giám sát SVM-kNN, tức là cần phải xây dựng một bộ phân lớp SVM- kNN từ dữ liệu đã được gán nhãn và dữ liệu chưa được gán nhãn. Các dữ liệu đã được gán nhãn đó được gọi là tập huấn luyện.Thông thường, để tạo tập huấn luyện cho bộ phân lớp SVM-kNN, dữ liệu chưa được gán nhãn cần phải được gán nhãn thủ công. Mặc dù, đối với phân lớp bán giám sát thì chỉ cần số lượng dữ liệu được gán nhãn ít hơn nhiều so với dữ liệu chưa được gán nhãn. Tuy nhiên, công việc gán nhãn vẫn tốn khá nhiều thời gian và công sức. Do vậy, chúng tôi đề xuất một phương pháp trong việc tạo tập huấn luyện cho bộ phân lớp SVM-kNN một cách tự động, không đòi hỏi việc gán nhãn thủ công – Đó là sử dụng thuật toán phân cụm phân cấp tích tụ từ dưới lên (Hierarchyical Agglomerative Clustering – HAC).
  • 42. 31 Tư tưởng chính của thuật toán HAC: Thuật toán HAC là thuật toán phân cụm được sử dụng rất rộng rãi và được tích hợp vào các ứng dụng thu thập thông tin [3]. Đầu tiên, mỗi mẫu dữ liệu được coi như một cụm phân biệt.Sau đó, tiến hành ghép lần lượt hai cụm giống nhau nhiều nhất hay khác nhau ít nhất làm một.Việc làm này được tiếp tục cho đến khi tất cả các cụm được ghép vào một cụm duy nhất chứa tất cả các mẫu.Hình 10 và hình 11 minh họa các mẫu dữ liệu trước và sau quá trình phân cụm. Hình 10: Sơ đồ các phần tử trước khi phân cụm Hình 11: Sơ đồ các phần tử sau khi phân cụm phân cấp tích tụ từ dưới lên – HAC
  • 43. 32 Mục 3.2.1 và 3.2.2 sẽ trình bày chi tiết việc áp dụng thuật toán HAC cho bài toán gom nhóm đặc trưng đồng nghĩa trong các đánh giá tiếng Việt của khách hàng. 3.3.1. Quá trình phân cụm Các tham số dùng trong quá trình phân cụm HAC: G là tập hợp các cụm. D là tập hợp các cặp <thể hiện đặc trưng, nghĩa> cần phân cụm. Gọi mỗi cặpnày là 1 văn bản. là ngưỡng để cắt cây phân cấp HAC tìm ra được số cụm, tương ứng là số nhóm đặc trưng. Các bước trong quá trình phân cụm: Độ đo tương tự sử dụng trong quá trình phân cụm: - Độ tượng tự giữa 2 cụm đơn (cụm chỉ chứa 1 văn bản)sử dụng độ đo Euclide, được định nghĩa: sim (d1 , d2) = cos (d1 , d2) Trường hợp 1 thể hiện đặc trưng có nhiều nghĩa thì như vậy cụm chứa thể hiện đặc trưng đó có thể tương tự với nhiều cụm khác nhau. Để tránh trường hợp này, chúng tôi chỉ xét 1 thể hiện đặc trưng chỉ thuộc 1 cụm nào mà có độ tương tự cao nhất trong các độ tương tự ứng với từng nghĩa của thể hiện đặc trưng đó với những thể hiện đặc trưng khác. 1. G {{d} | d thuộc S } (Khởi tạo G là tập các cụm chỉ gồm 1 cặp <thể hiện đặc trưng, nghĩa> 2. Tìm 2 cụm Si và Sj thuộc G sao cho: (i , j) = arg max(i , j) sim (Si , Sj) (Tìm 2 cụm có độ tương tự lớn nhất) 3. Nếu sim (Si, Sj) < thì dừng thuật toán. (Độ tương tự của 2 cụm nhỏ hơn ngưỡng cho phép) 4. Loại bỏ Si, Sj khỏi G 5. G = G {Si, Sj} 6. Chuyển đến bước 2
  • 44. 33 Nói cách khác, nếu gọi I = (di1, di2, …, din) là các nghĩa của tài liệu di và J = (dj1, dj2, …, djm) là các nghĩa của tài liệu dj thì độ tương tự được tính bởi: ,( , ) ax os( , )it jki j d I d J it jksim d d m c d d∈ ∈= - Độ tương tự giữa 2 cụm không đơn S1 và S2 (cụm chứa nhiều hơn 1 văn bản) được tính dựa trên một số phương pháp tính độ tương tự như: + Đo độ tương tự giữa trọng tâm c1, c2của S1và S1: sim(S1, S2) = sim(c1, c2) + Đo độ tương tự cực đại giữa 2 văn bản thuộc vào 2 cụm (hay còn gọi là single- link): sim(S1, S2) = max 1 1 2 2,d S d S∈ ∈ sim (d1, d2) + Đo độ tương tự cực tiểu giữa 2 mẫu thuộc vào 2 cụm (hay còn gọi là complete- link): sim(S1, S2) = min 1 1 2 2,d S d S∈ ∈ sim (d1, d2) + Đô độ tương tự trung bình giữa các mẫu trong 2 cụm (hay còn gọi là group- average): 1 1 2 2 1 2 1 2 ,1 2 1 ( , ) ( , ) | || | d S d S sim S S sim d d S S ∈ ∈ = ∑ Theo [3], độ đo group-average tránh được những trường hợp không mong muốn gặp phải như các độ đo còn lại, như : Độ đo single-link mang tính cục bộ, do vậy chất lượng phân cụm có thể sẽ kém nếu có trường hợp chỉ có duy nhất 2 văn bản ở trong 2 cụm là gần nhau, còn các văn bản còn lại trong 2 cụm là ở rất xa nhau. Độ đo complete- link, tương tự với độ đo single-link, chất lượng phân cụm có thể sẽ kém nếu có trường hợp chỉ có duy nhất 2 văn bản ở trong 2 cụm là xa nhau, còn các văn bản còn lại trong 2 cụm là ở rất gần nhau. Hơn nữa, cả 2 độ đo này có thể tạo ra các cụm không mong muốn do đều đánh giá độ tương tự của 2 cụm dựa trên một cặp văn bản duy nhất. Độ tương tự giữa trọng tâm của các cụm từ dưới lên trên cây phân cấp có thể là không giảm dần. Điều này trái ngược với giả thuyết cơ bản là các cụm nhỏ thường có độ kết dính cao hơn các cụm có kích thước lớn hơn.
  • 45. 34 Từ những nhận xét trên, khóa luận này tập trung sử dụng độ đo Euclide để tính độ tương tự giữa 2 cụm đơn và độ đo group-avarage để tính toán độ tương tự giữa 2 cụm không đơn. 3.3.2. Gán nhãn cho các cụm Việc gãn nhãn cho cụm là một việc đóng vai trò quan trọng trong giải pháp đề xuất của chúng tôi. Bởi vì, việc quyết định gãn nhãn cho cụm sẽ ảnh hưởng trực tiếp đến tên lớp cho bộ phân lớp sau đó. Như vậy, nếu gãn nhãn cho các cụm không tốt sẽ gây ra một tên lớp không tốt và do đó tên của nhóm đặc trưng cũng sẽ không phù hợp. Khóa luận này sử dụng phương pháp gán nhãn cho các cụm là chọn các từ khóa có trọng số (tần suất) cao làm nhãn cho cụm. Phương pháp này không quan tâm đến nội dung của các cụm khác mà chỉ quan tâm đến bản thân nội dụng của cụm. Như vậy, sau pha 1, thu được các thể hiện đặc trưng nằm trong cụm đơn và các thể hiện đặc trưng nằm trong cụm không đơn. 3.3.Pha 2: Phân lớp bán giám sát SVM-kNN Tập những thể hiện đặc trưng nằm trong cụm không đơn được coi là tập các mẫu huấn luyện đã gán nhãn, và tập những thể hiện đặc trưng nằm trong cụm đơn là tập các mẫuchưa gán nhãn cho bộ phân lớp SVM-kNN. Bộ phân lớp bán giám sát SVM-kNN sẽ học trên cả những mẫu chưa được gán nhãn và mẫu đã được gán nhãn đó. Quá trình phân lớp bán giám sát SVM-kNN trong bài toán gom nhóm đặc trưng dựa trên cơ sở phương pháp phân lớp bán giám sát SVM-kNN do Kunlun Li và cộng sự [17] đề xuất đã được trình bày trong khóa luận ở chương 2. Tuy nhiên, để có được kết quả tốt hơn, thay vì sử dụng những vector biên làm tập kiểm tra cho bộ phân lớp kNN, chúng tôi sử dụng các vector hỗ trợ làm tập kiểm tra, vì các vector hỗ trợ là những mẫu dữ liệu có độ tin cậy cao.Nhờ vậy mà kết quả của bộ phân lớp SVM cuối cùng sẽ cao hơn nhiều. Quá trình phân lớp bán giám sát SVM-kNN sử dụng thuật toán học giám sát SVM và học giám sát kNN cơ bản. Nhiệm vụ của thuật toán SVM trong phương pháp này là tạo ra một bộ phân lớp SVM yếu từ những mẫu đã được gán nhãn.Sử dụng vector hỗ trợ để cải tiến bộ phân lớp SVM yếu này bằng cách áp dụng thuật toán kNN.Sau đó, khi có được tập huấn luyện đã được gán nhãn đã được làm giàu bởi kNN, tiếp tục huấn luyện tập mẫu đã được gán nhãn đó sử dụng SVM.Nhiệm vụ của thuật toán kNN không chỉ làm giàu số
  • 46. 35 lượng tập huấn luyện đã được gán nhãn mà còn cải tiến chất lượng của những mẫu đã được gán nhãn mới. Thuật toán phân lớp bán giám sát SVM-kNN cho bài toán gom nhóm đặc trưng trở thành như sau: Đầu vào: L: Tập các mẫu huấn luyện đã gán nhãn c: Số lượng cụm sau bước 1 (số nhóm đặc trưng) U: Tập các mẫu chưa gán nhãn SVM: Thuật toán học giám sát SVM cơ bản kNN: Thuật toán học kNN cơ bản s: số vector hỗ trợ cần lấy ở mỗi lớp t: kích thước tập mẫu cần đạt Thuật toán: 1. Dùng thuật toán SVM với tập ví dụ có nhãn L để tạo bộ phân lớp SVM1. 2. Lặp cho đến khi ||L|| ≥ t * ||L∪U|| Begin 2.1. Cho SVM1 gán nhãn các mẫu trong U. 2.2. Lấy s*c vector hỗ trợ từ U làm tập dữ liệu test cho thuật toán kNN ở bước 4. 2.3. Dùng thuật toán kNN với tập ví dụ huấn luyện L gán nhãn lại cho s dữ liệu test. Gọi tập s ví dụ có nhãn này là NEW. 2.4. L ← L ∪ NEW; U ← U NEW (Cập nhật lại hai tập L và U theo Chuyển các mẫu đã được gán nhãn lại vào tập huấn luyện L được tập L’ . 2.5. Dùng thuật toán SVM với tập ví dụ có nhãn L để tạo ra bộ phân lớp SVM2 2.6. SVM1 ← SVM2. End 3. Dùng bộ phân lớp SVM2 gán nhãn cho mọi ví dụ thuộc tập U.
  • 47. 36 Quá trình phân lớp bán giám sát SVM-kNN dừng lại khi số dữ liệu đã được gán nhãn không nhỏ thua t (0 < m < 1) phần tổng số dữ liệu. Sau đó bộ phân lớp SVM2 tiến hành gán nhãn cho tất cả các dữ liệu chưa gán nhãn còn lại. Vì thuật toán S3VM-kNN gốc trong [16] chỉ làm việc với số nhãn lớp là 2 cho nên thuật toán SVM cơ sở trong mô hình của chúng tôi phải làm việc được với số lớp (tương ứng với số nhóm đặc trưng) lớn hơn. Để giải quyết bài toán SVM đa lớp, theo Jagath C. Rajapakse, Limsoon Wong và Raj Acharya, 2006 [15], có hai hướng tiếp cận: một là xử lý trực tiếp tất cả các dữ liệu trên một công thức tối ưu hóa; hai là phân tích đa lớp thành một chuỗi các SVM nhị phân. Ở cách tiếp cận thứ hai, có khác nhiều chiến lược phù hợp, tuy nhiên, 3 chiến lược: “one-against-all”, “one-against-one” và DAGSVM được đánh giá là tốt nhất [15]. Theo C.-W. Hsu and C.-J. Lin, 2002 [14], thực nghiệm áp dụng 3 chiến lược trên cho tập dữ liệu lớn thì chiến lược “one-against-one” và DAGSVM là 2 chiến lược cho kết quả cao nhất. Khóa luận này sử dụng chiến lược “one-against-one” làm chiến lược cho thuật toán SVM cơ bản. Gọi k là số lớp cần gán nhãn. Tập L là tập đã gán nhãn hay tập huấn luyện gồm l phần tử: (x1,y1), …,(xl,yl); trong đó xi∈Rn , i = 1,…, l và yi∈{1,…, k} là lớp tương ứng của xi. Chiến lược này xây dựng k(k-1)/2 bộ phân lớp, trong đó mỗi một bộ phân lớp được huấn luyện trên dữ liệu từ 2 lớp. Với dữ liệu huấn luyện từ các lớp thứ i và j, phương pháp sẽ giải quyết phân lớp nhị phân như sau: ij ij ij ij ij ij ij w , , 1 min (w ) w (w ) 2 T T t b t C ξ ξ+ ∑ ij ij ij (w ) ( ) 1T t tx b ξ∅ + ≥ − nếu ty i= ij ij ij (w ) ( ) 1T t tx b ξ∅ + ≤ − + nếu ty j= ij 0tξ ≥ ij 0tξ ≥ Hiện nay có khá nhiều mã nguồn để hỗ trợ cho việc thực thi thuật toán SVM đa lớp, trong đó LibSVM [9] là một bộ thư viện được viết bằng ngôn ngữ C++ và Java cho phép phân lớp vector hỗ trợ, hồi qui và ước lượng phân phối. Chính vì vậy, chúng tôi chọn LibSVM làm công cụ cho việc thực thi thuật toán SVM trong bài toán của chúng tôi. Bộ phần mềm mã nguồn mở này cài đặt thuật toán SVM đa lớp sử dụng chiến lược “one- against-one” đã trình bày ở trên.
  • 48. 37 Như vậy, sau quá trình phân lớp bán giám sát SVM-kNN, các dữ liệu chưa được gán nhãn đều đã được gán nhãn lớp. Nói cách khác, sau 3 pha, hệ thống thu được nhóm đặc trưng cùng các thể hiện đặc trưng tương ứng. Tóm tắt chương 3 Chương 3 của khóa luận trình bày về tư tưởng chính của phương pháp đề xuất cho bài toán gom nhóm đặc trưng đồng nghĩa dựa trên phân lớp bán giám sát SVM-kNN và thuật toán phân cụm HAC. Khóa luận cũng đã giới thiệu chi tiết các pha cũng như các bước trong từng pha của phương pháp đề xuất. Trong chương tiếp theo, khóa luận tiến hành thực nghiệm trên phương pháp đã xây dựng và đánh giá kết quả đạt được của phương pháp đề xuất.
  • 49. 38 Chương 4. Thực nghiệm và đánh giá Dựa vào mô hình đề xuất ở chương 3, khóa luận tiến hành thực nghiệm việc gom nhóm đặc trưng sản phẩm đồng nghĩa trong các đánh giá tiếng Việt của khách hàng. Để làm rõ mô hình đề xuất cũng như 3 pha chính trong mô hình, các thực nghiệm trên miền sản phẩm điện thoại di động được tiến hành. Khóa luận tập trung đánh giá kết quả thực nghiệm từ 2 pha: tạo tập huấn luyện cho SVM-kNN và phân lớp SVM-kNN. 4.1. Môi trường và các công cụ sử dụng thực nghiệm Cấu hình phần cứng Thành phần Chỉ số CPU 2.2 GHz Core Duo Intel RAM 1GB OS Windows7 Bộ nhớ ngoài 160GB Bảng 1. Cấu hình hệ thống thử nghiệm Các phần mềm sử dụng STT Tên phần mềm Tác giả Nguồn 1 Eclipse-SDK- 3.5-win32 http://www.eclipse.org/downloads 2 WordSeg Phạm Đức Đăng, Trần Bình Giang, Phạm Bảo Sơn 3 LibSVM C. Chang, C.-J. Lin http://www.csie.ntu.edu.tw/~cjlin/libsvm/
  • 50. 39 4 Weka Machine Learning Group, University of Waikato. http://www.cs.waikato.ac.nz/ml/weka/ 5 ASV Toolbox Chris Biemann, Uwe Quasthoff, Gerhard Heyer and Florian Holz http://wortschatz,uni- leipzig.de/~cbiemann/software/toolbox/ Bảng 2. Công cụ phần mềm sử dụng Ngoài các công cụ trên, chúng tôi tiến hành cài đặt các module xử lý dựa trên ngôn ngữ Java, bao gồm các package chính như sau: - Om.Classifying: - Om.Dictionary: - Om.File: - Om.libsvm: - Om.Webpage: - File Run: 4.2. Xây dựng tập dữ liệu Khóa luận thực nghiệm trên miền dữ liệu là các đánh giá của khách hàng trong miền sản phẩm điện thoại di động. Tập các đánh giá của người dùng được chúng tôi thu thập từ website bán hàng trực tuyến http://wwwthegioididong.com. Các đánh giá có cấu trúc gồm người đánh giá, thời gian đánh giá và nội dung ý kiến. Tập các thể hiện đặc trưng là các đặc trưng đã trích xuất được bởi mô hình khai phá và tổng hợp quan điểm khách hàng mà chúng tôi đã xây dựng trong [21]. Dữ liệu đầu vào Số lượng Các đánh giá của khách hàng 669 comment
  • 51. 40 Các thể hiện đặc trưng 152 đặc trưng Bảng 3: Bảng số lượng dữ liệu đầu vào 4.3. Thực nghiệm Thực hiện gom nhóm các đặc trưng sản phẩm điện thoại di động đồng nghĩa trong tập các đánh giá của khách hàng. 4.3.1. Quá trình biểu diễn vector thể hiện đặc trưng - Trích xuất ngữ nghĩa của thể hiện đặc trưng bằng cách tiến hành lấy định nghĩa của thể hiện đặc trưng trên website http://tratu.vn, chứa 36.862 từ trong từ điển Việt – Việt. - Trích xuất ngữ cảnh của thể hiện đặc trưng bằng cách tiến hành trích xuất ra các câu có chứa tên thể hiện đặc trưng trong 669 câu đánh giá của khách hàng. - Với mỗi thể hiện đặc trưng, thu được các bộ <thể hiện đặc trưng, ngữ nghĩa, ngữ cảnh>. Tiến hành tách từ bằng phần mềm WordSeg [11] và loại bỏ từ dừng (tập từ dừng có trong file vnstopword.txt). - Biểu diễn TFIDF để tính trọng số các từ. 4.3.2. Thực nghiệm tạo tập huấn luyện cho SVM-kNN Việc tạo tập huấn luyện cho SVM-kNN được thực hiện dựa trên phân cụm HAC kết hợp ngưỡng α. Chúng tôi thực nghiệm trên 5 giá trị ngưỡng α. Sau đó, lấy ra những cụm không đơn và tính độ chính xác của những mẫu đã được đưa vào cụm, kết quả thu được như bảng 4. Giá trị α Số cụm thu được Tổng số mẫu trong cụm Độ chính xác 0.3 20 88 60.08% 0.4 14 72 86.98% 0.5 10 51 100%
  • 52. 41 0.6 7 34 100% 0.7 5 22 100% Bảng 4. Kết quả thực nghiệm thuật toán HAC với 5 giá trị ngưỡng α Nhận xét: Tại ngưỡng α = 0.4, α = 0.5, α = 0.6, α = 0.7 thì độ chính xác đạt được là 100%. Tuy nhiên, để có được tập huấn luyện tốt cho phân lớp bán giám sát SVM-kNN, thì ngoài độ chính xác cao cần có số lượng tập huấn luyện tốt. Do vậy, giá trị ngưỡng α là 0.5 với số mẫu thu được là 51, là phù hợp làm tập dữ liệu huấn luyện cho phân lớp SVM- kNN. 9 cụm thu được với giá trị ngưỡng α= 0.5 được thể hiện trong bảng 5. Đây cũng là 9 cụm mà khóa luận sử dụng làm tập dữ liệu đã gán nhãn để huấn luyện SVM-kNN. Tuy nhiên, việc gán nhãn cho lớp cho kết quả chưa tốt (ví dụ cụm 9, tên cụm là thẻ nhớ, chưa bao quát được các thể hiện trong cụm). STT Tên cụm Các thể hiện đặc trưng 1 Giá Tiền, giá, giá thành 2 Ảnh Camera, chụp hình, hình ảnh, hình, máy ảnh, ảnh, chụp ảnh 3 Nhạc Tai nghe, âm thanh, nghe nhạc, nhạc, loa, loa ngoài 4 Ứng dụng Symbian, hệ điều hành, ứng dụng, tính năng, nhắn tin 5 Bàn phím Phím, bàn phím, navi, phím navi, phím điều khiển, phím quang học, quang học 6 Hình thức Kiểu dáng, màu, màu sắc, mẫu mã, kiểu cách,hình thức
  • 53. 42 7 Màn hình Điện dung, điện trở, màn hình, cảm ứng 8 Mạng Mạng, internet, gprs, gps 9 Thẻ nhớ Thẻ nhớ, thẻ, phụ kiện, usb, phần cứng, cấu hình 10 Phim Phim, xem phim Bảng 5. Các thể hiện đặc trưng cùng các cụm không đơn tương ứng 4.3.3. Thực nghiệm phân lớp bán giám sát SVM-kNN: a. Dữ liệu đã gán nhãn chiếm 30% tổng số dữ liệu Từ số ít các thể hiện đặc trưng cùng 9 cụm không đơn tương ứng (dữ liệu đã gán nhãn), và các thể hiện đặc trưng nằm trong cụm đơn (dữ liệu chưa được gán nhãn) thu được, tiến hành phân lớp bán giám sát SVM-kNN. Dựa trên những thể hiện đặc trưng thu được trong cụm 9 ở bảng 5, chúng tôi tiến hành thay đổi tên nhãn là “phần cứng” cho phù hợp với những đặc trưng trong cụm, nhằm kiểm tra độ chính xác của phân lớp SVM- kNN. Khóa luận sử dụng bộ phần mềm mã nguồn mở LIBSVM [9] để áp dụng thuật toán SVM cơ bản, và bộ phần mềm mã nguồn mở WEKA [19] để thực thi thuật toán kNN cơ bản. Các tham số sử dụng trong phân lớp bán giám sát SVM-kNN là: k – số hàng xóm gần nhất, là tham số khi sử dụng thuật toán kNN, t – kích thước dữ liệu huấn luyện cần đạt so với kích thước tập toàn bộ dữ liệu, s – số vector hỗ trợ. Thuật toán SVM là bước đầu tiên trong SVM-kNN, do vậy, việc chọn các tham số cho SVM là rất quan trọng, ảnh hưởng đến các bộ phân lớp SVM sau, đặc biệt là tham số hàm nhân. Chúng tôi thực hiện khảo sát độ chính xác của SVM (bằng cách lựa chọn số lần kiểm thử chéo fold-validation là 10) trên 4 hàm nhân được tích hợp trong LIBSVM là hàm nhân tuyến tính, hàm nhân đa thức, hàm vòng RBF, hàm chữ S Sigmoid. Kết quả độ chính xác lần lượt là 51.12%, 35.4%, 29.09% và 32.98%. Vì vậy, chúng tôi chọn hàm nhân tuyến tính cho phân lớp SVM.
  • 54. 43 Theo K.Li và cộng sự [17], tham số k=5, t=0.8 là hiệu quả. Do đó, chúng tôi tiến hành thực nghiệm trên một số tham số s khi k=5 và t = 0.8. Phương pháp đánh giá mà chúng tôi sử dụng dựa trên 3 độ đo Entropy, Purity và Accuracy tương tự [17]. Gọi n là tổng số thể hiện đặc trưng. Ba độ đo được tính như sau: Lớp thực tế Lớp dự đoán 1 … j … m 1 n11 … n1j … n1m … … … … … … i ni1 … nịj … nim … … … ... … … m nm1 … nmj … nmm ij ij 1 1 ij ij 1 1 log m m j m m j i i i n n n Entropy n n n= = = = = ∑ ∑ ∑ ∑ ij 1 1 ij 1 ur ax m m j mi j i i n n P ity m n n= = = = ∑ ∑ ∑ 1 m ii i n Accuracy n = = ∑ 1 m ii i n A ccu ra cy n = = ∑ Kết quả thu được như bảng 6. Ent Pur Acc s=3 1.34 0.62 0.66 s=4 1.23 0.68 0.65