SlideShare a Scribd company logo
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trần Ngọc Hà
ỨNG DỤNG TẬP THÔ VÀO TÌM KIẾM WEB
LUẬN VĂN THẠC SĨ
Hà Nội 2010
Mục lục
MỞ ĐẦU........................................................................................................... 6
Danh sách bảng biểu.......................................................................................... 4
Danh sách hình vẽ.............................................................................................. 5
Chương 1: GIỚI THIỆU TỔNG QUAN ........................................................... 9
1.1. Lý do chọn đề tài.....................................................................................9
1.2. Phạm vi công việc .................................................................................10
1.3. Cấu trúc luận văn...................................................................................10
Chương 2: MÁY TÌM KIẾM WEB .................................................................12
2.1. Khái niệm..............................................................................................12
2.2. Cấu trúc máy tìm kiếm web...................................................................13
2.3. Biểu diễn kết quả tìm kiếm ....................................................................15
2.4. Đánh giá chất lượng tìm kiếm................................................................17
Chương 3: PHÂN CỤM TÀI LIỆU VÀ VẤN ĐỀ TÁCH TỪ TIẾNG VIỆT...19
3.1. Phân cụm...............................................................................................19
3.1.1.Khái niệm .............................................................................................19
3.1.2.Ứng dụng của phân cụm tài liệu trong thu thập và tổ chức thông tin .....20
3.2. Mô hình không gian vector và trình bày văn bản ...................................21
3.2.1.Các kỹ thuật tiền xử lý tài liệu...............................................................22
3.2.2.Bảng trọng số.......................................................................................23
3.2.3.Độ đo tương tự......................................................................................26
3.2.4.Biểu diễn cụm.......................................................................................27
3.3. Các giải thuật phân cụm ........................................................................27
3.3.1.Phương pháp phân cụm phân cấp..........................................................28
3.3.2.Phương pháp phân cụm phân hoạch ......................................................29
3.3.3.Thuật toán phân cụm bán giám sát Seeded - KMeans............................30
3.3.4.Tiêu chuẩn sự tối ưu ........................................................................32
3.3.5.Gán cứng và gán mềm...........................................................................33
3.4. Các bước thực hiện phân cụm................................................................34
3.5. Đánh giá kết quả phân cụm....................................................................34
3.6. Phân cụm kết quả tìm kiếm web.....................................................34
3.7. Các phương pháp tách từ tiếng Việt.......................................................35
3.7.1.Đặc điểm từ trong tiếng Việt.................................................................35
3.7.2.Phương pháp so khớp cực đại ...............................................................36
3.7.3.Phương pháp học cải biến .....................................................................37
3.7.4.Mô hình tách từ bằng WFST và mạng Neural .......................................37
3.7.5.Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật
giải di truyền.................................................................................................38
Chương 4: LÝ THUYẾT TẬP THÔ.............................................................39
4.1. Giới thiệu ..............................................................................................39
4.2. Hệ thông tin...........................................................................................40
4.3. Quan hệ bất khả phân biệt......................................................................42
4.3.1.Quan hệ tương đương - Lớp tương đương.............................................43
4.4. Xấp xỉ tập hợp .......................................................................................44
4.5. Hàm thuộc thô .......................................................................................50
4.6. Mô hình tập thô dung sai .......................................................................52
4.6.1.Không gian dung sai các từ chỉ mục......................................................53
4.6.2.Nâng cao chất lượng biểu diễn tài liệu ..................................................55
4.6.3.Mở rộng lược đồ trọng số cho xấp xỉ trên..............................................55
Chương 5: ÁP DỤNG LÝ THUYẾT TẬP THÔ VÀO PHÂN CỤM KẾT QUẢ
TÌM KIẾM WEB..............................................................................................57
5.1. Vấn đề phân cụm kết quả tìm kiếm web ................................................57
5.2. Các thuật toán phân cụm tài liệu dựa trên TRSM..................................58
5.2.1.Biểu diễn cụm ....................................................................................58
5.2.2.Thuật toán phân cụm không phân cấp dựa trên TRSM ...............60
5.2.3.Thuật toán phân cụm phân cấp dựa trên TRSM ..............................62
5.3. Thuật toán TRC..................................................................................62
5.3.1.Tiền xử lý............................................................................................63
5.3.2.Xây dựng ma trận từ - tài liệu................................................................63
5.3.3.Tạo lớp dung sai....................................................................................64
5.3.4.Thuật toán phân cụm Seeded - KMeans cải tiến....................................68
Chương 6: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM....................................71
6.1. Xác định yêu cầu ...................................................................................71
6.2. Các thành phần của ứng dụng thử nghiệm .............................................71
6.3. Xây dựng các thành phần chức năng......................................................72
6.3.1.Trình thu thập nội dung web .................................................................72
6.3.2.Bộ tách từ tiếng Việt .............................................................................75
6.3.3.Bộ xử lý truy vấn ..................................................................................76
6.3.4.Biểu diễn kết quả tìm kiếm web ............................................................76
6.4. Triển khai ứng dụng thử nghiệm............................................................77
KẾT LUẬN ......................................................................................................84
Tài liệu tham khảo ............................................................................................86
Danh sách bảng biểu
Bảng 3-1. Ví dụ bảng trọng số nhị phân của các tài liệu....................................24
Bảng 3-2. Ví dụ bảng trọng số của các tài liệu. .................................................24
Bảng 3-3. Ví dụ trọng số cho các tài liệu trong bảng 3-2. Trọng số của vector tài
liệu được chuẩn hóa bằng độ dài của nó............................................25
Bảng 3-4. Một số phép đo độ tương tự giữa hai vectơ tài liệu X, Y. Trong đó, xi, yi
là trọng số thành phần thứ i của vectơ ...............................................26
Bảng 3-5. So sánh các đặc điểm khác nhau giữa tiếng Anh và tiếng Việt..........36
Bảng 4-1. Một hệ thông tin đơn giản.................................................................41
Bảng 4-2. Một bảng quyết định đơn giản ..........................................................42
Bảng 4-3. Bảng quyết định dùng minh hoạ hàm thuộc thô................................52
Bảng 4-4. Các lớp dung sai quan trọng của các từ được sinh ra từ 200 snippets trả
về từ máy tìm kiếm Google với từ khóa “jaguar” và ngưỡng đồng xuất
hiện  = 9..........................................................................................55
Danh sách hình vẽ
Hình 2-1. Giao diện biểu diễn kết quả tìm kiếm Web của Google.....................12
Hình2-2. Cấu trúc bên trong của của máy tìm kiếm Web..................................13
Hình 2-3. Cấu trúc dữ liệu inverted index .........................................................14
Hình 3-1. Mô tả phân cụm ................................................................................20
Hình 3-2. Tiến trình phân cụm tài liệu ..............................................................20
Hình 3-3. So sánh giữa phân cụm tài liệu và phân cụm kết quả tìm kiếm web. .35
Hình 4- 1. Hình ảnh minh họa các khái niệm của tập thô ..................................40
Hình 4-2. Xấp xỉ tập đối tượng trong Bảng 4-2 bằng các thuộc tính điều kiện Age
và LEMS. Mỗi vùng được thể hiện kèm theo tập các lớp tương đương
tương ứng..........................................................................................46
Hình 5-1. Các bước của thật toán TRC. ............................................................62
Hình 5-2. Sơ đồ các bước thuật toán tạo lớp dung sai .......................................65
Hình 6-1. Qui trình thu thập nội dung web........................................................73
Hình 6-2. Nhận dạng tiêu đề bài viết bằng addon Firebug trên trình duyệt Firefox.
..........................................................................................................74
Hình 6-3. Giao diện quản trị các mẫu nhận dạng...............................................75
Hình 6-4. Website http://doctinnhanh.net..........................................................78
Hình 6-5. Giao diện biểu diễn kết quả tìm kiếm chia theo chủ đề......................81
Hình 6-6. Website Bách khoa toàn thư văn hóa Việt.........................................83
MỞ ĐẦU
Những năm gần đây trên thế giới nói chung và ở Việt Nam nói riêng, đi cùng
với sự phát triển của công nghệ web 2.0, các hệ thống wiki và các mạng xã hội
đang có những sự phát triển nhảy vọt cả về số lượng và chất lượng. Có thể nói
chưa có bao giờ việc đưa thông tin lên mạng lại dễ dàng như giai đoạn hiện nay.
Bất cứ cá nhân nào tham gia vào cộng đồng mạng cũng có thể đóng góp những bài
viết vào kho thông tin khổng lồ của nhân loại. Chính vì sự phát triển đó mà hầu
như bất cứ vấn đề gì mà ta quan tâm đều có thể sử dụng các bộ máy tìm kiếm để
tìm kiếm trên Internet. Tuy nhiên việc khai thác các thông tin cần thiết trong một
kho dữ liệu khổng lồ sao cho tiện lợi và chuẩn xác cũng là một vấn đề cần phải giải
quyết.
Hiện nay khai thác và tìm kiếm thông tin trên Internet là vấn đề được rất
nhiều nhà nghiên cứu quan tâm. Trong khi khối lượng thông tin trên Web khổng
lồ, mà câu hỏi truy vấn của người sử dụng thường ít chính xác, nên số kết quả trả
về từ các máy tìm kiếm có thể lên đến hàng trăm hay hàng ngàn tài liệu. Do đó, tìm
được chính xác tài liệu mình quan tâm là khó và tốn nhiều thời gian. Thực nghiệm
cho thấy, nếu nội dung được chia thành các nhóm chủ đề sẽ giúp người dùng
nhanh chóng tìm được kết quả mình cần. Vì vậy, một trong những cách tiếp cận để
giải quyết vấn đề khai thác hiệu quả các kết quả từ các máy tìm kiếm thông tin là
sử dụng kĩ thuật phân cụm kết quả tìm kiếm theo chủ đề tạo nên cách biểu diễn kết
quả tìm kiếm Web cô đọng và rõ ràng. Đây là một vấn đề nhận được sự quan tâm
của rất nhiều tác giả, họ đã đề ra nhiều cách tiếp cận khác nhau để giải quyết bài
toán này. Trong đề tài này chúng tôi sẽ áp dụng lý thuyết tập thô vào phân cụm kết
quả tìm kiếm Web tiếng Việt. Cách tiếp cận của chúng tôi là sử dụng mô hình tập
thô dung sai để tăng chất lượng việc biểu diễn các tài liệu và các cụm từ đó làm
tăng hiệu quả việc phân cụm; đồng thời chúng tôi sử dụng phương pháp phân cụm
bán giám sát Seeded - KMeans để phân cụm và xác định chủ đề tài liệu.
Mục tiêu của đề tài là xây dựng thử nghiệm một công cụ tìm kiếm web tiếng
Việt có khả năng phân cụm các tài liệu vào các chủ đề khác nhau giúp người dùng
có thể nhanh chóng tìm được kết quả mình cần nhờ cách biểu diễn kết quả tìm
kiếm rõ ràng và cô đọng. Với mục tiêu đó, sau quá trình làm việc, chúng tôi đã xây
dựng được một công cụ tìm kiếm web tiếng Việt gồm các thành phần chính sau:
 Trình thu thập web tiếng Việt, trình thu thập này có đặc điểm nổi bật là
có khả năng phân tích cấu trúc các trang web này thành các phần như
tiêu đề, tóm tắt bài viết, nội dung bài viết,… nhờ các mẫu nhận dạng
cấu trúc do người dùng đưa vào.
 Thành phần thứ 2 được sử dụng để phân tích các trang web thành các từ
tiếng Việt và biểu diễn các tài liệu thu thập được dưới dạng vector tài
liệu trong không gian vector.
 Thành phần thứ 3 là thành phần xử lý các truy vấn của người dùng và
trả về các kết quả tìm kiếm thỏa mãn truy vấn của người dùng.
 Thành phần thứ 4 là biểu diễn kết quả tìm kiếm web, mục tiêu xây
dựng thành phần này là thể hiện được kết quả tìm kiếm web một cách
rõ ràng và cô đọng bằng cách gán chúng vào các chủ đề tạo thuận lợi
cho người sử dụng trong việc tìm kiếm thông tin. Vì vậy chúng tôi áp
dụng mô hình tập thô dung sai và thuật toán phân cụm bán giám sát
Seeded – Kmeans để phân cụm các kết quả tìm kiếm web. Các kết quả
tìm kiếm sẽ được phân thành các chủ đề khác nhau có nhãn được định
sẵn dựa trên các mẫu tài liệu đã được gán nhãn.
Mặc dù bản thân đã nỗ lực cố gắng, cùng sự giúp đỡ của các đồng nghiệp và
đặc biệt là sự hướng dẫn chỉ bảo tận tình của PGS. TS Hoàng Xuân Huấn, nhưng
vì thời gian có hạn nên đề tài không tránh khỏi những thiếu sót, rất mong nhận
được sự đóng góp ý kiến của các chuyên gia, bạn bè và đồng nghiệp.
Qua đây, tôi xin gửi lời cảm ơn sâu sắc nhất tới PGS. TS Hoàng Xuân Huấn, đã
tận tình hướng dẫn cho tôi những định hướng và những ý kiến rất quý báu trong
suốt quá trình thực hiện luận văn này.
Tôi xin chân thành cảm ơn các thầy, cô giáo trong Bộ môn Truyền dữ liệu
và Mạng máy tính, Khoa Công nghệ thông tin, trường Đại học Công nghệ - Đại
học Quốc gia Hà Nội đã tạo mọi điều kiện tốt nhất để tôi hoàn thành khóa học này.
Đồng thời, tôi cũng xin cảm ơn gia đình, bạn bè, những người luôn khuyến khích
và giúp đỡ tôi trong mọi hoàn cảnh khó khăn. Tôi xin cảm ơn cơ quan và các đồng
nghiệp đã hết sức tạo điều kiện cho tôi trong suốt quá trình học tập và làm luận văn
này.
Chương 1: GIỚI THIỆU TỔNG QUAN
1.1. Lý do chọn đề tài
Sự phát triển không ngừng của Word Wide Web (WWW) trong giai đoạn
hiện nay đã mang lại cho loài người một nguồn thông tin khổng lồ. Hầu như các
thông tin về mọi lĩnh vực của cuộc sống đều có thể tìm thấy trên Web. Cùng với sự
bùng nổ thông tin đó, các công cụ tìm kiếm web cũng không ngừng phát triển để
phục vụ cho nhu cầu tìm kiếm thông tin của con người.
Hiện nay có rất nhiều công cụ tìm kiếm web mạnh giúp chúng ta tìm kiếm
thông tin nhanh chóng như Google, Yahoo, Answer, Altavista, … Đặc điểm của
các công cụ tìm kiếm này là thực hiện việc tìm kiếm dựa trên phương pháp xếp
hạng tài liệu (Document Ranking) và biểu diễn kết quả tìm kiếm theo thứ tự hạng
xuất hiện. Với sự bùng nổ thông tin như hiện nay, mặc dù các công cụ tìm kiếm có
nhiều cải tiến nhưng cách tiếp cận này có một số hạn chế như dưới đây:
Do sự bùng nổ của thông tin trên WWW, và tính chất động của các trang web
nên máy tìm kiếm không thể thực hiện tính hạng được cho tất cả các tài liệu mà chỉ
có thể tính hạng cho một phần các tài liệu.
Khi có ý định tìm thông tin trên WWW, trong suy nghĩ của người dùng hình
thành khái niệm về cái họ cần tìm, khái niệm này được chuyển thành một tập các
từ khóa và được sử dụng để đặt câu hỏi truy vấn. Tuy nhiên do kinh nghiệm sử
dụng hạn chế, các từ khóa người dùng nhập thường ngắn và cho các kết quả tìm
kiếm là chung chung, có thể lên đến hàng trăm hoặc hàng ngàn kết quả. Trong khi
đó người sử dụng lại chỉ có thói quen xem kết quả trên trang đầu tiên và ít người
duyệt đến các trang sau, do đó bỏ qua một số kết quả tìm kiếm cần thiết nhất.
Với các lý do trên ta thấy phát triển giao diện tương tác thông minh giữa
người và máy, hỗ trợ người sử dụng trong việc tìm kiếm thông tin là việc làm cần
thiết. Đây là một trong những vấn đề được nhiều nhà nghiên cứu quan tâm. Mặc
dù đã có một số nghiên cứu thành công trong lĩnh vực này, nhưng đa phần chúng
chỉ xử lý tốt trên tiếng Anh, nên trong luận văn này, chúng tôi mạnh dạn áp dụng
tập thô vào việc xây dựng thử nghiệm một công cụ tìm kiếm web cho phép người
dùng tìm kiếm theo chủ đề và giải quyết tốt các đặc thù của tiếng Việt.
1.2. Phạm vi công việc
Để đạt được mục đích đã đề ra, chúng tôi sẽ phải thực hiện những công việc
sau:
Tìm hiểu các thành phần và việc xây dựng một hệ thống Search Engine. Áp
dụng vào xây dựng một hệ thống tìm kiếm thông tin tiếng Việt.
Tìm hiểu các thuật toán phân cụm tài liệu để áp dụng vào việc phân cụm các
kết quả tìm kiếm web.
Tìm hiểu các đặc điểm của tiếng Việt và các phương pháp tách từ tiếng Việt,
áp dụng các thuật phương pháp trên để phân tích các trang web tiếng Việt thành
các từ phục vụ cho việc mô hình hóa tài liệu và biểu diễn các đặc trưng của cụm.
Nghiên cứu lý thuyết tập thô đặc biệt là mô hình tập thô dung sai, từ đó áp
dụng mô hình tập thô dung sai để cải tiến thuật toán Seeded - KMeans sử dụng cho
việc phân cụm kết quả tìm kiếm web nhằm tối ưu hóa kết quả trả về của quá trình
tìm kiếm web.
1.3. Cấu trúc luận văn
Với phạm vi công việc cần thực hiện như trên, cấu trúc của đề tài được tổ
chức như sau:
Chương 1: Giới thiệu tổng quan.
Chương 2: Trình bày kiến thức tổng quan về máy tìm kiếm Web.
Chương 3: Trình bày các kiến thức về phân cụm tài liệu và vấn đề tách từ
Tiếng Việt.
Chương 4: Trình bày tổng quan về lý thuyết tập thô và mô hình tập thô dung
sai.
Chương 5: Trình bày cách áp dụng lý thuyết tập thô vào việc phân cụm kết
quả tìm kiếm Web.
Chương 6: Trình bày kết quả thử nghiệm của luận văn.
Và phần cuối cùng là kết luận của luận văn
Chương 2: MÁY TÌM KIẾM WEB
2.1. Khái niệm
Máy tìm kiếm Web là một công cụ giúp người sử dụng tìm kiếm thông tin
trên mạng một cách nhanh chóng và đầy đủ.
Máy tìm kiếm web tương tác với người sử dụng thông qua một giao diện khá
đơn giản và thân thiện. Người sử dụng chỉ cần đặt câu hỏi truy vấn về vấn đề quan
tâm, máy tìm kiếm web ngay lập tức sẽ trả về tập kết quả tìm kiếm (snippets).
Thông thường, mỗi kết quả tìm kiếm bao gồm tựa đề, địa chỉ của tài liệu và miêu
tả ngắn gọn nội dung chính tài liệu. Ngoài ra một số máy tìm kiếm web còn cho
phép người dùng xem nội dung của tài liệu được lưu lại trên máy chủ của dịch vụ
tìm kiếm.
Hình 2-1. Giao diện biểu diễn kết quả tìm kiếm Web của Google
Snippet
Tên tài liệu
Tóm tắt nội dung
URL của tài liệu
2.2. Cấu trúc máy tìm kiếm web
Cấu trúc của máy tìm kiếm web được thể hiện trong hình 2-2
Hình2- 2. Cấu trúc bên trong của của máy tìm kiếm Web
Trình thu thập web (Web Crawler)
Web Crawler hay còn được gọi là Web Spider là một trong hai thành phần
tương tác trực tiếp với WWW. WWW là một tập hợp các tài liệu được liên kết với
nhau bởi các siêu liên kết, web crawler có nhiệm vụ là phát hiện các trang mới trên
WWW bằng cách thu thập các siêu liên kết từ các trang tài liệu. Quá trình này
được thực hiện đệ qui để thăm dò hầu hết các trang web trên Internet. Trong quá
trình này web crawler sẽ phải sử dụng một số kỹ thuật để tránh không bị lấy thông
tin trùng lặp. Web crawler vừa thu thập các trang web mới nhưng cũng đồng thời
kiểm tra lại những siêu liên kết đã không còn tồn tại trên WWW để loại chúng khỏi
các kết quả tìm kiếm.
Chỉ mục tài liệu (Document Index)
Thành phần lập chỉ mục tài liệu thực hiện chức năng xây dựng bảng chỉ số
tài liệu hỗ trợ công việc tìm kiếm. Thông thường, các hệ thống tìm kiếm thông tin
thực hiện việc tìm kiếm các tài liệu hoặc dựa trên phương pháp lựa chọn tài liệu có
chứa các từ trong câu hỏi truy vấn, hoặc dựa trên phương pháp xếp hạng tài liệu
(Document Ranking) liên quan đến câu hỏi truy vấn. Do đó hầu hết các máy tìm
kiếm đều sử dụng biến dữ liệu có cấu trúc chỉ mục ngược (inverted index) để hỗ
trợ thực hiện công việc này. Inverted index có cấu trúc giống như bảng mục lục ở
phần cuối của cuốn sách – tương ứng với mỗi một từ là một danh sách liên kết
chứa địa chỉ các trang trong đó nó xuất hiện (hình 2-3). Với kiểu lưu trữ này nó có
khả năng giúp máy tìm kiếm xác định đúng các tài liệu liên quan đến câu hỏi truy
vấn một cách nhanh chóng.
Hình 2-3. Cấu trúc dữ liệu inverted index
Lưu trữ tài liệu (Document Cache)
Hiện nay có nhiều máy tìm kiếm vừa lưu trữ bảng chỉ số tài liệu như ở phần
trên, vừa lưu trữ tài liệu gốc. Ví dụ như trong Google, bảng chỉ số tài liệu gốc được
sử dụng để tạo các snippet và phục vụ cho việc lưu trữ các phiên bản của tài liệu.
Tính hạng tài liệu (Document Ranking)
World Wide Web càng ngày càng phát triển do vậy lượng thông tin ngày càng
lớn, số kết quả tìm kiếm với một từ khóa bất kỳ đều rất lớn, ngay cả với những câu
hỏi truy vấn hoàn thiện và chính xác, số kết quả tìm kiếm vẫn có thể lên đến hàng
ngàn hoặc hàng triệu. Chính vì vậy cần có module tính hạng tài liệu để xác định
được tài liệu nào có độ liên quan đến các từ khóa mà người dùng tìm kiếm nhất.
Xử lí truy vấn
Xử lí truy vấn là thành phần có nhiệm vụ phân tích cú pháp tìm kiếm của
người dùng thông qua các toán tử và cú pháp được định nghĩa sẵn, sau đó bộ xử lí
truy vấn kết hợp với bảng chỉ số tài liệu, các tài liệu được lưu trữ, và thành phần
tính hạng tài liệu để đưa ra tập kết quả tìm kiếm thỏa mãn cú pháp tìm kiếm của
người dùng. Kết quả của quá trình này được đưa đến người sử dụng thông qua giao
diện biểu diễn kết quả của máy tìm kiếm.
Giao diện biểu diễn kết quả
Giao diện biểu diễn kết quả tìm kiếm là thành phần quan trọng trong máy
tìm kiếm và trực tiếp tương tác với người sử dụng. Do vậy giao diện biểu diễn kết
quả tìm kiếm là yếu tố đầu tiên được xem xét khi đánh giá chất lượng của một
chương trình tìm kiếm, nó có vai trò vô cùng quan trọng và có ảnh hưởng rất lớn
đến toàn bộ chất lượng của máy tìm kiếm. Google được yêu thích và được đa số
người dùng sử dụng khi tìm kiếm thông tin là nhờ có một giao diện đơn giản
nhưng lại dễ sử dụng.
2.3. Biểu diễn kết quả tìm kiếm
Giao diện của máy tìm kiếm đóng vai trò vô cùng quan trọng trong việc tìm
kiếm thông tin của người dùng, giao diện tìm kiếm được thiết kế tốt sẽ giúp người
dùng nhanh chóng tìm được kết quả tìm kiếm mình mong muốn.
Hầu hết các máy tìm kiếm hiện nay đều thực hiện việc tìm kiếm dựa trên
phương pháp tính hạng tài liệu và biểu diễn kết quả tìm kiếm theo thứ tự hạng xuất
hiện. Tuy nhiên hiện nay WWW đang phát triển với tốc độ rất nhanh, lượng thông
tin trên mạng ngày càng lớn vì thế số lượng kết quả tìm kiếm có thể lên đến hàng
ngàn tài liệu, nên người sử dụng không đủ thời gian và kiên nhẫn đọc toàn bộ
lượng tài liệu này để xác định các tài liệu cần thiết. Do vậy cách biểu diễn này có
nhiều hạn chế.
Thực tế cho thấy khi tìm kiếm thông tin, nếu biết được tài liệu mình tìm
kiếm thuộc chủ đề nào thì người sử dụng sẽ nhanh chóng tiếp cận được với tài liệu
cần tìm. Chính vì vậy để nâng cao hiệu quả trong việc tìm kiếm, ta nên biểu diễn
kết quả tìm kiếm Web theo nhóm chủ đề vì nó có những ưu điểm sau:
 Tên chủ đề giúp người sử dụng phát hiện được các chủ đề chính của tập
kết quả trả về và do đó có thể xác định nhanh chóng tài liệu cần tìm.
 Phân chia tập kết quả theo chủ đề còn giúp người sử dụng có thể nghiên
cứu thêm các tài liệu liên quan đến những chủ đề khác mà nó thường bị
bỏ qua khi duyệt kết quả tìm kiếm theo thứ tự hạng xuất hiện, vì những
kết quả này thường nằm ở các trang sau và thường bị người dùng bỏ
qua.
Khi người dùng tìm kiếm, tập kết quả phụ thuộc vào câu hỏi truy vấn mà
người dùng đưa ra, do đó không thể biết trước bất kỳ thông tin nào về các chủ đề
chứa trong tập kết quả này. Đây là một trong những khó khăn lớn để xây dựng các
công cụ tìm kiếm web theo chủ đề. Để giải quyết vấn đề này một trong các giải
pháp được đề xuất là sử dụng phương pháp phân cụm tài liệu. Phân cụm tài liệu
thực hiện nhóm các kết quả tìm kiếm theo chủ đề và tạo ra mô tả nội dung của mỗi
nhóm; người sử dụng chỉ cần quan sát tóm tắt nội dung các nhóm là dễ dàng định
vị được vùng tài liệu mà mình quan tâm.
2.4. Đánh giá chất lượng tìm kiếm
Để đánh giá chất lượng tìm kiếm của một máy tìm kiếm, hai độ đo chuẩn
thường được sử dụng để đánh giá là độ chính xác (precision) và độ hồi cứu (recall).
Giả sử, ta có tập các câu truy vấn Q, tập các văn bản D, với mỗi câu truy vấn
Q
q ta có:
+ Tập các văn bản trả về D
Rq 
+ Tập các văn bản liên quan Dq (được chọn thủ công từ toàn bộ tập văn bản
D), D
Dq 
Độ chính xác (precision) được định nghĩa là tỉ lệ giữa các văn bản liên quan
được trả về với mọi văn bản trả về.
q
q
q
R
R
D
precision


Độ chính xác biến thiên từ 0 đến 1, trường hợp xấu nhất nếu độ chính xác là 0
có nghĩa là không có văn bản liên quan nào được trả về, trường hợp tốt nhất nếu độ
chính xác là 1 nghĩa là toàn bộ văn bản được trả về đều là các văn bản liên quan.
Đây là trạng thái lý tưởng mà một hệ thống tìm kiếm cần đạt được, tuy nhiên có
thể vẫn còn các văn bản liên quan mà không được trả về.
Độ hồi cứu (recall) là độ đo biểu diễn tỉ lệ giữa các văn bản liên quan được trả
về với mọi văn bản liên quan.
q
q
q
D
R
D
recall


Trường hợp lý tưởng là recall = 1, tức là mọi văn bản liên quan đều được trả
về, còn trường hợp xấu nhất là recall = 0, tức là không có văn bản liên quan nào
được trả về.
Độ độ chính xác và độ hồi cứu quyết định mối quan hệ giữa hai tập văn bản:
tập văn bản liên quan (Dq) và tập văn bản trả về (Rq). Trong trường hợp lý tưởng
thì độ chính xác và độ hồi cứu đều bằng 1 (tuy nhiên điều này không bao giờ xảy
ra trong các hệ thống thực tế).
Chương 3:
PHÂN CỤM TÀI LIỆU VÀ VẤN ĐỀ TÁCH TỪ TIẾNG VIỆT
3.1. Phân cụm
3.1.1. Khái niệm
Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu, nhằm tìm kiếm,
phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn được quan tâm trong tập dữ
liệu lớn, từ đó cung cấp các thông tin hữu ích hỗ trợ cho việc ra quyết định.
Kỹ thuật phân cụm đã được áp dụng thành công trong các ứng dụng thuộc
lĩnh vực khai phá dữ liệu, thống kê hay lưu trữ thông tin.
Giả sử ta có tập các đối tượng D={d1,d2,…,dn} và (di; dj) là độ tương tự
giữa hai đối tượng di và dj. Phân cụm là quá trình chia tập đối tượng D vào K cụm
C={c1,c2,…,ck} sao cho mỗi đối tượng đều thuộc về một cụm, các đối tượng trong
cùng một cụm thì tương tự nhau, các phần tử thuộc các cụm khác nhau thì không
tương tự nhau. Như vậy thực chất của phân cụm dữ liệu là quá trình phân chia một
tập dữ liệu ban đầu thành các cụm riêng biệt sao cho các phần tử trong một cụm là
tương tự nhau và các phần tử thuộc các cụm khác nhau sẽ không tương tự với
nhau.
Với đặc điểm trên, khi phân cụm số lượng phần tử của các cụm có thể khác
nhau. Số các cụm dữ liệu có thể được xác định trước hay tự động xác định trong
quá trình phân cụm.
Hình 3- 1. Mô tả phân cụm
Hình vẽ trên mô tả một cách hình học về khái niệm phân cụm. Cho tập dữ liệu
(hình bên trái), tiến hành thực hiện phân cụm tập dữ liệu theo khoảng cách hình học.
Kết thúc quá trình phân cụm ta thu được 4 cụm như hình vẽ bên phải, các đối tượng
trong cùng cụm có khoảng cách gần nhau. Cách phân cụm theo kiểu này được gọi là
phân cụm dựa vào khoảng cách.
Ngoài ra, còn có một loại phân cụm khác dựa vào khái niệm. Khi đó, các đối
tượng trong cùng cụm đều liên quan đến khái niệm chung của cụm. Hay nói cách
khác, các đối tượng được nhóm lại theo nội dung chúng diễn tả, không đơn giản là
chỉ dựa theo độ đo khoảng cách hình học. Phân cụm tài liệu là một trong những
ứng dụng loại phân cụm này.
3.1.2. Ứng dụng của phân cụm tài liệu trong thu thập và tổ chức thông tin
Hình 3-2. Tiến trình phân cụm tài liệu
Trong khi phương pháp phân cụm được sử dụng để thực hiện nhiều tác vụ
khác nhau trong lĩnh vực thu thập thông tin [3,13], phương pháp phân cụm tài liệu
chỉ tập trung vào hai hướng nghiên cứu chính.
 Thứ nhất, là công cụ cải tiến hiệu năng thu thập thông tin và là cách
thức tổ chức kho tài liệu. Ý tưởng phân cụm tài liệu áp dụng cho việc
thu thập thông tin xuất phát từ lí thuyết nhóm, kết hợp các tài liệu liên
quan theo yêu cầu lại với nhau. Bằng việc nhóm các tài liệu theo từng
cụm khi đó ta dễ dàng phân biệt được tài liệu nào là liên quan và
không liên quan với nhau, vì vậy hiệu quả thu thập tài liệu theo không
gian nhóm được cải tiến đáng kể.
 Thứ hai, là công cụ tiện ích hiệu quả khi duyệt tìm thông tin trong tập
tài liệu lớn, gần đây nó được sử dụng để phân cụm kết quả tìm kiếm
Web.
3.2. Mô hình không gian vector và trình bày văn bản
Trong một số lĩnh vực của khai phá dữ liệu, các đối tượng được quan tâm
thường được đưa ra dưới dạng các vector thuộc tính hay đặc trưng, các tài liệu lại
được biểu diễn dưới dạng dãy các từ. Vì vậy, để phân cụm tài liệu, cần có một cách
biểu diễn tài liệu phù hợp. Cách phổ biến nhất là biểu diễn các tài liệu như một
vector trong không gian nhiều chiều. Mỗi chiều tương đương với một từ nhất định
trong tập tài liệu. Do bản chất của tài liệu văn bản, số lượng các từ khác nhau có
thể vô cùng lớn. Có đến hàng nghìn từ trong một văn bản ngắn đến trung bình.
Việc tính toán trong không gian nhiều chiều sẽ gặp nhiều khó khăn và thậm chí đôi
khi điều đó không thể thực hiện được (chẳng hạn do giới hạn về dung lượng bộ
nhớ). Tuy nhiên, không phải tất cả các từ trong tài liệu đều hữu ích trong việc mô
tả nội dung của nó. Vì vậy các tài liệu cần được xử lý trước để xác định những từ
thích hợp nhất để miêu tả ngữ nghĩa của tài liệu. Những từ này được gọi là các từ
chỉ mục.
Giả sử ta có N tài liệu d1,d2,…, dn, và M từ khóa được liệt kê từ 1 đến M.
Một tài liệu trong không gian vector được biểu diễn bởi 1 vector:
Di = (wi1, wi2,..., wiM)
Trong đó wij là trọng số của từ thứ j trong tài liệu di.
3.2.1. Các kỹ thuật tiền xử lý tài liệu
Tiền xử lý tài liệu là một khâu quan trọng có ảnh hưởng lớn đến hiệu xuất của
toàn bộ việc phân cụm. Nó làm giảm đáng kể số lượng đặc trưng sẽ được xử lý (ví
dụ số từ khóa) do vậy cũng làm giảm độ phức tạp tính toán, nhưng cũng làm tăng
chất lượng và độ chính xác của các từ được chọn. Trong khâu tiền xử lý, các kỹ
thuật xử lý văn bản sau có thể được thực hiện để làm tăng chất lượng của các từ
khóa được chọn.
Phân tích từ vựng
Phân tích từ vựng là phân tách tài liệu thành các từ riêng biệt. Tuy nhiên trong
một vài trường hợp cần khi xử lý phải có sự quan tâm đặc biệt đối với các chữ số,
dấu ngoặc, dấu chấm câu và trường hợp chữ hoa, chữ thường. Ví dụ các chữ số
thường bị loại ra trong khi phân tích vì một mình nó không mang lại một ý nghĩa
nào cho tài liệu (ngoại trừ một vài trường hợp đặc biệt, chẳng hạn trong thu thập
thông tin về lĩnh vực lịch sử). Dấu chấm câu như “.”, “!”, “?”, “-“… cũng thường
được loại ra mà không có ảnh hưởng gì đến nội dung của tài liệu, nhưng trong các
từ ghép nối ta lại không được bỏ dấu “-“, vì sẽ làm thay đổi nghĩa của từ.
Đối với Tiếng Việt, khái niệm từ có những đặc điểm khác so với tiếng Anh,
do vậy việc tách các từ Tiếng Việt phức tạp hơn rất nhiều. Trong phần sau chúng
tôi sẽ trình bày chi tiết về đặc điểm của từ trong Tiếng Việt và các kỹ thuật sử dụng
để tách từ Tiếng Việt.
Loại bỏ các từ dừng (stop-words)
Những từ xuất hiện thường thường xuyên trong tập các tài liệu được đánh
giá là ít có tác dụng trong việc phân biệt nội dung giữa các tài liệu do vậy có thể
loại bỏ mà không ảnh hưởng đến việc phân cụm. Ví dụ như trong web thường có
các từ như “web”, “site”, “link”, “www”…. Các từ như vậy được gọi là stop-
words. Ngoài ra trong Tiếng Việt có rất nhiều từ cũng thuộc loại từ dừng như: “a
lô”, “á”, “à”, “ai”, “ái chà”, “à ơi”…
Loại bỏ tiền tố và hậu tố (Stemming)
Stemming là loại bỏ tiền tố và hậu tố của từ để biến đổi về từ gốc. Vì trong
thực tế một từ gốc có thể có nhiều hình thái biến đổi, chẳng hạn như động từ, danh
từ, tính từ, trạng từ; và giữa chúng có mối quan hệ ngữ nghĩa. Như vậy, Stemming
có thể làm giảm số lượng từ mà không ảnh hưởng đến nội dung tài liệu.
Ví dụ như những từ: “clusters”, “clustering”, “clustered” là có cùng mối
quan hệ với từ “cluster”.
Giải thuật stemming cần được xây dựng cẩn thận, nếu chỉ sử dụng một tập
các quy tắc đơn giản để loại bỏ tiền tố/hậu tố thì có thể dẫn đến hậu quả là sinh ra
các từ không chính xác. Tuy nhiên các từ trong tiếng Việt không có sự biến đổi
hình thái này nên ta không cần áp dụng kỹ thuật này trong quá trình tách các từ
Tiếng Việt
3.2.2. Bảng trọng số
Nếu các từ khóa được lựa chọn được coi là các từ mô tả đúng đắn về tài liệu
thì việc giới thiệu lược đồ trọng số có thể xem là cách tiếp cận cục bộ để xác định
tầm quan trọng của mỗi từ khóa đối với việc mô tả tài liệu. Bảng trọng số đơn giản
nhất chỉ là một bảng nhị phân mà các từ khóa xuất hiện trong tài liệu thì có trọng
số là 1 và trọng số là 0 trong các trường hợp khác. Trực quan hơn là dạng bảng
trọng số thể hiện được tần số xuất hiện của các từ khóa trong tài liệu.
dij = tfij tần số của từ thứ j trong tài liệu i
Tài liệu/Từ t1 t2 t3 t4 t5 t6
d1 1 0 1 0 0 1
d2 1 0 0 1 1 1
d3 1 0 0 1 1 1
d4 0 1 0 0 0 0
d5 0 1 0 0 0 0
d6 0 1 1 1 0 0
Bảng 3- 1: Ví dụ bảng trọng số nhị phân của các tài liệu.
Tài liệu/Từ t1 t2 t3 t4 t5 t6
d1 1 0 1 0 0 1
d2 1 0 0 1 1 1
d3 1 0 0 1 1 1
d4 0 2 0 0 0 0
d5 0 1 0 0 0 0
d6 0 1 1 1 0 0
Bảng 3- 2: Ví dụ bảng trọng số của các tài liệu.
Trọng số tần số thuật ngữ - nghịch đảo tần số tài liệu (Term Frequency -
Inverse Document Frequency weighting)
Bảng trọng số được sử dụng nhiều nhất là TD*IDF (tần số từ - nghịch đảo
của tần số tài liệu) và các dạng biến đổi của nó. Cơ sở khoa học của công thức
TD*IDF là các từ xuất hiện nhiều hơn trong một tài liệu (thừa số tf) sẽ đặc tả ý
nghĩa của tài liệu tốt hơn là các từ xuất hiện ít. Tuy nhiên, các từ xuất hiện thường
xuyên trong các tài liệu trong tập tài liệu thì có ít giá trị trong việc phân biệt nội
dung tài liệu, vì vậy thừa số idf được sử dụng để làm giảm vai trò của các từ khóa
xuất hiện nhiều trong toàn bộ nhóm tài liệu.
Giả sử t1,t2,…,tm là ký hiệu các từ trong toàn bộ tập tài liệu và d1,d2,..,dn là
các tài liệu trong tập tài liệu. Theo công thức TD*IDF, trọng số của mỗi từ tj trong
tài liệu di được định nghĩa [15] là:
wij = tfij ∗ log(n/dfj )
trong đó tfij (tần số từ ) – là số lần từ tj xuất hiện trong tài liệu di, dfj (tần số tài
liệu) là số tài liệu trong tập tài liệu có chứa từ khóa tj. Thừa số log(N/dfj ) được gọi
là nghịch đảo của tần số tài liệu của từ.
Chuẩn hóa độ dài tài liệu
Khi các tài liệu trong bộ tài liệu có thể có chiều dài khác nhau, có thể có một
trường hợp các tài liệu lớn có thể chi phối không gian tài liệu (các thành phần của
vectơ của nó có giá trị lớn hơn đáng kể so với các tài liệu khác) là nguyên nhân gây
sai lệch quá trình phân cụm, giải pháp không chính xác. Để khắc phục vấn đề này,
độ dài chuẩn thường được áp dụng trong các vector tài liệu.
Tài liệu/Từ t1 t2 t3 t4 t5 t6
d1 0.301 0 0.4771 0.1761 0 0.301
d2 0.301 0 0 0.1761 0.4771 0.301
d3 0.301 0 0 0.1761 0.4771 0.301
d4 0 0.6021 0 0 0 0
d5 0 0.301 0 0 0 0
d6 0 0.301 0.4771 0.1761 0 0
Bảng 3- 3: Ví dụ trọng số cho các tài liệu trong bảng 3-2. Trọng số của vector tài
liệu được chuẩn hóa bằng độ dài của nó.
3.2.3. Độ đo tương tự
Khoảng cách hay độ tương tự giữa các vector tài liệu được xác định bằng một
vài độ đo sau (xem [15])
Độ đo tương tự
Sim(X,Y)
Đánh giá theo vectơ nhị
phân
Đánh giá theo vectơ trọng
số
Tích trong Y
X  

t
i
i
i y
x
1
Hệ số góc
Y
X
Y
X


2
 

 


t
i
t
i
i
i
t
i
i
i
y
x
y
x
1 1
2
2
1
2
Hệ số cosin 2
/
1
2
/
1
Y
X
Y
X


 

 


t
i
t
i
i
i
t
i
i
i
y
x
y
x
1 1
2
2
1
Hệ số Jaccard
Y
X
Y
X
Y
X




  

  



t
i
t
i
t
i
i
i
i
i
t
i
i
i
y
x
y
x
y
x
1 1 1
2
2
1
Bảng 3- 4. Một số phép đo độ tương tự giữa hai vectơ tài liệu X, Y. Trong đó, xi, yi
là trọng số thành phần thứ i của vectơ
Vì cách biểu diễn đơn giản và trực quan nên hệ số cosine được sử dụng nhiều
nhất. Khi các vector diễn tả tài liệu được chuẩn hóa bằng độ dài. Tất cả các độ đo ở
trên đều tương tự nhau, giới hạn từ 1 cho các văn bản giống hệt nhau cho đến 0 khi
các văn bản không có gì chung.
3.2.4. Biểu diễn cụm
Lựa chọn cách biểu diễn cụm rất cần thiết cho các thuật toán phân cụm. Cách
biểu diễn cụm tốt không chỉ giúp tính toán số đặc trưng của văn bản thuộc vào mỗi
cụm mà còn giúp xác định một cách thỏa đáng mức độ mà mỗi đặc trưng góp phần
vào việc mô tả nội dung của cụm. Với cách tiếp cận theo không gian vector, một
cụm thường được biểu diễn như là tâm của vector (trọng tâm) của cụm các tài liệu.
Cho một cụm Ck = {dk1, dk2,..., dkm }, ta có thể định nghĩa tổ hợp vector Dk
của cụm
1 2 ...
k
k k k km
d C
D d d d d

    

Và trọng tâm của cụm là:
1 2 ...
| |
k k k km
k
k
D d d d
c
C m
  
 
Đôi khi 1 trung vị - 1 đối tượng (tài liệu) ở gẩn trọng tâm nhất được chọn làm
đại diện cho cụm. Mặc dù các cụm không nhất thiết phải được biểu diễn bởi các
vectơ trong không gian giống như các tài liệu, nhưng làm như vậy sẽ đơn giản hóa
việc tính toán độ tương tự (hoặc khoảng cách) giữa hai cụm hoặc giữa một cụm và
một tài liệu (có thể sử dụng các độ đo tương tự cho các tài liệu).
3.3. Các giải thuật phân cụm
Dựa trên cách tiếp cận có thể chia các giải thuật phân cụm thành 4 nhóm
khác nhau là:
- Phương pháp phân cụm dựa vào phân cấp.
- Phương pháp dựa vào phân hoạch.
- Phương pháp phân cụm dựa vào mật độ.
- Phương pháp phân cụm dựa trên lưới.
Đối với đối tượng dữ liệu là tập tài liệu thì người ta sử dụng mô hình không
gian vectơ để biểu diễn và đã có nhiều giải thuật phân cụm được đề xuất cho mô
hình này nhưng dựa trên các phương pháp tiếp cận có thể phân các giải thuật này
thành hai loại: phương pháp phân cụm phân hoạch và thứ hai theo phương pháp
phân cụm phân cấp.
3.3.1. Phương pháp phân cụm phân cấp
Phương pháp này còn gọi là phương pháp phân cụm cây, trong đó sắp xếp
một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được
xây dựng theo kỹ thuật đệ quy. Cây phân cụm có thể được xây dựng theo hai
phương pháp tổng quát: phương pháp từ dưới lên (Bottom - up) và phương pháp từ
trên xuống (Top - down). Các thuật toán theo phương pháp từ dưới lên còn gọi là
thuật toán trộn còn phương pháp từ trên xuống còn được gọi là phương pháp tách.
Kĩ thuật tiếp cận bottom-up: Bắt đầu xuất phát khởi tạo mỗi một nhóm
tương ứng với mỗi một đối tượng và sau đó tiến hành hòa nhập đối tượng dựa vào
độ đo tương tự giữa các nhóm. Quá trình này được lặp lại cho đến khi tất cả các
nhóm được hòa nhập thành một nhóm (mức cao nhất của cây phân cấp) hoặc cho
đến khi thỏa mãn điều kiện kết thúc. Cách tiếp cận này sử dụng chiến lược tham
lam trong quá trình sát nhập.
Giải thuật phân cụm phân cấp
Input: tập đối tượng d1,.., dn, độ đo tương tự (di, dj), i j; i, j = 1..n
Thuật toán:
1. Khởi tạo các nhóm từ tập đối tượng, mỗi đối tượng tạo thành một nhóm
2. for i = 1 to n - 1 do{
3. Nhập hai nhóm tương tự nhau nhất thành một nhóm mới
4. }
Kĩ thuật tiếp cận top-down: khởi đầu, tất cả các đối tượng được sắp xếp vào
cùng một nhóm và sau đó tiến hành chia nhỏ các nhóm. Mỗi vòng lặp, thực hiện
phân chia nhóm thành các nhóm nhỏ hơn dựa vào độ đo tương tự giữa các nhóm.
Quá trình được lặp lại cho đến khi mỗi đối tượng là một nhóm riêng biệt hoặc khi
thỏa điều kiện dừng. Cách tiếp cận này sử dụng chiến lược chia để trị.
Hình 3.1 Phân cụm phân cấp
Có nhiều phương thức đo mức độ tương tự giữa các nhóm, với mỗi phương
thức sẽ thu được các kết quả khác nhau:
- Single-linked: khoảng cách giữa hai nhóm được định nghĩa là khoảng
cách bé nhất giữa hai đối tượng thuộc hai nhóm khác nhau.
- Complete-linked : ngược với single-linked, khoảng cách giữa hai
nhóm được định nghĩa là khoảng cách lớn nhất giữa hai đối tượng
thuộc hai nhóm khác nhau.
- Average-linked: khoảng cách giữa hai nhóm được định nghĩa là
khoảng cách trung bình của tất cả các cặp đối tượng, trong cặp đó mỗi
đối tượng thuộc về một nhóm khác nhau.
Độ phức tạp tính toán của giải thuật phân cụm phân cấp là O(n2
logn) và chi
phí bộ nhớ O(n2
), trong đó n là số đối tượng (tài liệu). Giải thuật này là không hiệu
quả đối với tập đối tượng cực lớn. Khi đó ta áp dụng phương pháp phân cụm phân
hoạch.
3.3.2. Phương pháp phân cụm phân hoạch
Kĩ thuật này xây dựng một phân hoạch của tập dữ liệu n đối tượng thành tập k
nhóm theo điều kiện tối ưu. Khởi đầu, giải thuật phân cụm phân hoạch K-Means là
được sử dụng nhiều nhất và sau đó có thêm các kiểu cải tiến thay đổi của nó.
K-Means là thuật toán phân cụm được định nghĩa theo phần tử đại diện, nghĩa
là mỗi nhóm được xác định bởi tâm của nhóm. Phương pháp này dựa vào độ đo
khoảng cách giữa các đối tượng trong cụm. Trong thực tế, phần tử trung tâm thường
được xác định theo trung bình khoảng cách giữa các đối tượng trong mỗi cụm.
Thuật toán K- Means bắt đầu với việc chọn ngẫu nhiên các phần tử để khởi
tạo một tập các phần tử trung tâm cụm. Sau đó thực hiện xác lập cụm theo các tâm
cụm (phần tử nào gần với tâm cụm nào nhất thì sẽ thuộc vào cụm đó) và xác định
lại tâm cụm. Thực hiện lặp lại cho đến khi thỏa điều kiện hội tụ.
Độ phức tạp tính toán của giải thuật K-means tương đối thấp (kn), trong đó
k là số nhóm, n là số đối tượng (tài liệu). Vì vậy giải thuật này được đánh giá là
thích hợp trong việc ứng dụng phân cụm tập tài liệu kích thước lớn.
Giải thuật K-Means
Input: Tập n đối tượng, số cụm k
Output: Một tập gồm K cụm thỏa mãn điều kiện cực tiểu hóa hàm mục tiêu E
Thuật toán:
Bước 1: Lựa chọn ngẫu nhiên k phần tử để khơi tạo cho k cụm.
Bước 2: Phân các đối tượng vào cụm mà nó gần tâm nhất
Bước 3: Xác định lại tâm của mỗi cụm
Bước 4: Quay lại bước 2, hoặc dừng khi không hoặc còn ít sự thay đổi
3.3.3. Thuật toán phân cụm bán giám sát Seeded - KMeans
Phân cụm bán giám sát là phương pháp sử dụng các thông tin bổ trợ để
hướng dẫn cho quá trình phân cụm. Các thông tin bổ trợ có thể được cho dưới dạng
tập các cặp ràng buộc hoặc một tập nhỏ một số dữ liệu được gán nhãn. Một số
công trình nghiên cứu gần đây đã dùng thông tin bổ trợ trong việc phân cụm
[4,5,6,7]
Đối với phương pháp phân cụm nửa giám sát dựa trên tập dữ liệu được gán
nhãn, để hình thành nên các cụm giống nhằm khởi tạo cho một thuật toán phân
cụm hoặc để sinh ra các ràng buộc dẫn dắt quá trình phân cụm, người ta sẽ sử dụng
tập dữ liệu được gán nhãn.
Bài toán phân cụm nửa giám sát dựa trên tập dữ liệu được gán nhãn được
phát biểu như sau: Cho một tập dữ liệu ban đầu   1
N
i i
X x 
 , gọi S X
 là tập giống
(tập dữ liệu đã gán nhãn) trong đó với mỗi đối tượng xj S người dùng cung cấp
cho nó một phân hoạch (cụm) h
X . Giả sử rằng bất kể cụm nào trong X cũng có ít
nhất một đối tượng xj thuộc tập giống. Người ta phân hoạch tập giống S thành K
cụm giống tách rời   1
K
h h
S 
, do đó mọi đối tượng xj Sh đều nằm trong cụm h
X
tương ứng. Nhiệm vụ cần giải quyết là từ K cụm giống   1
K
h h
S 
chúng ta phải phân
hoạch tập dữ liệu X thành K phân hoạch tách rời   1
K
h h
X 
.
Thuật toán Seeded-KMeans
Seeded-Kmeans là thuật toán phân cụm bán giám sát điển hình dựa trên
tập dữ liệu đã được người dùng gán nhãn được Basu đề xuất năm 2002.
Thuật toán Seeded-KMeans sử dụng các cụm giống Sh để khởi tạo cho
thuật toán K-Means. Do vậy thay vì phải khởi tạo K cụm ngẫu nhiên chúng ta
khởi tạo chúng từ K cụm giống.
Thuật toán Seeded-KMeans
Input: - Tập các đối tượng dữ liệu  
1,..., , d
N i
X x x x
 
- Số lượng cụm: K
- Tập giống 1
K
h h
S S

 
Output: K phân hoạch tách rời:   1
K
h h
X 
của X sao cho hàm mục tiêu được tối
ưu.
Thuật toán:
Bước 1: Khởi tạo các cụm: (0) 1
h
h x S
h
x
S
 
  , với h = 1,...K; t0.
Bước 2: Gán cụm: Gán mỗi đối tượng dữ liệu x vào cụm h*
(tức là tập
 
*
( 1)
1
K
t
h h
X 

) với h*
= argmin ( ) 2
|| ||
t
h
x 

Bước 3: Ước lượng tâm: ( 1)
( 1)
( 1)
1
| |
t
h
t
h t x X
h
x
X
 

 
 
Bước 4: t t+1
Bước 5: Dừng nếu hội tụ hoặc quay lại bước 2.
3.3.4. Tiêu chuẩn sự tối ưu
Trong cách tiếp cận dựa trên phân hoạch sự phân cụm thường tuân theo
một tiêu chuẩn tối ưu toàn cục. Một số tiêu chuẩn thường được sử dụng là
(xem [22]):
Cực đại hóa sự tương tự nội bộ (Maximize internal similarity)
Tiêu chuẩn này dựa trên yêu cầu các tài liệu trong một cụm phải tương tự với
các tài liệu khác. Do đó giải pháp đưa vào một cụm là cực đại hóa độ tương tự nội
bộ (bên trong cụm) giữa các tài liệu.
1 2
1 ,
1
.( ( , )
i j r
k
r i j
r d d C
r
n d d
n

 
   
Cực đại hóa độ tương tự trọng tâm tài liệu
Cực đại hóa toàn bộ sự tương tự giữa mỗi tài liệu và trọng tâm cụm là tiêu
chuẩn chung cho các thuật toán không gian vector K-means [7, 18]:
2
1
( , )
i r
k
i r
r d C
d C

 
   
Dựa trên yêu cầu các văn bản không thuộc cùng cụm thì khác nhau càng
nhiều càng tốt, có thể dẫn tới một tiêu chuẩn làm cho tâm của các cụm càng trực
giao lẫn nhau càng tốt. Tuy nhiên tài liệu [22] đã cho thấy tiêu chuẩn này có thể
thu được các giải pháp không có giá trị. (chẳng hạn k-1 cụm, mỗi cụm chứa duy
nhất một tài liệu có một vài thuật ngữ chung với phần còn lại, và các văn bản còn
lại sẽ được gán vào một cụm). Vì vậy một tiêu chuẩn nhằm mở rộng các cụm bằng
cách cực tiểu hóa độ tương tự với trọng tâm của toàn bộ tập tài liệu đã được đề
xuất [22]:
2
1
( , )
k
r r
r
n C C
 

 
Trong đó C là tâm của toàn bộ tập văn bản.
3.3.5. Gán cứng và gán mềm
Đối với một số ứng dụng, đặc biệt là với văn bản, khi gán tài liệu vào một
cụm, một trong có thể ta muốn định lượng một tài liệu có quan hệ với một cụm
bằng một giá trị thực phù hợp. Giá trị đó được gọi là mức độ thành viên (the
membership degree). Trong phân cụm tài liệu nếu chúng ta coi các cụm như là tập
các tài liệu thuộc cùng chủ đề thì về bản chất một tài liệu có thể nói về một vài chủ
đề và có thể gán vào một vài cụm. Thuật toán sử dụng quan điểm trên được gọi là
sử dụng phép gán mềm hoặc mờ với các cụm phủ nhau. Ngược lại thuật toán với
phép gán cứng chỉ cho phép mỗi văn bản chỉ thuộc vào duy nhất một cụm mà
không quan tâm đến độ định lượng của quan hệ.
3.4. Các bước thực hiện phân cụm
1. Xây dựng thủ tục biểu diễn đối tượng,
2. Xây dựng hàm tính độ tương tự,
3. Xây dựng các tiêu chuẩn phân cụm,
4. Xây dựng mô hình cho cấu trúc cụm dữ liệu,
5. Xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo,
6. Đánh giá kết quả phân cụm
3.5. Đánh giá kết quả phân cụm
Làm thế nào để đánh giá được chất lượng cụm? Trong thực tế, không có một
tiêu chuẩn tuyệt đối nào, tùy theo các mục đích phân cụm sẽ có các tiêu chuẩn cụm
khác nhau phù hợp với yêu cầu sử dụng. Các tiêu chuẩn này được người sử dụng
đưa ra tùy theo từng bài toán phân cụm cụ thể.
Tuy nhiên, nhìn chung một phương thức phân cụm được đánh giá là tốt nếu
tạo ra được các cụm có chất lượng cao, tức là các đối tượng trong cùng cụm có
mức tương tự với nhau rất cao, còn các đối tượng không cùng cụm mức tương tự
rất thấp (phi tương tự). Ngoài ra, chất lượng của phương pháp phân cụm còn được
đánh giá bằng khả năng khám phá một vài hoặc tất cả cấu trúc ẩn bên trong nó.
Ta có thể tổng quát rằng, bản chất của việc phân cụm là xác định các đối
tượng tương tự nhau để nhóm lại thành cụm. Do đó, chất lượng của kết quả phân
cụm phụ thuộc chủ yếu hàm độ đo tương tự. Vậy hàm độ đo tương tự đóng vai trò
quyết định chất lượng cụm dữ liệu.
3.6. Phân cụm kết quả tìm kiếm web
Mặc dù xuất phát từ phân cụm tài liệu, các phương pháp phân cụm kết quả
tìm kiếm web lại khác so với các thuật toán phân cụm trước đó về nhiều mặt. Đáng
chú ý nhất, các thuật toán phân cụm tài liệu làm việc trên tập dữ liệu văn bản dài
(hay các văn bản tóm tắt) với số lượng lớn. Ngược lại, các thuật toán phân cụm kết
quả tìm kiếm web làm việc trên các tập tài liệu có độ dài trung bình (khoảng vài
trăm phần tử với độ dài từ 10-20 từ). Trong phân cụm tài liệu, yếu tố quan trọng là
chất lượng của các cụm và khả năng mở rộng với độ lớn của số lượng tài liệu vì
nó thường sử dụng để phân cụm toàn bộ tập tài liệu. Đối với phân cụm kết quả tìm
kiếm web, ngoài việc cung cấp các cụm chất lượng tốt, nó còn cần tạo ra các mô tả
ngắn gọn xúc tích và có ý nghĩa cho nhóm. Ngoài ra, các thuật toán phải rất nhanh,
cho kết quả ngay lập tức (vì phải xử lý các kết quả tìm kiếm ngay trước khi hiển thị
đến người sử dụng) và phải mở rộng được qui mô với sự gia tăng yêu cầu của
người sử dụng.
Phân cụm tài liệu Phân cụm kết quả tìm kiếm web
Các tài liệu dài (hoặc các văn bản tóm
tắt)
Các đoạn văn bản tóm tắt ngắn
Xử lý dữ liệu offline trên tập dữ liệu
lớn.
Xử lý trực tuyến trên tập dữ liệu trung
bình.
Chất lượng của cụm Chất lượng cụm và mô tả có ý nghĩa cho
cụm
Khả năng mở rộng với số lượng tài
liệu
Khả năng mở rộng với số truy vấn của
người dùng
Hình 3- 3. So sánh giữa phân cụm tài liệu và phân cụm kết quả tìm kiếm web.
3.7. Các phương pháp tách từ tiếng Việt
3.7.1. Đặc điểm từ trong tiếng Việt
Khác với Tiếng Anh, từ là một nhóm ký tự liên tiếp có ý nghĩa được phân
cách nhau bằng các khoảng trắng hoặc dấu câu, đơn vị cơ bản trong Tiếng Việt là
tiếng không phải là từ, một từ trong tiếng Việt có thể gồm một hoặc nhiều tiếng.
Từ tiếng Việt có một số đặc điểm chính như sau:
- Từ ở dạng nguyên thể, hình thức và ý nghĩa của từ độc lập với cú pháp
- Từ được cấu trúc từ “tiếng”
- Từ bao gồm từ đơn (từ một tiếng) và từ phức (n-tiếng, với n <= 5), bao
gồm từ láy và từ ghép.
Như vậy, từ Tiếng Việt và từ Tiếng Anh có những đặc điểm khác biệt chính
như bảng dưới đây.
Đặc điểm Tiếng Việt Tiếng Anh
Đơn vị cơ bản Tiếng Từ
Nhận dạng từ Tổ hợp các tiếng liên tiếp
có nghĩa dựa vào ngữ
cảnh sử dụng
Cách nhau bởi các
khoảng trắng hoặc dấu
câu.
Từ loại Không thống nhất Định nghĩa rõ ràng
Tiền tố/hậu tố Không có Có
Bảng 3- 5. So sánh các đặc điểm khác nhau giữa tiếng Anh và tiếng Việt
Từ những đặc điểm khác biệt trên, khi phân tách văn bản tiếng Việt thành các
từ có nhiều khó khăn hơn so với việc phân tách từ Tiếng Anh. Các phần dưới đây
sẽ trình bày một số phương pháp tách từ Tiếng Việt đang được sử dụng hiện nay.
3.7.2. Phương pháp so khớp cực đại
Phương pháp so khớp cực đại (MM - Maximum Matching) hay còn gọi là so
khớp cực đại từ trái qua phải (LRMM - Left Right Maximum Matching). Ở
phương pháp này, chúng ta sẽ duyệt một ngữ hoặc câu từ trái sang phải và chọn từ
có nhiều âm tiết nhất có mặt trong từ điển và cứ thực hiện lặp lại như vậy cho đến
hết câu.
Với tư tưởng đó, phương pháp này thực hiện tách từ đơn giản, nhanh và chỉ
cần dựa vào từ điển để thực hiện. Tuy nhiên, khuyết điểm của phương pháp này
cũng chính là từ điển, nghĩa là độ chính xác khi thực hiện tách từ phụ thuộc hoàn
toàn vào tính đủ, tính chính xác của từ điển hơn nữa nó cũng tách từ sai trong một
số trường hợp đặc biệt như câu: Học sinh học sinh học
3.7.3. Phương pháp học cải biến
Phương pháp này tiếp cận dựa trên tập ngữ liệu đã đánh dấu.Theo cách tiếp
cận này để cho máy tính có thể nhận biết ranh giới giữa các từ để có thể tách từ
chính xác, chúng ta sẽ cho máy học các câu mẫu trong tập ngữ liệu đã được đánh
dấu ranh giới giữa các từ đúng.
Ta thấy phương pháp rất đơn giản, vì chỉ cần cho máy học các tập câu mẫu và
sau đó máy sẽ tự rút ra qui luật của ngôn ngữ và để từ đó sẽ áp dụng chính xác khi
có những câu đúng theo luật mà máy đã rút ra. Và rõ ràng để tách từ được hoàn
toàn chính xác trong mọi trường hợp thì đòi hỏi phải có một tập ngữ liệu tiếng Việt
thật đầy đủ và phải được huấn luyện lâu để có thể rút ra các luật đầy đủ.
3.7.4. Mô hình tách từ bằng WFST và mạng Neural
Mô hình mạng chuyển dịch trạng thái hữu hạn có trọng số (WFST – Weighted
Finit State Transducer) đã được áp dụng trong tách từ từ năm 1996. Ý tưởng cơ
bản là áp dụng WFST với trọng số là xác suất xuất hiện của mỗi từ trong kho ngữ
liệu. Dùng WFST để duyệt qua các câu cần xét, khi đó từ có trọng số lớn nhất là từ
được chọn để tách. Phương pháp này cũng đã được sử dụng trong công trình đã
được công bố của tác giả Đinh Điền [2001], tác giả đã sử dụng WFST kèm với
mạng Neural để khử nhập nhằng khi tách từ, trong công trình tác giả đã xây dựng
hệ thống tách từ gồm tầng WFST để tách từ và xử lý các vấn đề liên quan đến một
số đặc thù riêng của ngôn ngữ tiếng Việt như từ láy, tên riêng,.. và tầng mạng
Neural dùng để khử nhập nhằng về ngữ nghĩa sau khi đã tách từ (nếu có).
Theo công bố trong công trình của tác giả, mô hình này đạt được độ chính
xác trên 97%. Tác giả sử dụng thêm mạng Neural kết hợp với từ điển để khử các
nhập nhằng có thể có khi tách ra nhiều từ có được từ một câu; tầng mạng Neural sẽ
loại bỏ đi các từ không phù hợp bằng cách kết hợp với từ điển. Bên cạnh đó, cũng
tương tự như phương pháp TBL điểm quan trọng của mô hình này cần tập ngữ liệu
học đầy đủ.
3.7.5. Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và
thuật giải di truyền
Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải
di truyền (IGATEC - Internet and Genetics Algorithm based Text Categorization
for Documents in Vietnamese) do H. Nguyễn đề xuất năm 2005 như một hướng
tiếp cận mới trong tách từ với mục đích phân loại văn bản mà không cần dùng đến
một từ điển hay tập ngữ liệu học nào. Trong hướng tiếp cận này, tác giả kết hợp
giữa thuật toán di truyền với dữ liệu thống kê được lấy từ Internet.
Theo cách tiếp cận của tác giả, hệ thống tách từ gồm 2 thành phần
Lấy thông tin trực tuyến (Online Extractor): Thành phần này có tác dụng
lấy thông tin về tần số xuất hiện của các từ trong văn bản bằng cách sử dụng một
search engine nổi tiếng như Google hay Yahoo chẳng hạn. Sau đó, tác giả sử dụng
các công thức thích hợp (xem [4]) để tính toán mức độ phụ thuộc lẫn nhau để làm
cơ sở tính fitness cho GA engine.
Tách từ bằng thuật giải di truyền: mỗi cá thể trong quan thể được biểu diễn
bởi chuỗi các bit 0,1, trong đó, mỗi bit đại diện cho một tiếng trong văn bản, mỗi
nhóm bit cùng loại đại diện cho cho một đoạn. Các cá thể trong quần thể được khởi
tạo ngẫu nhiên, trong đó mỗi đoạn được giới hạn trong khoảng 5. GA engine sau
đó thực hiện các bước đột biến và lai ghép nhằm mục đích làm tăng giá trị fitness
của các cá thể để đạt được cách tách từ tốt nhất có thể.
Chương 4: LÝ THUYẾT TẬP THÔ
4.1. Giới thiệu
Lý thuyết tập thô (rough set theory) lần đầu tiên được đề xuất bởi Z. Pawlak
vào đầu những năm 1980 và nhanh chóng được xem như một công cụ xử lý các
thông tin mơ hồ và không chắc chắn. Lý thuyết tập thô là một công cụ hữu ích
được sử dụng nhiều trong việc phân tích và phân lớp dữ liệu. Lý thuyết tập thô đã
được áp dụng thành công trong nhiều tác vụ khác nhau như: Trích chọn các đặc
trưng, tổng hợp ra các luật và phân cụm dữ liệu.
Lý thuyết tập thô dựa trên giả thiết rằng để định nghĩa một tập hợp, chúng ta
cần phải có thông tin về mọi đối tượng trong tập vũ trụ, quan điểm này hoàn toàn
khác với quan điểm truyền thống của tập hợp là mọi tập hợp đều được định nghĩa
duy nhất bởi các phần tử của nó mà không cần biết bất kỳ thông tin nào về các
phần tử của tập hợp. Vấn đề nổi bật của lý thuyết tập thô là việc đưa ra ý tưởng về
tính mơ hồ của tri thức hay hệ thông tin; nó dựa trên khái niệm xấp xỉ dưới (Lower
approximation) và xấp xỉ trên (Upper approximation) của hệ thông tin. Xấp xỉ
dưới của một hệ thông tin cho một khái niệm C là tập hợp các đối tượng chắc chắn
thuộc về khái niệm C; trong khi đó xấp xỉ trên của một hệ thông tin cho khái niệm
C là tập hợp các đối tượng có thể thuộc về khái niệm C. Vùng khác biệt giữa xấp xỉ
trên và xấp xỉ dưới được gọi là vùng biên (Boundary region) đó là những đối tượng
không thể quyết định được là có thuộc khái niệm C (xem hình 4.1).
Trong chương này chúng ta sẽ nghiên cứu các khái niệm và ý nghĩa cơ bản
của lý thuyết tập thô. Đây là những kiến thức quan trọng cho việc áp dụng tập thô
vào phân cụm kết quả tìm kiếm web.
Hình 4- 1. Hình ảnh minh họa các khái niệm của tập thô
4.2. Hệ thông tin
Một tập dữ liệu thể hiện dưới dạng bảng, trong đó mỗi dòng thể hiện cho một
trường hợp, một sự kiện, một bệnh nhân hay đơn giản là một đối tượng. Mỗi cột
của bảng thể hiện một thuộc tính (là một giá trị, một quan sát, một đặc điểm …)
được “đo lường” cho từng đối tượng. Ngoài ra giá trị của thuộc tính cũng có thể
được cung cấp bởi chuyên gia hay bởi người sử dụng. Một bảng như vậy được gọi
là một hệ thông tin (information system).
Một cách hình thức, hệ thông tin là một cặp A = (U,A) trong đó U là tập hữu
hạn khác rỗng các đối tượng và được gọi là tập vũ trụ, A là tập hữu hạn khác rỗng
các thuộc tính sao cho a: U→Va với mọi aA. Tập Va được gọi là tập giá trị của
thuộc tính a.
Ví dụ 4-1 : Bảng 4-1dưới đây cho ta hình ảnh về một hệ thông tin đơn giản
với 7 đối tượng và 2 thuộc tính Age và LEMS (Lower Extremity Motor Score)[10].
Age LEMS
x1 16 – 30 50
x2 16 – 30 0
x3 31 – 45 1 – 25
x4 31 – 45 1 – 25
x5 46 – 60 26 – 49
x6 16 – 30 26 – 49
x7 46 – 60 26 – 49
Bảng 4- 1. Một hệ thông tin đơn giản
Ta dễ dàng nhận thấy trong bảng trên, các cặp đối tượng x3, x4 cũng như x5
,
x7
có giá trị bằng nhau với cả hai thuộc tính. Trường hợp này ta nói rằng các
đối tượng này không phân biệt từng đôi đối với tập thuộc tính {Age, LEMS}.
Trong nhiều ứng dụng, tập vũ trụ được phân chia thành các tập đối tượng
con bởi một tập các thuộc tính phân biệt được gọi là tập thuộc tính quyết định.
Nói cách khác tập vũ trụ đã được phân lớp bởi thuộc tính quyết định. Hệ thông
tin trong trường hợp này được gọi là một hệ quyết định. Như vậy hệ quyết định là
một hệ thông tin có dạng: A = (U,C D) trong đó A C D, C và D lần lượt
được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định của hệ thông tin.
Ví dụ 4-2 : Bảng 4-2 dưới đây thể hiện một hệ quyết định, trong đó tập thuộc
tính {walk} được thêm vào nhận hai giá trị kết xuất là Yes và No [10].
Age LEMS Walk
x1 16 – 30 50 Yes
x2 16 – 30 0 No
x3 31 – 45 1 – 25 No
x4 31 – 45 1 – 25 Yes
x5 46 – 60 26 – 49 No
x6 16 – 30 26 – 49 Yes
x7 46 – 60 26 – 49 No
Bảng 4- 2. Một bảng quyết định đơn giản
Một lần nữa ta thấy rằng, các cặp đối tượng x3, x4 và x5, x7 vẫn có giá trị
như nhau tại hai thuộc tính điều kiện, nhưng cặp thứ nhất {x3, x4}thì có giá trị kết
xuất khác nhau (tức giá trị tại thuộc tính quyết định khác nhau), trong khi đó cặp
thứ hai {x5, x7} thì bằng nhau tại thuộc tính quyết định.
Từ bảng trên có thể rút ra được một luật: “Nếu Age là 16-30 và LEMS là 50
thì Walk là Yes”. Tính tối thiểu của các thuộc tính điều kiện trong tập các luật có
được từ hệ quyết định là một trong những vấn đề rất quan trọng.
4.3. Quan hệ bất khả phân biệt
Một hệ quyết định (hay một bảng quyết định) thể hiện tri thức về các đối
tượng trong thực tiễn. Tuy nhiên trong nhiều trường hợp bảng này có thể được thu
gọn lại vì các lý do sau:
 Nhiều đối tượng giống nhau, hay không thể phân biệt với nhau lại
được thể hiện lặp lại nhiều lần.
 Khi bỏ đi một số thuộc tính thì thông tin do bảng quyết định cung cấp
mà chúng ta quan tâm sẽ không bị mất mát. Những thuộc tính như vậy
được coi là các thuộc tính thừa.
4.3.1. Quan hệ tương đương - Lớp tương đương
Một quan hệ hai ngôi RX x Xđược gọi là quan hệ tương đương khi và chỉ
khi :
 R là quan hệ phản xạ: xRx, x  X
 R là quan hệ đối xứng: xRy  yRx, x,y  X
 R là quan hệ bắc cầu: xRy và yRz  xRz, x, y, zX
Lớp tương đương của một đối tượng x là tập tất cả các đối tượng y  X mà
xRy.
Chúng ta xét hệ thông tin A = (U, A). Khi đó mỗi tập thuộc tính B
đều tạo ra tương ứng một quan hệ tương đương IND A(B)
IND A (B ) = {(x, x ' ) U2
| a B, a (x) a (x ' )}
INDA (B) được gọi là quan hệ B -bất khả phân biệt. Nếu (x, x') INDA(B)
thì các đối tượng x và x' là không thể phân biệt được với nhau qua tập thuộc tính B.
Lớp tương đương của x trong quan hệ IND A(B) được kí hiệu bởi [x]B. Nếu không
bị nhầm lẫn ta viết IND(B) thay cho INDA(B)
Ví dụ 4-4 : Trong ví dụ này chúng ta sẽ xem xét các quan hệ bất khả phân
biệt được định nghĩa trong Bảng 4-2
Chẳng hạn, xét tại thuộc tính {LEMS}, các đối tượng x3, x4 có cùng giá
trị 1−25 nên thuộc cùng lớp tương đương định bởi quan hệ IND({LEMS}), hay
chúng bất khả phân biệt qua tập thuộc tính {LEMS}. Tương tự như vậy là ba đối
tượng x5, x6 và x7 cùng thuộc vào một lớp tương đương định bởi quan hệ
IND({LEMS})
Quan hệ IND định ra ba phân hoạch sau của tập các đối tượng trong vũ trụ:
IND({Age}) = {{x1, x2, x6},{x3, x4}, {x5, x7}}
IND({LEMS}) = {{x1},{x2},{x3, x4},{x5, x6 , x7}}
IND({Age, LEMS}) = {{x1},{x2},{x3, x4},{x5, x7 },{x6}}
4.4. Xấp xỉ tập hợp
Một quan hệ tương đương cho ta một sự phân hoạch các đối tượng của tập
vũ trụ. Các lớp tương đương này có thể được sử dụng để tạo nên các tập con của
tập vũ trụ. Các tập con này thường chứa các đối tượng có giá trị giống nhau tại tập
các thuộc tính quyết định.
Tuy vậy không phải khái niệm nào cũng có thể định nghĩa một cách rõ ràng
như vậy. Chẳng hạn như khái niệm Walk trong bảng quyết định 4-2, khái niệm này
không thể định nghĩa rõ ràng qua 2 thuộc tính điều kiện Age và LEMS: hai đối
tượng x3 và x4 thuộc cùng một lớp tương đương tạo bởi 2 thuộc tính điều kiện
nhưng lại có giá trị khác nhau tại thuộc tính Walk, vì vậy nếu một đối tượng nào đó
có (Age,LEMS) (31-45,1-25) thì ta vẫn không thể biết chắc chắn giá trị của nó
tại thuộc tính Walk. Trong những trường hợp như vậy người ta sẽ sử dụng khái
niệm tập thô.
Mặc dù không thể mô tả khái niệm Walk một cách rõ ràng nhưng căn cứ vào
tập thuộc tính {Age, LEMS} ta vẫn có thể chỉ ra được chắc chắn:
 Một số đối tượng có Walk là Yes
 Một số đối tượng có Walk là No
 Còn lại là các đối tượng thuộc về tập biên của 2 giá trị Yes và No. Tập
các đối tượng có tập biên khác rỗng được gọi là tập thô.
Những khái niệm trên được thể hiện một cách hình thức như sau:
Cho hệ thông tin A = (U, A), tập thuộc tính BA , tập đối tượng XU
 Chúng ta có thể xấp xỉ tập hợp X bằng cách chỉ sử dụng các thuộc tính trong
B từ việc xây dựng các tập hợp B-xấp xỉ dưới và B -xấp xỉ trên được định nghĩa
như sau:
 B - xấp xỉ dưới của tập X : BX = {x | [x]BX
}
 B -xấp xỉ trên của tập X : BX {x | [x]B X }
Tập hợp BX là tập các đối tượng trong U mà sử dụng các thuộc tính trong
B ta có thể biết chắc chắn được chúng là các phần tử của X.
Tập hợp BX là tập các đối tượng trong U mà sử dụng các thuộc tính trong B
ta chỉ có thể nói rằng chúng có thể là các phần tử của X.
Tập hợp BNB(X)  BX - BX được gọi là B -biên của tập X và chứa những
đối tượng mà sử dụng các thuộc tính của B ta không thể xác định được chúng có
thuộc tập X hay không.
Tập hợp U - BX được gọi là B -ngoài của tập X, gồm những đối tượng mà sử
dụng tập thuộc tính B ta biết chắc chắn chúng không thuộc tập X.
Một tập hợp được gọi là thô nếu đường biên của nó là không rỗng, ngược lại
ta nói tập này là rõ.
Ví dụ 4-6: Trong đa số trường hợp, người ta luôn muốn hình thành các định
nghĩa của các lớp quyết định từ các thuộc tính điều kiện. Xét bảng 4-2 ở trên với
tập đối tượng W {x|Walk(x)= Yes} = {x1, x4, x6} và tập thuộc tính
B{Age, LEMS}. Khi đó ta nhận được các vùng xấp xỉ sau đây của W thông qua
B:
W
B = {x1, x6}, W
B ={x1, x3, x4, x6}
Tải bản FULL (89 trang): https://bit.ly/3Dhc6PK
Dự phòng: fb.com/TaiHo123doc.net
BNB(W) = {x3, x4}, U- W
B = {x2, x5, x7}
Hình 4-2. Xấp xỉ tập đối tượng trong Bảng 4-2 bằng các thuộc tính điều kiện Age
và LEMS. Mỗi vùng được thể hiện kèm theo tập các lớp tương đương tương ứng.
Một số tính chất của các tập hợp xấp xỉ
1. ( ) ( )
B X X B X
 
2. ( ) ( )
B B
     , ( ) ( )
B U U B U
 
3. ( ) ( ) ( )
B X Y B X B Y
  
4. ( ) ( ) ( )
B X Y B X B Y
  
5. Nếu X Y thì B( ) ( ), ( ) ( )
X B Y B X B Y
  
6. ( ) ( ) ( )
B X Y B X B Y
  
7. ( ) ( ) ( )
B X Y B X B Y
  
8. ( ) ( )
  
B U X U B X
9. ( ) ( )
  
B U X U B X
10. ( ( ) ( ( )) ( )
B B X B B X B X
 
11. ( ( ) ( ( )) ( )
B B X B B X B X
 
Dựa vào ý nghĩa của các xấp xỉ trên và xấp xỉ dưới, người ta định nghĩa bốn
lớp cơ bản của các tập thô, hay bốn thể loại mơ hồ (vagueness):
a, X được gọi là B - định nghĩa được một cách thô (roughly B -definable)
nếu và chỉ nếu B (X) ≠  và B (X) ≠ U
Tải bản FULL (89 trang): https://bit.ly/3Dhc6PK
Dự phòng: fb.com/TaiHo123doc.net
b, X được gọi là B - không định nghĩa được một cách nội vi (internally B
undefinable) nếu và chỉ nếu B (X) =  và B (X) ≠ U
c, X được gọi là B -không định nghĩa được một cách ngoại vi (externally B
undefinable) nếu và chỉ nếu B (X) ≠  và B (X) = U
d, X được gọi là B -không định nghĩa được một cách hoàn toàn (totally B
undefinable) nếu và chỉ nếu B (X) =  và B (X) = U
Có thể diễn tả lại các khái niệm trên như sau:
 X là B -định nghĩa được một cách thô nghĩa là: Nhờ sử dụng
tập thuộc tính B ta có thể chỉ ra một số đối tượng của U thuộc
về tập X và một số đối tượng của U thuộc về U -X.
 X là B -không định nghĩa được một cách nội vi nghĩa là: sử
dụng tập thuộc tính B ta có thể chỉ ra một số đối tượng của U
thuộc về U - X, nhưng lại không thể chỉ ra được các đối tượng
thuộc về X.
 X là B - không định nghĩa được một cách ngoại vi nghĩa là : sử
dụng tập thuộc tính B ta có thể chỉ ra một số đối tượng của U
thuộc về X, nhưng không chỉ ra được các đối tượng thuộc về
U-X
 X là B - không định nghĩa được một cách hoàn toàn nghĩa là:
sử dụng tập thuộc tính B ta không thể chỉ ra bất kỳ đối tượng
nào của U thuộc về X hay thuộc về U -X
Một tập thô có thể được định lượng bởi công thức:
6815919

More Related Content

Similar to Ứng dụng tập thô vào tìm kiếm Web.pdf

ĐỀ TÀI : Nhân tố ảnh hưởng đến dự định khởi sự kinh doanh của sinh viên
ĐỀ TÀI : Nhân tố ảnh hưởng đến dự định khởi sự kinh doanh của sinh viênĐỀ TÀI : Nhân tố ảnh hưởng đến dự định khởi sự kinh doanh của sinh viên
ĐỀ TÀI : Nhân tố ảnh hưởng đến dự định khởi sự kinh doanh của sinh viên
Luận Văn 1800
 
Nhân tố ảnh hưởng đến dự định khởi sự kinh doanh của sinh viên - Gửi miễn phí...
Nhân tố ảnh hưởng đến dự định khởi sự kinh doanh của sinh viên - Gửi miễn phí...Nhân tố ảnh hưởng đến dự định khởi sự kinh doanh của sinh viên - Gửi miễn phí...
Nhân tố ảnh hưởng đến dự định khởi sự kinh doanh của sinh viên - Gửi miễn phí...
Dịch vụ viết bài trọn gói ZALO: 0909232620
 
Hàm phức và biến đổi laplace, Nguyễn Hùng, Ngô Cao Cường.pdf
Hàm phức và biến đổi laplace, Nguyễn Hùng, Ngô Cao Cường.pdfHàm phức và biến đổi laplace, Nguyễn Hùng, Ngô Cao Cường.pdf
Hàm phức và biến đổi laplace, Nguyễn Hùng, Ngô Cao Cường.pdf
Man_Ebook
 
Nghiên cứu sơ bộ thành phần hóa học phân đoạn ethyl acetate cây Viễn chí (Pol...
Nghiên cứu sơ bộ thành phần hóa học phân đoạn ethyl acetate cây Viễn chí (Pol...Nghiên cứu sơ bộ thành phần hóa học phân đoạn ethyl acetate cây Viễn chí (Pol...
Nghiên cứu sơ bộ thành phần hóa học phân đoạn ethyl acetate cây Viễn chí (Pol...
lamluanvan.net Viết thuê luận văn
 
Luận văn đề tài Nâng cao sự hài lòng về chất lượng dịch vụ tại công ty TNHH D...
Luận văn đề tài Nâng cao sự hài lòng về chất lượng dịch vụ tại công ty TNHH D...Luận văn đề tài Nâng cao sự hài lòng về chất lượng dịch vụ tại công ty TNHH D...
Luận văn đề tài Nâng cao sự hài lòng về chất lượng dịch vụ tại công ty TNHH D...
https://www.facebook.com/garmentspace
 
Khóa luận hóa học.
Khóa luận hóa học.Khóa luận hóa học.
Khóa luận hóa học.
ssuser499fca
 
Luận văn: Nghiên cứu tổng hợp chất xúc tác trên nền vật liệu graphen oxit
Luận văn: Nghiên cứu tổng hợp chất xúc tác trên nền vật liệu graphen oxitLuận văn: Nghiên cứu tổng hợp chất xúc tác trên nền vật liệu graphen oxit
Luận văn: Nghiên cứu tổng hợp chất xúc tác trên nền vật liệu graphen oxit
Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Luận văn: Vận dụng lý thuyết tiếp nhận vào dạy học văn học dân gian
Luận văn: Vận dụng lý thuyết tiếp nhận vào dạy học văn học dân gianLuận văn: Vận dụng lý thuyết tiếp nhận vào dạy học văn học dân gian
Luận văn: Vận dụng lý thuyết tiếp nhận vào dạy học văn học dân gian
Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Luận văn: Vận dụng lý thuyết tiếp nhận vào dạy học văn học dân gian ở Trung ...
Luận văn:  Vận dụng lý thuyết tiếp nhận vào dạy học văn học dân gian ở Trung ...Luận văn:  Vận dụng lý thuyết tiếp nhận vào dạy học văn học dân gian ở Trung ...
Luận văn: Vận dụng lý thuyết tiếp nhận vào dạy học văn học dân gian ở Trung ...
Dịch vụ viết bài trọn gói ZALO: 0936 885 877
 
Yếu tố ảnh hưởng đến sự gắn kết của nhân viên với công ty, HAY
Yếu tố ảnh hưởng đến sự gắn kết của nhân viên với công ty, HAYYếu tố ảnh hưởng đến sự gắn kết của nhân viên với công ty, HAY
Yếu tố ảnh hưởng đến sự gắn kết của nhân viên với công ty, HAY
Viết thuê trọn gói ZALO 0934573149
 
Yếu tố ảnh hưởng đến sự gắn kết của nhân viên với Công ty, 9đ
Yếu tố ảnh hưởng đến sự gắn kết của nhân viên với Công ty, 9đYếu tố ảnh hưởng đến sự gắn kết của nhân viên với Công ty, 9đ
Yếu tố ảnh hưởng đến sự gắn kết của nhân viên với Công ty, 9đ
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Luận văn: Trắc nghiệm trực tuyến, HAY
Luận văn: Trắc nghiệm trực tuyến, HAYLuận văn: Trắc nghiệm trực tuyến, HAY
Luận văn: Trắc nghiệm trực tuyến, HAY
Dịch Vụ Viết Thuê Khóa Luận Zalo/Telegram 0917193864
 
Luận án: Đối chiếu thuật ngữ thời trang Anh Việt, HAY
Luận án: Đối chiếu thuật ngữ thời trang Anh Việt, HAYLuận án: Đối chiếu thuật ngữ thời trang Anh Việt, HAY
Luận án: Đối chiếu thuật ngữ thời trang Anh Việt, HAY
Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Đề tài: Vai trò của hệ giằng, xà gồ trong sự làm việc của khung thép
Đề tài: Vai trò của hệ giằng, xà gồ trong sự làm việc của khung thépĐề tài: Vai trò của hệ giằng, xà gồ trong sự làm việc của khung thép
Đề tài: Vai trò của hệ giằng, xà gồ trong sự làm việc của khung thép
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Đề tài: Khảo sát cấu trúc, tính chất của vật liệu NaNo Nife2o4, 9đ
Đề tài: Khảo sát cấu trúc, tính chất của vật liệu NaNo Nife2o4, 9đĐề tài: Khảo sát cấu trúc, tính chất của vật liệu NaNo Nife2o4, 9đ
Đề tài: Khảo sát cấu trúc, tính chất của vật liệu NaNo Nife2o4, 9đ
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
Hiệu quả của Phẫu thuật tạo đường hầm OMC – túi mật – da thực hiện trong điều...
Hiệu quả của Phẫu thuật tạo đường hầm OMC – túi mật – da thực hiện trong điều...Hiệu quả của Phẫu thuật tạo đường hầm OMC – túi mật – da thực hiện trong điều...
Hiệu quả của Phẫu thuật tạo đường hầm OMC – túi mật – da thực hiện trong điều...
nataliej4
 
Luận Văn Định Dưới Giá Của Cổ Phiếu Lần Đầu Phát Hành Ra Công Chúng.doc
Luận Văn Định Dưới Giá Của Cổ Phiếu Lần Đầu Phát Hành Ra Công Chúng.docLuận Văn Định Dưới Giá Của Cổ Phiếu Lần Đầu Phát Hành Ra Công Chúng.doc
Luận Văn Định Dưới Giá Của Cổ Phiếu Lần Đầu Phát Hành Ra Công Chúng.doc
Dịch vụ viết đề tài trọn gói Zalo/Tele: 0917.193.864
 
Đề tài: Mô hình hóa và khảo sát sai số của robot công nghiệp, HOT
Đề tài: Mô hình hóa và khảo sát sai số của robot công nghiệp, HOTĐề tài: Mô hình hóa và khảo sát sai số của robot công nghiệp, HOT
Đề tài: Mô hình hóa và khảo sát sai số của robot công nghiệp, HOT
Dịch vụ viết bài trọn gói ZALO: 0909232620
 

Similar to Ứng dụng tập thô vào tìm kiếm Web.pdf (20)

ĐỀ TÀI : Nhân tố ảnh hưởng đến dự định khởi sự kinh doanh của sinh viên
ĐỀ TÀI : Nhân tố ảnh hưởng đến dự định khởi sự kinh doanh của sinh viênĐỀ TÀI : Nhân tố ảnh hưởng đến dự định khởi sự kinh doanh của sinh viên
ĐỀ TÀI : Nhân tố ảnh hưởng đến dự định khởi sự kinh doanh của sinh viên
 
Nhân tố ảnh hưởng đến dự định khởi sự kinh doanh của sinh viên - Gửi miễn phí...
Nhân tố ảnh hưởng đến dự định khởi sự kinh doanh của sinh viên - Gửi miễn phí...Nhân tố ảnh hưởng đến dự định khởi sự kinh doanh của sinh viên - Gửi miễn phí...
Nhân tố ảnh hưởng đến dự định khởi sự kinh doanh của sinh viên - Gửi miễn phí...
 
Hàm phức và biến đổi laplace, Nguyễn Hùng, Ngô Cao Cường.pdf
Hàm phức và biến đổi laplace, Nguyễn Hùng, Ngô Cao Cường.pdfHàm phức và biến đổi laplace, Nguyễn Hùng, Ngô Cao Cường.pdf
Hàm phức và biến đổi laplace, Nguyễn Hùng, Ngô Cao Cường.pdf
 
Nghiên cứu sơ bộ thành phần hóa học phân đoạn ethyl acetate cây Viễn chí (Pol...
Nghiên cứu sơ bộ thành phần hóa học phân đoạn ethyl acetate cây Viễn chí (Pol...Nghiên cứu sơ bộ thành phần hóa học phân đoạn ethyl acetate cây Viễn chí (Pol...
Nghiên cứu sơ bộ thành phần hóa học phân đoạn ethyl acetate cây Viễn chí (Pol...
 
Luận văn đề tài Nâng cao sự hài lòng về chất lượng dịch vụ tại công ty TNHH D...
Luận văn đề tài Nâng cao sự hài lòng về chất lượng dịch vụ tại công ty TNHH D...Luận văn đề tài Nâng cao sự hài lòng về chất lượng dịch vụ tại công ty TNHH D...
Luận văn đề tài Nâng cao sự hài lòng về chất lượng dịch vụ tại công ty TNHH D...
 
Khóa luận hóa học.
Khóa luận hóa học.Khóa luận hóa học.
Khóa luận hóa học.
 
Luận văn: Nghiên cứu tổng hợp chất xúc tác trên nền vật liệu graphen oxit
Luận văn: Nghiên cứu tổng hợp chất xúc tác trên nền vật liệu graphen oxitLuận văn: Nghiên cứu tổng hợp chất xúc tác trên nền vật liệu graphen oxit
Luận văn: Nghiên cứu tổng hợp chất xúc tác trên nền vật liệu graphen oxit
 
Luận văn: Vận dụng lý thuyết tiếp nhận vào dạy học văn học dân gian
Luận văn: Vận dụng lý thuyết tiếp nhận vào dạy học văn học dân gianLuận văn: Vận dụng lý thuyết tiếp nhận vào dạy học văn học dân gian
Luận văn: Vận dụng lý thuyết tiếp nhận vào dạy học văn học dân gian
 
Luận văn: Vận dụng lý thuyết tiếp nhận vào dạy học văn học dân gian ở Trung ...
Luận văn:  Vận dụng lý thuyết tiếp nhận vào dạy học văn học dân gian ở Trung ...Luận văn:  Vận dụng lý thuyết tiếp nhận vào dạy học văn học dân gian ở Trung ...
Luận văn: Vận dụng lý thuyết tiếp nhận vào dạy học văn học dân gian ở Trung ...
 
Yếu tố ảnh hưởng đến sự gắn kết của nhân viên với công ty, HAY
Yếu tố ảnh hưởng đến sự gắn kết của nhân viên với công ty, HAYYếu tố ảnh hưởng đến sự gắn kết của nhân viên với công ty, HAY
Yếu tố ảnh hưởng đến sự gắn kết của nhân viên với công ty, HAY
 
Yếu tố ảnh hưởng đến sự gắn kết của nhân viên với Công ty, 9đ
Yếu tố ảnh hưởng đến sự gắn kết của nhân viên với Công ty, 9đYếu tố ảnh hưởng đến sự gắn kết của nhân viên với Công ty, 9đ
Yếu tố ảnh hưởng đến sự gắn kết của nhân viên với Công ty, 9đ
 
Luận văn: Trắc nghiệm trực tuyến, HAY
Luận văn: Trắc nghiệm trực tuyến, HAYLuận văn: Trắc nghiệm trực tuyến, HAY
Luận văn: Trắc nghiệm trực tuyến, HAY
 
20121224164710718
2012122416471071820121224164710718
20121224164710718
 
Luận án: Đối chiếu thuật ngữ thời trang Anh Việt, HAY
Luận án: Đối chiếu thuật ngữ thời trang Anh Việt, HAYLuận án: Đối chiếu thuật ngữ thời trang Anh Việt, HAY
Luận án: Đối chiếu thuật ngữ thời trang Anh Việt, HAY
 
Giao trinh c_can_ban
Giao trinh c_can_banGiao trinh c_can_ban
Giao trinh c_can_ban
 
Đề tài: Vai trò của hệ giằng, xà gồ trong sự làm việc của khung thép
Đề tài: Vai trò của hệ giằng, xà gồ trong sự làm việc của khung thépĐề tài: Vai trò của hệ giằng, xà gồ trong sự làm việc của khung thép
Đề tài: Vai trò của hệ giằng, xà gồ trong sự làm việc của khung thép
 
Đề tài: Khảo sát cấu trúc, tính chất của vật liệu NaNo Nife2o4, 9đ
Đề tài: Khảo sát cấu trúc, tính chất của vật liệu NaNo Nife2o4, 9đĐề tài: Khảo sát cấu trúc, tính chất của vật liệu NaNo Nife2o4, 9đ
Đề tài: Khảo sát cấu trúc, tính chất của vật liệu NaNo Nife2o4, 9đ
 
Hiệu quả của Phẫu thuật tạo đường hầm OMC – túi mật – da thực hiện trong điều...
Hiệu quả của Phẫu thuật tạo đường hầm OMC – túi mật – da thực hiện trong điều...Hiệu quả của Phẫu thuật tạo đường hầm OMC – túi mật – da thực hiện trong điều...
Hiệu quả của Phẫu thuật tạo đường hầm OMC – túi mật – da thực hiện trong điều...
 
Luận Văn Định Dưới Giá Của Cổ Phiếu Lần Đầu Phát Hành Ra Công Chúng.doc
Luận Văn Định Dưới Giá Của Cổ Phiếu Lần Đầu Phát Hành Ra Công Chúng.docLuận Văn Định Dưới Giá Của Cổ Phiếu Lần Đầu Phát Hành Ra Công Chúng.doc
Luận Văn Định Dưới Giá Của Cổ Phiếu Lần Đầu Phát Hành Ra Công Chúng.doc
 
Đề tài: Mô hình hóa và khảo sát sai số của robot công nghiệp, HOT
Đề tài: Mô hình hóa và khảo sát sai số của robot công nghiệp, HOTĐề tài: Mô hình hóa và khảo sát sai số của robot công nghiệp, HOT
Đề tài: Mô hình hóa và khảo sát sai số của robot công nghiệp, HOT
 

More from NuioKila

Pháp luật về Quỹ trợ giúp pháp lý ở Việt Nam.pdf
Pháp luật về Quỹ trợ giúp pháp lý ở Việt Nam.pdfPháp luật về Quỹ trợ giúp pháp lý ở Việt Nam.pdf
Pháp luật về Quỹ trợ giúp pháp lý ở Việt Nam.pdf
NuioKila
 
BÁO CÁO Kết quả tham vấn cộng đồng về tính hợp pháp của gỗ và các sản phẩm gỗ...
BÁO CÁO Kết quả tham vấn cộng đồng về tính hợp pháp của gỗ và các sản phẩm gỗ...BÁO CÁO Kết quả tham vấn cộng đồng về tính hợp pháp của gỗ và các sản phẩm gỗ...
BÁO CÁO Kết quả tham vấn cộng đồng về tính hợp pháp của gỗ và các sản phẩm gỗ...
NuioKila
 
A study on common mistakes committed by Vietnamese learners in pronouncing En...
A study on common mistakes committed by Vietnamese learners in pronouncing En...A study on common mistakes committed by Vietnamese learners in pronouncing En...
A study on common mistakes committed by Vietnamese learners in pronouncing En...
NuioKila
 
[123doc] - thu-nghiem-cai-tien-chi-tieu-du-bao-khong-khi-lanh-cac-thang-cuoi-...
[123doc] - thu-nghiem-cai-tien-chi-tieu-du-bao-khong-khi-lanh-cac-thang-cuoi-...[123doc] - thu-nghiem-cai-tien-chi-tieu-du-bao-khong-khi-lanh-cac-thang-cuoi-...
[123doc] - thu-nghiem-cai-tien-chi-tieu-du-bao-khong-khi-lanh-cac-thang-cuoi-...
NuioKila
 
THỬ NGHIỆM CẢI TIẾN CHỈ TIÊU DỰ BÁO KHÔNG KHÍ LẠNH CÁC THÁNG CUỐI MÙA ĐÔNG BẰ...
THỬ NGHIỆM CẢI TIẾN CHỈ TIÊU DỰ BÁO KHÔNG KHÍ LẠNH CÁC THÁNG CUỐI MÙA ĐÔNG BẰ...THỬ NGHIỆM CẢI TIẾN CHỈ TIÊU DỰ BÁO KHÔNG KHÍ LẠNH CÁC THÁNG CUỐI MÙA ĐÔNG BẰ...
THỬ NGHIỆM CẢI TIẾN CHỈ TIÊU DỰ BÁO KHÔNG KHÍ LẠNH CÁC THÁNG CUỐI MÙA ĐÔNG BẰ...
NuioKila
 
Nhu cầu lập pháp của hành pháp.pdf
Nhu cầu lập pháp của hành pháp.pdfNhu cầu lập pháp của hành pháp.pdf
Nhu cầu lập pháp của hành pháp.pdf
NuioKila
 
KẾ HOẠCH DẠY HỌC CỦA TỔ CHUYÊN MÔN MÔN HỌC SINH HỌC - CÔNG NGHỆ.pdf
KẾ HOẠCH DẠY HỌC CỦA TỔ CHUYÊN MÔN MÔN HỌC SINH HỌC - CÔNG NGHỆ.pdfKẾ HOẠCH DẠY HỌC CỦA TỔ CHUYÊN MÔN MÔN HỌC SINH HỌC - CÔNG NGHỆ.pdf
KẾ HOẠCH DẠY HỌC CỦA TỔ CHUYÊN MÔN MÔN HỌC SINH HỌC - CÔNG NGHỆ.pdf
NuioKila
 
KIẾN TRÚC BIỂU HIỆN TẠI VIỆT NAM.pdf
KIẾN TRÚC BIỂU HIỆN TẠI VIỆT NAM.pdfKIẾN TRÚC BIỂU HIỆN TẠI VIỆT NAM.pdf
KIẾN TRÚC BIỂU HIỆN TẠI VIỆT NAM.pdf
NuioKila
 
QUY HOẠCH PHÁT TRIỂN HỆ THỐNG Y TẾ TỈNH NINH THUẬN.pdf
QUY HOẠCH PHÁT TRIỂN HỆ THỐNG Y TẾ TỈNH NINH THUẬN.pdfQUY HOẠCH PHÁT TRIỂN HỆ THỐNG Y TẾ TỈNH NINH THUẬN.pdf
QUY HOẠCH PHÁT TRIỂN HỆ THỐNG Y TẾ TỈNH NINH THUẬN.pdf
NuioKila
 
NGHIÊN CỨU XÂY DỰNG BỘ TIÊU CHÍ ĐÁNH GIÁ CHẤT LƯỢNG CÁC CHƯƠNG TRÌNH ĐÀO TẠO ...
NGHIÊN CỨU XÂY DỰNG BỘ TIÊU CHÍ ĐÁNH GIÁ CHẤT LƯỢNG CÁC CHƯƠNG TRÌNH ĐÀO TẠO ...NGHIÊN CỨU XÂY DỰNG BỘ TIÊU CHÍ ĐÁNH GIÁ CHẤT LƯỢNG CÁC CHƯƠNG TRÌNH ĐÀO TẠO ...
NGHIÊN CỨU XÂY DỰNG BỘ TIÊU CHÍ ĐÁNH GIÁ CHẤT LƯỢNG CÁC CHƯƠNG TRÌNH ĐÀO TẠO ...
NuioKila
 
TIỂU LUẬN Phân tích các loại nguồn của luật tư La Mã và so sánh với các nguồn...
TIỂU LUẬN Phân tích các loại nguồn của luật tư La Mã và so sánh với các nguồn...TIỂU LUẬN Phân tích các loại nguồn của luật tư La Mã và so sánh với các nguồn...
TIỂU LUẬN Phân tích các loại nguồn của luật tư La Mã và so sánh với các nguồn...
NuioKila
 
Nuevo enfoque de aprendizajesemi-supervisado para la identificaciónde secuenci...
Nuevo enfoque de aprendizajesemi-supervisado para la identificaciónde secuenci...Nuevo enfoque de aprendizajesemi-supervisado para la identificaciónde secuenci...
Nuevo enfoque de aprendizajesemi-supervisado para la identificaciónde secuenci...
NuioKila
 
Inefficiency in engineering change management in kimberly clark VietNam co., ...
Inefficiency in engineering change management in kimberly clark VietNam co., ...Inefficiency in engineering change management in kimberly clark VietNam co., ...
Inefficiency in engineering change management in kimberly clark VietNam co., ...
NuioKila
 
An Investigation into culrural elements via linguistic means in New Headway t...
An Investigation into culrural elements via linguistic means in New Headway t...An Investigation into culrural elements via linguistic means in New Headway t...
An Investigation into culrural elements via linguistic means in New Headway t...
NuioKila
 
An evaluation of the translation of the film Rio based on Newmarks model.pdf
An evaluation of the translation of the film Rio based on Newmarks model.pdfAn evaluation of the translation of the film Rio based on Newmarks model.pdf
An evaluation of the translation of the film Rio based on Newmarks model.pdf
NuioKila
 
Teachers and students views on grammar presentation in the course book Englis...
Teachers and students views on grammar presentation in the course book Englis...Teachers and students views on grammar presentation in the course book Englis...
Teachers and students views on grammar presentation in the course book Englis...
NuioKila
 
11th graders attitudes towards their teachers written feedback.pdf
11th graders attitudes towards their teachers written feedback.pdf11th graders attitudes towards their teachers written feedback.pdf
11th graders attitudes towards their teachers written feedback.pdf
NuioKila
 
Phân tích tài chính Công ty Cổ phần VIWACO.pdf
Phân tích tài chính Công ty Cổ phần VIWACO.pdfPhân tích tài chính Công ty Cổ phần VIWACO.pdf
Phân tích tài chính Công ty Cổ phần VIWACO.pdf
NuioKila
 
Ngói Champa ở di tích Triền Tranh (Duy Xuyên Quảng Nam).pdf
Ngói Champa ở di tích Triền Tranh (Duy Xuyên Quảng Nam).pdfNgói Champa ở di tích Triền Tranh (Duy Xuyên Quảng Nam).pdf
Ngói Champa ở di tích Triền Tranh (Duy Xuyên Quảng Nam).pdf
NuioKila
 
ĐỀ XUẤT CÁC GIẢI PHÁP NÂNG CAO HIỆU QUẢ VẬN HÀNH LƯỚI ĐIỆN PHÂN PHỐI TÂY NAM ...
ĐỀ XUẤT CÁC GIẢI PHÁP NÂNG CAO HIỆU QUẢ VẬN HÀNH LƯỚI ĐIỆN PHÂN PHỐI TÂY NAM ...ĐỀ XUẤT CÁC GIẢI PHÁP NÂNG CAO HIỆU QUẢ VẬN HÀNH LƯỚI ĐIỆN PHÂN PHỐI TÂY NAM ...
ĐỀ XUẤT CÁC GIẢI PHÁP NÂNG CAO HIỆU QUẢ VẬN HÀNH LƯỚI ĐIỆN PHÂN PHỐI TÂY NAM ...
NuioKila
 

More from NuioKila (20)

Pháp luật về Quỹ trợ giúp pháp lý ở Việt Nam.pdf
Pháp luật về Quỹ trợ giúp pháp lý ở Việt Nam.pdfPháp luật về Quỹ trợ giúp pháp lý ở Việt Nam.pdf
Pháp luật về Quỹ trợ giúp pháp lý ở Việt Nam.pdf
 
BÁO CÁO Kết quả tham vấn cộng đồng về tính hợp pháp của gỗ và các sản phẩm gỗ...
BÁO CÁO Kết quả tham vấn cộng đồng về tính hợp pháp của gỗ và các sản phẩm gỗ...BÁO CÁO Kết quả tham vấn cộng đồng về tính hợp pháp của gỗ và các sản phẩm gỗ...
BÁO CÁO Kết quả tham vấn cộng đồng về tính hợp pháp của gỗ và các sản phẩm gỗ...
 
A study on common mistakes committed by Vietnamese learners in pronouncing En...
A study on common mistakes committed by Vietnamese learners in pronouncing En...A study on common mistakes committed by Vietnamese learners in pronouncing En...
A study on common mistakes committed by Vietnamese learners in pronouncing En...
 
[123doc] - thu-nghiem-cai-tien-chi-tieu-du-bao-khong-khi-lanh-cac-thang-cuoi-...
[123doc] - thu-nghiem-cai-tien-chi-tieu-du-bao-khong-khi-lanh-cac-thang-cuoi-...[123doc] - thu-nghiem-cai-tien-chi-tieu-du-bao-khong-khi-lanh-cac-thang-cuoi-...
[123doc] - thu-nghiem-cai-tien-chi-tieu-du-bao-khong-khi-lanh-cac-thang-cuoi-...
 
THỬ NGHIỆM CẢI TIẾN CHỈ TIÊU DỰ BÁO KHÔNG KHÍ LẠNH CÁC THÁNG CUỐI MÙA ĐÔNG BẰ...
THỬ NGHIỆM CẢI TIẾN CHỈ TIÊU DỰ BÁO KHÔNG KHÍ LẠNH CÁC THÁNG CUỐI MÙA ĐÔNG BẰ...THỬ NGHIỆM CẢI TIẾN CHỈ TIÊU DỰ BÁO KHÔNG KHÍ LẠNH CÁC THÁNG CUỐI MÙA ĐÔNG BẰ...
THỬ NGHIỆM CẢI TIẾN CHỈ TIÊU DỰ BÁO KHÔNG KHÍ LẠNH CÁC THÁNG CUỐI MÙA ĐÔNG BẰ...
 
Nhu cầu lập pháp của hành pháp.pdf
Nhu cầu lập pháp của hành pháp.pdfNhu cầu lập pháp của hành pháp.pdf
Nhu cầu lập pháp của hành pháp.pdf
 
KẾ HOẠCH DẠY HỌC CỦA TỔ CHUYÊN MÔN MÔN HỌC SINH HỌC - CÔNG NGHỆ.pdf
KẾ HOẠCH DẠY HỌC CỦA TỔ CHUYÊN MÔN MÔN HỌC SINH HỌC - CÔNG NGHỆ.pdfKẾ HOẠCH DẠY HỌC CỦA TỔ CHUYÊN MÔN MÔN HỌC SINH HỌC - CÔNG NGHỆ.pdf
KẾ HOẠCH DẠY HỌC CỦA TỔ CHUYÊN MÔN MÔN HỌC SINH HỌC - CÔNG NGHỆ.pdf
 
KIẾN TRÚC BIỂU HIỆN TẠI VIỆT NAM.pdf
KIẾN TRÚC BIỂU HIỆN TẠI VIỆT NAM.pdfKIẾN TRÚC BIỂU HIỆN TẠI VIỆT NAM.pdf
KIẾN TRÚC BIỂU HIỆN TẠI VIỆT NAM.pdf
 
QUY HOẠCH PHÁT TRIỂN HỆ THỐNG Y TẾ TỈNH NINH THUẬN.pdf
QUY HOẠCH PHÁT TRIỂN HỆ THỐNG Y TẾ TỈNH NINH THUẬN.pdfQUY HOẠCH PHÁT TRIỂN HỆ THỐNG Y TẾ TỈNH NINH THUẬN.pdf
QUY HOẠCH PHÁT TRIỂN HỆ THỐNG Y TẾ TỈNH NINH THUẬN.pdf
 
NGHIÊN CỨU XÂY DỰNG BỘ TIÊU CHÍ ĐÁNH GIÁ CHẤT LƯỢNG CÁC CHƯƠNG TRÌNH ĐÀO TẠO ...
NGHIÊN CỨU XÂY DỰNG BỘ TIÊU CHÍ ĐÁNH GIÁ CHẤT LƯỢNG CÁC CHƯƠNG TRÌNH ĐÀO TẠO ...NGHIÊN CỨU XÂY DỰNG BỘ TIÊU CHÍ ĐÁNH GIÁ CHẤT LƯỢNG CÁC CHƯƠNG TRÌNH ĐÀO TẠO ...
NGHIÊN CỨU XÂY DỰNG BỘ TIÊU CHÍ ĐÁNH GIÁ CHẤT LƯỢNG CÁC CHƯƠNG TRÌNH ĐÀO TẠO ...
 
TIỂU LUẬN Phân tích các loại nguồn của luật tư La Mã và so sánh với các nguồn...
TIỂU LUẬN Phân tích các loại nguồn của luật tư La Mã và so sánh với các nguồn...TIỂU LUẬN Phân tích các loại nguồn của luật tư La Mã và so sánh với các nguồn...
TIỂU LUẬN Phân tích các loại nguồn của luật tư La Mã và so sánh với các nguồn...
 
Nuevo enfoque de aprendizajesemi-supervisado para la identificaciónde secuenci...
Nuevo enfoque de aprendizajesemi-supervisado para la identificaciónde secuenci...Nuevo enfoque de aprendizajesemi-supervisado para la identificaciónde secuenci...
Nuevo enfoque de aprendizajesemi-supervisado para la identificaciónde secuenci...
 
Inefficiency in engineering change management in kimberly clark VietNam co., ...
Inefficiency in engineering change management in kimberly clark VietNam co., ...Inefficiency in engineering change management in kimberly clark VietNam co., ...
Inefficiency in engineering change management in kimberly clark VietNam co., ...
 
An Investigation into culrural elements via linguistic means in New Headway t...
An Investigation into culrural elements via linguistic means in New Headway t...An Investigation into culrural elements via linguistic means in New Headway t...
An Investigation into culrural elements via linguistic means in New Headway t...
 
An evaluation of the translation of the film Rio based on Newmarks model.pdf
An evaluation of the translation of the film Rio based on Newmarks model.pdfAn evaluation of the translation of the film Rio based on Newmarks model.pdf
An evaluation of the translation of the film Rio based on Newmarks model.pdf
 
Teachers and students views on grammar presentation in the course book Englis...
Teachers and students views on grammar presentation in the course book Englis...Teachers and students views on grammar presentation in the course book Englis...
Teachers and students views on grammar presentation in the course book Englis...
 
11th graders attitudes towards their teachers written feedback.pdf
11th graders attitudes towards their teachers written feedback.pdf11th graders attitudes towards their teachers written feedback.pdf
11th graders attitudes towards their teachers written feedback.pdf
 
Phân tích tài chính Công ty Cổ phần VIWACO.pdf
Phân tích tài chính Công ty Cổ phần VIWACO.pdfPhân tích tài chính Công ty Cổ phần VIWACO.pdf
Phân tích tài chính Công ty Cổ phần VIWACO.pdf
 
Ngói Champa ở di tích Triền Tranh (Duy Xuyên Quảng Nam).pdf
Ngói Champa ở di tích Triền Tranh (Duy Xuyên Quảng Nam).pdfNgói Champa ở di tích Triền Tranh (Duy Xuyên Quảng Nam).pdf
Ngói Champa ở di tích Triền Tranh (Duy Xuyên Quảng Nam).pdf
 
ĐỀ XUẤT CÁC GIẢI PHÁP NÂNG CAO HIỆU QUẢ VẬN HÀNH LƯỚI ĐIỆN PHÂN PHỐI TÂY NAM ...
ĐỀ XUẤT CÁC GIẢI PHÁP NÂNG CAO HIỆU QUẢ VẬN HÀNH LƯỚI ĐIỆN PHÂN PHỐI TÂY NAM ...ĐỀ XUẤT CÁC GIẢI PHÁP NÂNG CAO HIỆU QUẢ VẬN HÀNH LƯỚI ĐIỆN PHÂN PHỐI TÂY NAM ...
ĐỀ XUẤT CÁC GIẢI PHÁP NÂNG CAO HIỆU QUẢ VẬN HÀNH LƯỚI ĐIỆN PHÂN PHỐI TÂY NAM ...
 

Recently uploaded

Chương 3 Linh kien ban dan và KD dien tu - Copy.ppt
Chương 3 Linh kien ban dan và KD dien tu - Copy.pptChương 3 Linh kien ban dan và KD dien tu - Copy.ppt
Chương 3 Linh kien ban dan và KD dien tu - Copy.ppt
PhiTrnHngRui
 
LỊCH SỬ 12 - CHUYÊN ĐỀ 10 - TRẮC NGHIỆM.pptx
LỊCH SỬ 12 - CHUYÊN ĐỀ 10 - TRẮC NGHIỆM.pptxLỊCH SỬ 12 - CHUYÊN ĐỀ 10 - TRẮC NGHIỆM.pptx
LỊCH SỬ 12 - CHUYÊN ĐỀ 10 - TRẮC NGHIỆM.pptx
12D241NguynPhmMaiTra
 
CHUYÊN ĐỀ BỒI DƯỠNG HỌC SINH GIỎI KHOA HỌC TỰ NHIÊN 9 CHƯƠNG TRÌNH MỚI - PHẦN...
CHUYÊN ĐỀ BỒI DƯỠNG HỌC SINH GIỎI KHOA HỌC TỰ NHIÊN 9 CHƯƠNG TRÌNH MỚI - PHẦN...CHUYÊN ĐỀ BỒI DƯỠNG HỌC SINH GIỎI KHOA HỌC TỰ NHIÊN 9 CHƯƠNG TRÌNH MỚI - PHẦN...
CHUYÊN ĐỀ BỒI DƯỠNG HỌC SINH GIỎI KHOA HỌC TỰ NHIÊN 9 CHƯƠNG TRÌNH MỚI - PHẦN...
Nguyen Thanh Tu Collection
 
Chuong 2 Ngu am hoc - Dẫn luận ngôn ngữ - FTU
Chuong 2 Ngu am hoc - Dẫn luận ngôn ngữ - FTUChuong 2 Ngu am hoc - Dẫn luận ngôn ngữ - FTU
Chuong 2 Ngu am hoc - Dẫn luận ngôn ngữ - FTU
nvlinhchi1612
 
100 DẪN CHỨNG NGHỊ LUẬN XÃ HỘiI HAY.docx
100 DẪN CHỨNG NGHỊ LUẬN XÃ HỘiI HAY.docx100 DẪN CHỨNG NGHỊ LUẬN XÃ HỘiI HAY.docx
100 DẪN CHỨNG NGHỊ LUẬN XÃ HỘiI HAY.docx
khanhthy3000
 
Chương III (Nội dung vẽ sơ đồ tư duy chương 3)
Chương III (Nội dung vẽ sơ đồ tư duy chương 3)Chương III (Nội dung vẽ sơ đồ tư duy chương 3)
Chương III (Nội dung vẽ sơ đồ tư duy chương 3)
duykhoacao
 
Quan Tri Doi Moi Sang Tao_ Innovation Management
Quan Tri Doi Moi Sang Tao_ Innovation ManagementQuan Tri Doi Moi Sang Tao_ Innovation Management
Quan Tri Doi Moi Sang Tao_ Innovation Management
ChuPhan32
 
Ảnh hưởng của nhân sinh quan Phật giáo đến đời sống tinh thần Việt Nam hiện nay
Ảnh hưởng của nhân sinh quan Phật giáo đến đời sống tinh thần Việt Nam hiện nayẢnh hưởng của nhân sinh quan Phật giáo đến đời sống tinh thần Việt Nam hiện nay
Ảnh hưởng của nhân sinh quan Phật giáo đến đời sống tinh thần Việt Nam hiện nay
chinhkt50
 
Sinh-12-Chuyên-2022-2023.dành cho ôn thi hsg
Sinh-12-Chuyên-2022-2023.dành cho ôn thi hsgSinh-12-Chuyên-2022-2023.dành cho ôn thi hsg
Sinh-12-Chuyên-2022-2023.dành cho ôn thi hsg
vivan030207
 
Dẫn luận ngôn ngữ - Tu vung ngu nghia.pptx
Dẫn luận ngôn ngữ - Tu vung ngu nghia.pptxDẫn luận ngôn ngữ - Tu vung ngu nghia.pptx
Dẫn luận ngôn ngữ - Tu vung ngu nghia.pptx
nvlinhchi1612
 
Ngân hàng điện tử số ptit - giảng viên cô Hà
Ngân hàng điện tử số ptit - giảng viên cô HàNgân hàng điện tử số ptit - giảng viên cô Hà
Ngân hàng điện tử số ptit - giảng viên cô Hà
onLongV
 
insulin cho benh nhan nam vien co tang duong huyet
insulin cho benh nhan nam vien co tang duong huyetinsulin cho benh nhan nam vien co tang duong huyet
insulin cho benh nhan nam vien co tang duong huyet
lmhong80
 
ÔN-TẬP-CHƯƠNG1 Lịch sử đảng Việt Nam chủ đề 2
ÔN-TẬP-CHƯƠNG1 Lịch sử đảng Việt Nam chủ đề 2ÔN-TẬP-CHƯƠNG1 Lịch sử đảng Việt Nam chủ đề 2
ÔN-TẬP-CHƯƠNG1 Lịch sử đảng Việt Nam chủ đề 2
nhanviet247
 
BÀI TẬP BỔ TRỢ TIẾNG ANH I-LEARN SMART WORLD 9 CẢ NĂM CÓ TEST THEO UNIT NĂM H...
BÀI TẬP BỔ TRỢ TIẾNG ANH I-LEARN SMART WORLD 9 CẢ NĂM CÓ TEST THEO UNIT NĂM H...BÀI TẬP BỔ TRỢ TIẾNG ANH I-LEARN SMART WORLD 9 CẢ NĂM CÓ TEST THEO UNIT NĂM H...
BÀI TẬP BỔ TRỢ TIẾNG ANH I-LEARN SMART WORLD 9 CẢ NĂM CÓ TEST THEO UNIT NĂM H...
Nguyen Thanh Tu Collection
 

Recently uploaded (14)

Chương 3 Linh kien ban dan và KD dien tu - Copy.ppt
Chương 3 Linh kien ban dan và KD dien tu - Copy.pptChương 3 Linh kien ban dan và KD dien tu - Copy.ppt
Chương 3 Linh kien ban dan và KD dien tu - Copy.ppt
 
LỊCH SỬ 12 - CHUYÊN ĐỀ 10 - TRẮC NGHIỆM.pptx
LỊCH SỬ 12 - CHUYÊN ĐỀ 10 - TRẮC NGHIỆM.pptxLỊCH SỬ 12 - CHUYÊN ĐỀ 10 - TRẮC NGHIỆM.pptx
LỊCH SỬ 12 - CHUYÊN ĐỀ 10 - TRẮC NGHIỆM.pptx
 
CHUYÊN ĐỀ BỒI DƯỠNG HỌC SINH GIỎI KHOA HỌC TỰ NHIÊN 9 CHƯƠNG TRÌNH MỚI - PHẦN...
CHUYÊN ĐỀ BỒI DƯỠNG HỌC SINH GIỎI KHOA HỌC TỰ NHIÊN 9 CHƯƠNG TRÌNH MỚI - PHẦN...CHUYÊN ĐỀ BỒI DƯỠNG HỌC SINH GIỎI KHOA HỌC TỰ NHIÊN 9 CHƯƠNG TRÌNH MỚI - PHẦN...
CHUYÊN ĐỀ BỒI DƯỠNG HỌC SINH GIỎI KHOA HỌC TỰ NHIÊN 9 CHƯƠNG TRÌNH MỚI - PHẦN...
 
Chuong 2 Ngu am hoc - Dẫn luận ngôn ngữ - FTU
Chuong 2 Ngu am hoc - Dẫn luận ngôn ngữ - FTUChuong 2 Ngu am hoc - Dẫn luận ngôn ngữ - FTU
Chuong 2 Ngu am hoc - Dẫn luận ngôn ngữ - FTU
 
100 DẪN CHỨNG NGHỊ LUẬN XÃ HỘiI HAY.docx
100 DẪN CHỨNG NGHỊ LUẬN XÃ HỘiI HAY.docx100 DẪN CHỨNG NGHỊ LUẬN XÃ HỘiI HAY.docx
100 DẪN CHỨNG NGHỊ LUẬN XÃ HỘiI HAY.docx
 
Chương III (Nội dung vẽ sơ đồ tư duy chương 3)
Chương III (Nội dung vẽ sơ đồ tư duy chương 3)Chương III (Nội dung vẽ sơ đồ tư duy chương 3)
Chương III (Nội dung vẽ sơ đồ tư duy chương 3)
 
Quan Tri Doi Moi Sang Tao_ Innovation Management
Quan Tri Doi Moi Sang Tao_ Innovation ManagementQuan Tri Doi Moi Sang Tao_ Innovation Management
Quan Tri Doi Moi Sang Tao_ Innovation Management
 
Ảnh hưởng của nhân sinh quan Phật giáo đến đời sống tinh thần Việt Nam hiện nay
Ảnh hưởng của nhân sinh quan Phật giáo đến đời sống tinh thần Việt Nam hiện nayẢnh hưởng của nhân sinh quan Phật giáo đến đời sống tinh thần Việt Nam hiện nay
Ảnh hưởng của nhân sinh quan Phật giáo đến đời sống tinh thần Việt Nam hiện nay
 
Sinh-12-Chuyên-2022-2023.dành cho ôn thi hsg
Sinh-12-Chuyên-2022-2023.dành cho ôn thi hsgSinh-12-Chuyên-2022-2023.dành cho ôn thi hsg
Sinh-12-Chuyên-2022-2023.dành cho ôn thi hsg
 
Dẫn luận ngôn ngữ - Tu vung ngu nghia.pptx
Dẫn luận ngôn ngữ - Tu vung ngu nghia.pptxDẫn luận ngôn ngữ - Tu vung ngu nghia.pptx
Dẫn luận ngôn ngữ - Tu vung ngu nghia.pptx
 
Ngân hàng điện tử số ptit - giảng viên cô Hà
Ngân hàng điện tử số ptit - giảng viên cô HàNgân hàng điện tử số ptit - giảng viên cô Hà
Ngân hàng điện tử số ptit - giảng viên cô Hà
 
insulin cho benh nhan nam vien co tang duong huyet
insulin cho benh nhan nam vien co tang duong huyetinsulin cho benh nhan nam vien co tang duong huyet
insulin cho benh nhan nam vien co tang duong huyet
 
ÔN-TẬP-CHƯƠNG1 Lịch sử đảng Việt Nam chủ đề 2
ÔN-TẬP-CHƯƠNG1 Lịch sử đảng Việt Nam chủ đề 2ÔN-TẬP-CHƯƠNG1 Lịch sử đảng Việt Nam chủ đề 2
ÔN-TẬP-CHƯƠNG1 Lịch sử đảng Việt Nam chủ đề 2
 
BÀI TẬP BỔ TRỢ TIẾNG ANH I-LEARN SMART WORLD 9 CẢ NĂM CÓ TEST THEO UNIT NĂM H...
BÀI TẬP BỔ TRỢ TIẾNG ANH I-LEARN SMART WORLD 9 CẢ NĂM CÓ TEST THEO UNIT NĂM H...BÀI TẬP BỔ TRỢ TIẾNG ANH I-LEARN SMART WORLD 9 CẢ NĂM CÓ TEST THEO UNIT NĂM H...
BÀI TẬP BỔ TRỢ TIẾNG ANH I-LEARN SMART WORLD 9 CẢ NĂM CÓ TEST THEO UNIT NĂM H...
 

Ứng dụng tập thô vào tìm kiếm Web.pdf

  • 1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Ngọc Hà ỨNG DỤNG TẬP THÔ VÀO TÌM KIẾM WEB LUẬN VĂN THẠC SĨ Hà Nội 2010
  • 2. Mục lục MỞ ĐẦU........................................................................................................... 6 Danh sách bảng biểu.......................................................................................... 4 Danh sách hình vẽ.............................................................................................. 5 Chương 1: GIỚI THIỆU TỔNG QUAN ........................................................... 9 1.1. Lý do chọn đề tài.....................................................................................9 1.2. Phạm vi công việc .................................................................................10 1.3. Cấu trúc luận văn...................................................................................10 Chương 2: MÁY TÌM KIẾM WEB .................................................................12 2.1. Khái niệm..............................................................................................12 2.2. Cấu trúc máy tìm kiếm web...................................................................13 2.3. Biểu diễn kết quả tìm kiếm ....................................................................15 2.4. Đánh giá chất lượng tìm kiếm................................................................17 Chương 3: PHÂN CỤM TÀI LIỆU VÀ VẤN ĐỀ TÁCH TỪ TIẾNG VIỆT...19 3.1. Phân cụm...............................................................................................19 3.1.1.Khái niệm .............................................................................................19 3.1.2.Ứng dụng của phân cụm tài liệu trong thu thập và tổ chức thông tin .....20 3.2. Mô hình không gian vector và trình bày văn bản ...................................21 3.2.1.Các kỹ thuật tiền xử lý tài liệu...............................................................22 3.2.2.Bảng trọng số.......................................................................................23 3.2.3.Độ đo tương tự......................................................................................26 3.2.4.Biểu diễn cụm.......................................................................................27 3.3. Các giải thuật phân cụm ........................................................................27 3.3.1.Phương pháp phân cụm phân cấp..........................................................28 3.3.2.Phương pháp phân cụm phân hoạch ......................................................29 3.3.3.Thuật toán phân cụm bán giám sát Seeded - KMeans............................30
  • 3. 3.3.4.Tiêu chuẩn sự tối ưu ........................................................................32 3.3.5.Gán cứng và gán mềm...........................................................................33 3.4. Các bước thực hiện phân cụm................................................................34 3.5. Đánh giá kết quả phân cụm....................................................................34 3.6. Phân cụm kết quả tìm kiếm web.....................................................34 3.7. Các phương pháp tách từ tiếng Việt.......................................................35 3.7.1.Đặc điểm từ trong tiếng Việt.................................................................35 3.7.2.Phương pháp so khớp cực đại ...............................................................36 3.7.3.Phương pháp học cải biến .....................................................................37 3.7.4.Mô hình tách từ bằng WFST và mạng Neural .......................................37 3.7.5.Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền.................................................................................................38 Chương 4: LÝ THUYẾT TẬP THÔ.............................................................39 4.1. Giới thiệu ..............................................................................................39 4.2. Hệ thông tin...........................................................................................40 4.3. Quan hệ bất khả phân biệt......................................................................42 4.3.1.Quan hệ tương đương - Lớp tương đương.............................................43 4.4. Xấp xỉ tập hợp .......................................................................................44 4.5. Hàm thuộc thô .......................................................................................50 4.6. Mô hình tập thô dung sai .......................................................................52 4.6.1.Không gian dung sai các từ chỉ mục......................................................53 4.6.2.Nâng cao chất lượng biểu diễn tài liệu ..................................................55 4.6.3.Mở rộng lược đồ trọng số cho xấp xỉ trên..............................................55 Chương 5: ÁP DỤNG LÝ THUYẾT TẬP THÔ VÀO PHÂN CỤM KẾT QUẢ TÌM KIẾM WEB..............................................................................................57 5.1. Vấn đề phân cụm kết quả tìm kiếm web ................................................57 5.2. Các thuật toán phân cụm tài liệu dựa trên TRSM..................................58 5.2.1.Biểu diễn cụm ....................................................................................58
  • 4. 5.2.2.Thuật toán phân cụm không phân cấp dựa trên TRSM ...............60 5.2.3.Thuật toán phân cụm phân cấp dựa trên TRSM ..............................62 5.3. Thuật toán TRC..................................................................................62 5.3.1.Tiền xử lý............................................................................................63 5.3.2.Xây dựng ma trận từ - tài liệu................................................................63 5.3.3.Tạo lớp dung sai....................................................................................64 5.3.4.Thuật toán phân cụm Seeded - KMeans cải tiến....................................68 Chương 6: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM....................................71 6.1. Xác định yêu cầu ...................................................................................71 6.2. Các thành phần của ứng dụng thử nghiệm .............................................71 6.3. Xây dựng các thành phần chức năng......................................................72 6.3.1.Trình thu thập nội dung web .................................................................72 6.3.2.Bộ tách từ tiếng Việt .............................................................................75 6.3.3.Bộ xử lý truy vấn ..................................................................................76 6.3.4.Biểu diễn kết quả tìm kiếm web ............................................................76 6.4. Triển khai ứng dụng thử nghiệm............................................................77 KẾT LUẬN ......................................................................................................84 Tài liệu tham khảo ............................................................................................86
  • 5. Danh sách bảng biểu Bảng 3-1. Ví dụ bảng trọng số nhị phân của các tài liệu....................................24 Bảng 3-2. Ví dụ bảng trọng số của các tài liệu. .................................................24 Bảng 3-3. Ví dụ trọng số cho các tài liệu trong bảng 3-2. Trọng số của vector tài liệu được chuẩn hóa bằng độ dài của nó............................................25 Bảng 3-4. Một số phép đo độ tương tự giữa hai vectơ tài liệu X, Y. Trong đó, xi, yi là trọng số thành phần thứ i của vectơ ...............................................26 Bảng 3-5. So sánh các đặc điểm khác nhau giữa tiếng Anh và tiếng Việt..........36 Bảng 4-1. Một hệ thông tin đơn giản.................................................................41 Bảng 4-2. Một bảng quyết định đơn giản ..........................................................42 Bảng 4-3. Bảng quyết định dùng minh hoạ hàm thuộc thô................................52 Bảng 4-4. Các lớp dung sai quan trọng của các từ được sinh ra từ 200 snippets trả về từ máy tìm kiếm Google với từ khóa “jaguar” và ngưỡng đồng xuất hiện  = 9..........................................................................................55
  • 6. Danh sách hình vẽ Hình 2-1. Giao diện biểu diễn kết quả tìm kiếm Web của Google.....................12 Hình2-2. Cấu trúc bên trong của của máy tìm kiếm Web..................................13 Hình 2-3. Cấu trúc dữ liệu inverted index .........................................................14 Hình 3-1. Mô tả phân cụm ................................................................................20 Hình 3-2. Tiến trình phân cụm tài liệu ..............................................................20 Hình 3-3. So sánh giữa phân cụm tài liệu và phân cụm kết quả tìm kiếm web. .35 Hình 4- 1. Hình ảnh minh họa các khái niệm của tập thô ..................................40 Hình 4-2. Xấp xỉ tập đối tượng trong Bảng 4-2 bằng các thuộc tính điều kiện Age và LEMS. Mỗi vùng được thể hiện kèm theo tập các lớp tương đương tương ứng..........................................................................................46 Hình 5-1. Các bước của thật toán TRC. ............................................................62 Hình 5-2. Sơ đồ các bước thuật toán tạo lớp dung sai .......................................65 Hình 6-1. Qui trình thu thập nội dung web........................................................73 Hình 6-2. Nhận dạng tiêu đề bài viết bằng addon Firebug trên trình duyệt Firefox. ..........................................................................................................74 Hình 6-3. Giao diện quản trị các mẫu nhận dạng...............................................75 Hình 6-4. Website http://doctinnhanh.net..........................................................78 Hình 6-5. Giao diện biểu diễn kết quả tìm kiếm chia theo chủ đề......................81 Hình 6-6. Website Bách khoa toàn thư văn hóa Việt.........................................83
  • 7. MỞ ĐẦU Những năm gần đây trên thế giới nói chung và ở Việt Nam nói riêng, đi cùng với sự phát triển của công nghệ web 2.0, các hệ thống wiki và các mạng xã hội đang có những sự phát triển nhảy vọt cả về số lượng và chất lượng. Có thể nói chưa có bao giờ việc đưa thông tin lên mạng lại dễ dàng như giai đoạn hiện nay. Bất cứ cá nhân nào tham gia vào cộng đồng mạng cũng có thể đóng góp những bài viết vào kho thông tin khổng lồ của nhân loại. Chính vì sự phát triển đó mà hầu như bất cứ vấn đề gì mà ta quan tâm đều có thể sử dụng các bộ máy tìm kiếm để tìm kiếm trên Internet. Tuy nhiên việc khai thác các thông tin cần thiết trong một kho dữ liệu khổng lồ sao cho tiện lợi và chuẩn xác cũng là một vấn đề cần phải giải quyết. Hiện nay khai thác và tìm kiếm thông tin trên Internet là vấn đề được rất nhiều nhà nghiên cứu quan tâm. Trong khi khối lượng thông tin trên Web khổng lồ, mà câu hỏi truy vấn của người sử dụng thường ít chính xác, nên số kết quả trả về từ các máy tìm kiếm có thể lên đến hàng trăm hay hàng ngàn tài liệu. Do đó, tìm được chính xác tài liệu mình quan tâm là khó và tốn nhiều thời gian. Thực nghiệm cho thấy, nếu nội dung được chia thành các nhóm chủ đề sẽ giúp người dùng nhanh chóng tìm được kết quả mình cần. Vì vậy, một trong những cách tiếp cận để giải quyết vấn đề khai thác hiệu quả các kết quả từ các máy tìm kiếm thông tin là sử dụng kĩ thuật phân cụm kết quả tìm kiếm theo chủ đề tạo nên cách biểu diễn kết quả tìm kiếm Web cô đọng và rõ ràng. Đây là một vấn đề nhận được sự quan tâm của rất nhiều tác giả, họ đã đề ra nhiều cách tiếp cận khác nhau để giải quyết bài toán này. Trong đề tài này chúng tôi sẽ áp dụng lý thuyết tập thô vào phân cụm kết quả tìm kiếm Web tiếng Việt. Cách tiếp cận của chúng tôi là sử dụng mô hình tập thô dung sai để tăng chất lượng việc biểu diễn các tài liệu và các cụm từ đó làm tăng hiệu quả việc phân cụm; đồng thời chúng tôi sử dụng phương pháp phân cụm bán giám sát Seeded - KMeans để phân cụm và xác định chủ đề tài liệu. Mục tiêu của đề tài là xây dựng thử nghiệm một công cụ tìm kiếm web tiếng Việt có khả năng phân cụm các tài liệu vào các chủ đề khác nhau giúp người dùng có thể nhanh chóng tìm được kết quả mình cần nhờ cách biểu diễn kết quả tìm
  • 8. kiếm rõ ràng và cô đọng. Với mục tiêu đó, sau quá trình làm việc, chúng tôi đã xây dựng được một công cụ tìm kiếm web tiếng Việt gồm các thành phần chính sau:  Trình thu thập web tiếng Việt, trình thu thập này có đặc điểm nổi bật là có khả năng phân tích cấu trúc các trang web này thành các phần như tiêu đề, tóm tắt bài viết, nội dung bài viết,… nhờ các mẫu nhận dạng cấu trúc do người dùng đưa vào.  Thành phần thứ 2 được sử dụng để phân tích các trang web thành các từ tiếng Việt và biểu diễn các tài liệu thu thập được dưới dạng vector tài liệu trong không gian vector.  Thành phần thứ 3 là thành phần xử lý các truy vấn của người dùng và trả về các kết quả tìm kiếm thỏa mãn truy vấn của người dùng.  Thành phần thứ 4 là biểu diễn kết quả tìm kiếm web, mục tiêu xây dựng thành phần này là thể hiện được kết quả tìm kiếm web một cách rõ ràng và cô đọng bằng cách gán chúng vào các chủ đề tạo thuận lợi cho người sử dụng trong việc tìm kiếm thông tin. Vì vậy chúng tôi áp dụng mô hình tập thô dung sai và thuật toán phân cụm bán giám sát Seeded – Kmeans để phân cụm các kết quả tìm kiếm web. Các kết quả tìm kiếm sẽ được phân thành các chủ đề khác nhau có nhãn được định sẵn dựa trên các mẫu tài liệu đã được gán nhãn. Mặc dù bản thân đã nỗ lực cố gắng, cùng sự giúp đỡ của các đồng nghiệp và đặc biệt là sự hướng dẫn chỉ bảo tận tình của PGS. TS Hoàng Xuân Huấn, nhưng vì thời gian có hạn nên đề tài không tránh khỏi những thiếu sót, rất mong nhận được sự đóng góp ý kiến của các chuyên gia, bạn bè và đồng nghiệp. Qua đây, tôi xin gửi lời cảm ơn sâu sắc nhất tới PGS. TS Hoàng Xuân Huấn, đã tận tình hướng dẫn cho tôi những định hướng và những ý kiến rất quý báu trong suốt quá trình thực hiện luận văn này. Tôi xin chân thành cảm ơn các thầy, cô giáo trong Bộ môn Truyền dữ liệu và Mạng máy tính, Khoa Công nghệ thông tin, trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã tạo mọi điều kiện tốt nhất để tôi hoàn thành khóa học này.
  • 9. Đồng thời, tôi cũng xin cảm ơn gia đình, bạn bè, những người luôn khuyến khích và giúp đỡ tôi trong mọi hoàn cảnh khó khăn. Tôi xin cảm ơn cơ quan và các đồng nghiệp đã hết sức tạo điều kiện cho tôi trong suốt quá trình học tập và làm luận văn này.
  • 10. Chương 1: GIỚI THIỆU TỔNG QUAN 1.1. Lý do chọn đề tài Sự phát triển không ngừng của Word Wide Web (WWW) trong giai đoạn hiện nay đã mang lại cho loài người một nguồn thông tin khổng lồ. Hầu như các thông tin về mọi lĩnh vực của cuộc sống đều có thể tìm thấy trên Web. Cùng với sự bùng nổ thông tin đó, các công cụ tìm kiếm web cũng không ngừng phát triển để phục vụ cho nhu cầu tìm kiếm thông tin của con người. Hiện nay có rất nhiều công cụ tìm kiếm web mạnh giúp chúng ta tìm kiếm thông tin nhanh chóng như Google, Yahoo, Answer, Altavista, … Đặc điểm của các công cụ tìm kiếm này là thực hiện việc tìm kiếm dựa trên phương pháp xếp hạng tài liệu (Document Ranking) và biểu diễn kết quả tìm kiếm theo thứ tự hạng xuất hiện. Với sự bùng nổ thông tin như hiện nay, mặc dù các công cụ tìm kiếm có nhiều cải tiến nhưng cách tiếp cận này có một số hạn chế như dưới đây: Do sự bùng nổ của thông tin trên WWW, và tính chất động của các trang web nên máy tìm kiếm không thể thực hiện tính hạng được cho tất cả các tài liệu mà chỉ có thể tính hạng cho một phần các tài liệu. Khi có ý định tìm thông tin trên WWW, trong suy nghĩ của người dùng hình thành khái niệm về cái họ cần tìm, khái niệm này được chuyển thành một tập các từ khóa và được sử dụng để đặt câu hỏi truy vấn. Tuy nhiên do kinh nghiệm sử dụng hạn chế, các từ khóa người dùng nhập thường ngắn và cho các kết quả tìm kiếm là chung chung, có thể lên đến hàng trăm hoặc hàng ngàn kết quả. Trong khi đó người sử dụng lại chỉ có thói quen xem kết quả trên trang đầu tiên và ít người duyệt đến các trang sau, do đó bỏ qua một số kết quả tìm kiếm cần thiết nhất. Với các lý do trên ta thấy phát triển giao diện tương tác thông minh giữa người và máy, hỗ trợ người sử dụng trong việc tìm kiếm thông tin là việc làm cần thiết. Đây là một trong những vấn đề được nhiều nhà nghiên cứu quan tâm. Mặc
  • 11. dù đã có một số nghiên cứu thành công trong lĩnh vực này, nhưng đa phần chúng chỉ xử lý tốt trên tiếng Anh, nên trong luận văn này, chúng tôi mạnh dạn áp dụng tập thô vào việc xây dựng thử nghiệm một công cụ tìm kiếm web cho phép người dùng tìm kiếm theo chủ đề và giải quyết tốt các đặc thù của tiếng Việt. 1.2. Phạm vi công việc Để đạt được mục đích đã đề ra, chúng tôi sẽ phải thực hiện những công việc sau: Tìm hiểu các thành phần và việc xây dựng một hệ thống Search Engine. Áp dụng vào xây dựng một hệ thống tìm kiếm thông tin tiếng Việt. Tìm hiểu các thuật toán phân cụm tài liệu để áp dụng vào việc phân cụm các kết quả tìm kiếm web. Tìm hiểu các đặc điểm của tiếng Việt và các phương pháp tách từ tiếng Việt, áp dụng các thuật phương pháp trên để phân tích các trang web tiếng Việt thành các từ phục vụ cho việc mô hình hóa tài liệu và biểu diễn các đặc trưng của cụm. Nghiên cứu lý thuyết tập thô đặc biệt là mô hình tập thô dung sai, từ đó áp dụng mô hình tập thô dung sai để cải tiến thuật toán Seeded - KMeans sử dụng cho việc phân cụm kết quả tìm kiếm web nhằm tối ưu hóa kết quả trả về của quá trình tìm kiếm web. 1.3. Cấu trúc luận văn Với phạm vi công việc cần thực hiện như trên, cấu trúc của đề tài được tổ chức như sau: Chương 1: Giới thiệu tổng quan. Chương 2: Trình bày kiến thức tổng quan về máy tìm kiếm Web. Chương 3: Trình bày các kiến thức về phân cụm tài liệu và vấn đề tách từ Tiếng Việt. Chương 4: Trình bày tổng quan về lý thuyết tập thô và mô hình tập thô dung sai.
  • 12. Chương 5: Trình bày cách áp dụng lý thuyết tập thô vào việc phân cụm kết quả tìm kiếm Web. Chương 6: Trình bày kết quả thử nghiệm của luận văn. Và phần cuối cùng là kết luận của luận văn
  • 13. Chương 2: MÁY TÌM KIẾM WEB 2.1. Khái niệm Máy tìm kiếm Web là một công cụ giúp người sử dụng tìm kiếm thông tin trên mạng một cách nhanh chóng và đầy đủ. Máy tìm kiếm web tương tác với người sử dụng thông qua một giao diện khá đơn giản và thân thiện. Người sử dụng chỉ cần đặt câu hỏi truy vấn về vấn đề quan tâm, máy tìm kiếm web ngay lập tức sẽ trả về tập kết quả tìm kiếm (snippets). Thông thường, mỗi kết quả tìm kiếm bao gồm tựa đề, địa chỉ của tài liệu và miêu tả ngắn gọn nội dung chính tài liệu. Ngoài ra một số máy tìm kiếm web còn cho phép người dùng xem nội dung của tài liệu được lưu lại trên máy chủ của dịch vụ tìm kiếm. Hình 2-1. Giao diện biểu diễn kết quả tìm kiếm Web của Google Snippet Tên tài liệu Tóm tắt nội dung URL của tài liệu
  • 14. 2.2. Cấu trúc máy tìm kiếm web Cấu trúc của máy tìm kiếm web được thể hiện trong hình 2-2 Hình2- 2. Cấu trúc bên trong của của máy tìm kiếm Web Trình thu thập web (Web Crawler) Web Crawler hay còn được gọi là Web Spider là một trong hai thành phần tương tác trực tiếp với WWW. WWW là một tập hợp các tài liệu được liên kết với nhau bởi các siêu liên kết, web crawler có nhiệm vụ là phát hiện các trang mới trên WWW bằng cách thu thập các siêu liên kết từ các trang tài liệu. Quá trình này được thực hiện đệ qui để thăm dò hầu hết các trang web trên Internet. Trong quá trình này web crawler sẽ phải sử dụng một số kỹ thuật để tránh không bị lấy thông
  • 15. tin trùng lặp. Web crawler vừa thu thập các trang web mới nhưng cũng đồng thời kiểm tra lại những siêu liên kết đã không còn tồn tại trên WWW để loại chúng khỏi các kết quả tìm kiếm. Chỉ mục tài liệu (Document Index) Thành phần lập chỉ mục tài liệu thực hiện chức năng xây dựng bảng chỉ số tài liệu hỗ trợ công việc tìm kiếm. Thông thường, các hệ thống tìm kiếm thông tin thực hiện việc tìm kiếm các tài liệu hoặc dựa trên phương pháp lựa chọn tài liệu có chứa các từ trong câu hỏi truy vấn, hoặc dựa trên phương pháp xếp hạng tài liệu (Document Ranking) liên quan đến câu hỏi truy vấn. Do đó hầu hết các máy tìm kiếm đều sử dụng biến dữ liệu có cấu trúc chỉ mục ngược (inverted index) để hỗ trợ thực hiện công việc này. Inverted index có cấu trúc giống như bảng mục lục ở phần cuối của cuốn sách – tương ứng với mỗi một từ là một danh sách liên kết chứa địa chỉ các trang trong đó nó xuất hiện (hình 2-3). Với kiểu lưu trữ này nó có khả năng giúp máy tìm kiếm xác định đúng các tài liệu liên quan đến câu hỏi truy vấn một cách nhanh chóng. Hình 2-3. Cấu trúc dữ liệu inverted index Lưu trữ tài liệu (Document Cache) Hiện nay có nhiều máy tìm kiếm vừa lưu trữ bảng chỉ số tài liệu như ở phần trên, vừa lưu trữ tài liệu gốc. Ví dụ như trong Google, bảng chỉ số tài liệu gốc được
  • 16. sử dụng để tạo các snippet và phục vụ cho việc lưu trữ các phiên bản của tài liệu. Tính hạng tài liệu (Document Ranking) World Wide Web càng ngày càng phát triển do vậy lượng thông tin ngày càng lớn, số kết quả tìm kiếm với một từ khóa bất kỳ đều rất lớn, ngay cả với những câu hỏi truy vấn hoàn thiện và chính xác, số kết quả tìm kiếm vẫn có thể lên đến hàng ngàn hoặc hàng triệu. Chính vì vậy cần có module tính hạng tài liệu để xác định được tài liệu nào có độ liên quan đến các từ khóa mà người dùng tìm kiếm nhất. Xử lí truy vấn Xử lí truy vấn là thành phần có nhiệm vụ phân tích cú pháp tìm kiếm của người dùng thông qua các toán tử và cú pháp được định nghĩa sẵn, sau đó bộ xử lí truy vấn kết hợp với bảng chỉ số tài liệu, các tài liệu được lưu trữ, và thành phần tính hạng tài liệu để đưa ra tập kết quả tìm kiếm thỏa mãn cú pháp tìm kiếm của người dùng. Kết quả của quá trình này được đưa đến người sử dụng thông qua giao diện biểu diễn kết quả của máy tìm kiếm. Giao diện biểu diễn kết quả Giao diện biểu diễn kết quả tìm kiếm là thành phần quan trọng trong máy tìm kiếm và trực tiếp tương tác với người sử dụng. Do vậy giao diện biểu diễn kết quả tìm kiếm là yếu tố đầu tiên được xem xét khi đánh giá chất lượng của một chương trình tìm kiếm, nó có vai trò vô cùng quan trọng và có ảnh hưởng rất lớn đến toàn bộ chất lượng của máy tìm kiếm. Google được yêu thích và được đa số người dùng sử dụng khi tìm kiếm thông tin là nhờ có một giao diện đơn giản nhưng lại dễ sử dụng. 2.3. Biểu diễn kết quả tìm kiếm Giao diện của máy tìm kiếm đóng vai trò vô cùng quan trọng trong việc tìm kiếm thông tin của người dùng, giao diện tìm kiếm được thiết kế tốt sẽ giúp người
  • 17. dùng nhanh chóng tìm được kết quả tìm kiếm mình mong muốn. Hầu hết các máy tìm kiếm hiện nay đều thực hiện việc tìm kiếm dựa trên phương pháp tính hạng tài liệu và biểu diễn kết quả tìm kiếm theo thứ tự hạng xuất hiện. Tuy nhiên hiện nay WWW đang phát triển với tốc độ rất nhanh, lượng thông tin trên mạng ngày càng lớn vì thế số lượng kết quả tìm kiếm có thể lên đến hàng ngàn tài liệu, nên người sử dụng không đủ thời gian và kiên nhẫn đọc toàn bộ lượng tài liệu này để xác định các tài liệu cần thiết. Do vậy cách biểu diễn này có nhiều hạn chế. Thực tế cho thấy khi tìm kiếm thông tin, nếu biết được tài liệu mình tìm kiếm thuộc chủ đề nào thì người sử dụng sẽ nhanh chóng tiếp cận được với tài liệu cần tìm. Chính vì vậy để nâng cao hiệu quả trong việc tìm kiếm, ta nên biểu diễn kết quả tìm kiếm Web theo nhóm chủ đề vì nó có những ưu điểm sau:  Tên chủ đề giúp người sử dụng phát hiện được các chủ đề chính của tập kết quả trả về và do đó có thể xác định nhanh chóng tài liệu cần tìm.  Phân chia tập kết quả theo chủ đề còn giúp người sử dụng có thể nghiên cứu thêm các tài liệu liên quan đến những chủ đề khác mà nó thường bị bỏ qua khi duyệt kết quả tìm kiếm theo thứ tự hạng xuất hiện, vì những kết quả này thường nằm ở các trang sau và thường bị người dùng bỏ qua. Khi người dùng tìm kiếm, tập kết quả phụ thuộc vào câu hỏi truy vấn mà người dùng đưa ra, do đó không thể biết trước bất kỳ thông tin nào về các chủ đề chứa trong tập kết quả này. Đây là một trong những khó khăn lớn để xây dựng các công cụ tìm kiếm web theo chủ đề. Để giải quyết vấn đề này một trong các giải pháp được đề xuất là sử dụng phương pháp phân cụm tài liệu. Phân cụm tài liệu thực hiện nhóm các kết quả tìm kiếm theo chủ đề và tạo ra mô tả nội dung của mỗi
  • 18. nhóm; người sử dụng chỉ cần quan sát tóm tắt nội dung các nhóm là dễ dàng định vị được vùng tài liệu mà mình quan tâm. 2.4. Đánh giá chất lượng tìm kiếm Để đánh giá chất lượng tìm kiếm của một máy tìm kiếm, hai độ đo chuẩn thường được sử dụng để đánh giá là độ chính xác (precision) và độ hồi cứu (recall). Giả sử, ta có tập các câu truy vấn Q, tập các văn bản D, với mỗi câu truy vấn Q q ta có: + Tập các văn bản trả về D Rq  + Tập các văn bản liên quan Dq (được chọn thủ công từ toàn bộ tập văn bản D), D Dq  Độ chính xác (precision) được định nghĩa là tỉ lệ giữa các văn bản liên quan được trả về với mọi văn bản trả về. q q q R R D precision   Độ chính xác biến thiên từ 0 đến 1, trường hợp xấu nhất nếu độ chính xác là 0 có nghĩa là không có văn bản liên quan nào được trả về, trường hợp tốt nhất nếu độ chính xác là 1 nghĩa là toàn bộ văn bản được trả về đều là các văn bản liên quan. Đây là trạng thái lý tưởng mà một hệ thống tìm kiếm cần đạt được, tuy nhiên có thể vẫn còn các văn bản liên quan mà không được trả về. Độ hồi cứu (recall) là độ đo biểu diễn tỉ lệ giữa các văn bản liên quan được trả về với mọi văn bản liên quan. q q q D R D recall   Trường hợp lý tưởng là recall = 1, tức là mọi văn bản liên quan đều được trả về, còn trường hợp xấu nhất là recall = 0, tức là không có văn bản liên quan nào
  • 19. được trả về. Độ độ chính xác và độ hồi cứu quyết định mối quan hệ giữa hai tập văn bản: tập văn bản liên quan (Dq) và tập văn bản trả về (Rq). Trong trường hợp lý tưởng thì độ chính xác và độ hồi cứu đều bằng 1 (tuy nhiên điều này không bao giờ xảy ra trong các hệ thống thực tế).
  • 20. Chương 3: PHÂN CỤM TÀI LIỆU VÀ VẤN ĐỀ TÁCH TỪ TIẾNG VIỆT 3.1. Phân cụm 3.1.1. Khái niệm Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu, nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn được quan tâm trong tập dữ liệu lớn, từ đó cung cấp các thông tin hữu ích hỗ trợ cho việc ra quyết định. Kỹ thuật phân cụm đã được áp dụng thành công trong các ứng dụng thuộc lĩnh vực khai phá dữ liệu, thống kê hay lưu trữ thông tin. Giả sử ta có tập các đối tượng D={d1,d2,…,dn} và (di; dj) là độ tương tự giữa hai đối tượng di và dj. Phân cụm là quá trình chia tập đối tượng D vào K cụm C={c1,c2,…,ck} sao cho mỗi đối tượng đều thuộc về một cụm, các đối tượng trong cùng một cụm thì tương tự nhau, các phần tử thuộc các cụm khác nhau thì không tương tự nhau. Như vậy thực chất của phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm riêng biệt sao cho các phần tử trong một cụm là tương tự nhau và các phần tử thuộc các cụm khác nhau sẽ không tương tự với nhau. Với đặc điểm trên, khi phân cụm số lượng phần tử của các cụm có thể khác nhau. Số các cụm dữ liệu có thể được xác định trước hay tự động xác định trong quá trình phân cụm.
  • 21. Hình 3- 1. Mô tả phân cụm Hình vẽ trên mô tả một cách hình học về khái niệm phân cụm. Cho tập dữ liệu (hình bên trái), tiến hành thực hiện phân cụm tập dữ liệu theo khoảng cách hình học. Kết thúc quá trình phân cụm ta thu được 4 cụm như hình vẽ bên phải, các đối tượng trong cùng cụm có khoảng cách gần nhau. Cách phân cụm theo kiểu này được gọi là phân cụm dựa vào khoảng cách. Ngoài ra, còn có một loại phân cụm khác dựa vào khái niệm. Khi đó, các đối tượng trong cùng cụm đều liên quan đến khái niệm chung của cụm. Hay nói cách khác, các đối tượng được nhóm lại theo nội dung chúng diễn tả, không đơn giản là chỉ dựa theo độ đo khoảng cách hình học. Phân cụm tài liệu là một trong những ứng dụng loại phân cụm này. 3.1.2. Ứng dụng của phân cụm tài liệu trong thu thập và tổ chức thông tin Hình 3-2. Tiến trình phân cụm tài liệu
  • 22. Trong khi phương pháp phân cụm được sử dụng để thực hiện nhiều tác vụ khác nhau trong lĩnh vực thu thập thông tin [3,13], phương pháp phân cụm tài liệu chỉ tập trung vào hai hướng nghiên cứu chính.  Thứ nhất, là công cụ cải tiến hiệu năng thu thập thông tin và là cách thức tổ chức kho tài liệu. Ý tưởng phân cụm tài liệu áp dụng cho việc thu thập thông tin xuất phát từ lí thuyết nhóm, kết hợp các tài liệu liên quan theo yêu cầu lại với nhau. Bằng việc nhóm các tài liệu theo từng cụm khi đó ta dễ dàng phân biệt được tài liệu nào là liên quan và không liên quan với nhau, vì vậy hiệu quả thu thập tài liệu theo không gian nhóm được cải tiến đáng kể.  Thứ hai, là công cụ tiện ích hiệu quả khi duyệt tìm thông tin trong tập tài liệu lớn, gần đây nó được sử dụng để phân cụm kết quả tìm kiếm Web. 3.2. Mô hình không gian vector và trình bày văn bản Trong một số lĩnh vực của khai phá dữ liệu, các đối tượng được quan tâm thường được đưa ra dưới dạng các vector thuộc tính hay đặc trưng, các tài liệu lại được biểu diễn dưới dạng dãy các từ. Vì vậy, để phân cụm tài liệu, cần có một cách biểu diễn tài liệu phù hợp. Cách phổ biến nhất là biểu diễn các tài liệu như một vector trong không gian nhiều chiều. Mỗi chiều tương đương với một từ nhất định trong tập tài liệu. Do bản chất của tài liệu văn bản, số lượng các từ khác nhau có thể vô cùng lớn. Có đến hàng nghìn từ trong một văn bản ngắn đến trung bình. Việc tính toán trong không gian nhiều chiều sẽ gặp nhiều khó khăn và thậm chí đôi khi điều đó không thể thực hiện được (chẳng hạn do giới hạn về dung lượng bộ nhớ). Tuy nhiên, không phải tất cả các từ trong tài liệu đều hữu ích trong việc mô tả nội dung của nó. Vì vậy các tài liệu cần được xử lý trước để xác định những từ thích hợp nhất để miêu tả ngữ nghĩa của tài liệu. Những từ này được gọi là các từ chỉ mục. Giả sử ta có N tài liệu d1,d2,…, dn, và M từ khóa được liệt kê từ 1 đến M. Một tài liệu trong không gian vector được biểu diễn bởi 1 vector:
  • 23. Di = (wi1, wi2,..., wiM) Trong đó wij là trọng số của từ thứ j trong tài liệu di. 3.2.1. Các kỹ thuật tiền xử lý tài liệu Tiền xử lý tài liệu là một khâu quan trọng có ảnh hưởng lớn đến hiệu xuất của toàn bộ việc phân cụm. Nó làm giảm đáng kể số lượng đặc trưng sẽ được xử lý (ví dụ số từ khóa) do vậy cũng làm giảm độ phức tạp tính toán, nhưng cũng làm tăng chất lượng và độ chính xác của các từ được chọn. Trong khâu tiền xử lý, các kỹ thuật xử lý văn bản sau có thể được thực hiện để làm tăng chất lượng của các từ khóa được chọn. Phân tích từ vựng Phân tích từ vựng là phân tách tài liệu thành các từ riêng biệt. Tuy nhiên trong một vài trường hợp cần khi xử lý phải có sự quan tâm đặc biệt đối với các chữ số, dấu ngoặc, dấu chấm câu và trường hợp chữ hoa, chữ thường. Ví dụ các chữ số thường bị loại ra trong khi phân tích vì một mình nó không mang lại một ý nghĩa nào cho tài liệu (ngoại trừ một vài trường hợp đặc biệt, chẳng hạn trong thu thập thông tin về lĩnh vực lịch sử). Dấu chấm câu như “.”, “!”, “?”, “-“… cũng thường được loại ra mà không có ảnh hưởng gì đến nội dung của tài liệu, nhưng trong các từ ghép nối ta lại không được bỏ dấu “-“, vì sẽ làm thay đổi nghĩa của từ. Đối với Tiếng Việt, khái niệm từ có những đặc điểm khác so với tiếng Anh, do vậy việc tách các từ Tiếng Việt phức tạp hơn rất nhiều. Trong phần sau chúng tôi sẽ trình bày chi tiết về đặc điểm của từ trong Tiếng Việt và các kỹ thuật sử dụng để tách từ Tiếng Việt. Loại bỏ các từ dừng (stop-words) Những từ xuất hiện thường thường xuyên trong tập các tài liệu được đánh giá là ít có tác dụng trong việc phân biệt nội dung giữa các tài liệu do vậy có thể loại bỏ mà không ảnh hưởng đến việc phân cụm. Ví dụ như trong web thường có
  • 24. các từ như “web”, “site”, “link”, “www”…. Các từ như vậy được gọi là stop- words. Ngoài ra trong Tiếng Việt có rất nhiều từ cũng thuộc loại từ dừng như: “a lô”, “á”, “à”, “ai”, “ái chà”, “à ơi”… Loại bỏ tiền tố và hậu tố (Stemming) Stemming là loại bỏ tiền tố và hậu tố của từ để biến đổi về từ gốc. Vì trong thực tế một từ gốc có thể có nhiều hình thái biến đổi, chẳng hạn như động từ, danh từ, tính từ, trạng từ; và giữa chúng có mối quan hệ ngữ nghĩa. Như vậy, Stemming có thể làm giảm số lượng từ mà không ảnh hưởng đến nội dung tài liệu. Ví dụ như những từ: “clusters”, “clustering”, “clustered” là có cùng mối quan hệ với từ “cluster”. Giải thuật stemming cần được xây dựng cẩn thận, nếu chỉ sử dụng một tập các quy tắc đơn giản để loại bỏ tiền tố/hậu tố thì có thể dẫn đến hậu quả là sinh ra các từ không chính xác. Tuy nhiên các từ trong tiếng Việt không có sự biến đổi hình thái này nên ta không cần áp dụng kỹ thuật này trong quá trình tách các từ Tiếng Việt 3.2.2. Bảng trọng số Nếu các từ khóa được lựa chọn được coi là các từ mô tả đúng đắn về tài liệu thì việc giới thiệu lược đồ trọng số có thể xem là cách tiếp cận cục bộ để xác định tầm quan trọng của mỗi từ khóa đối với việc mô tả tài liệu. Bảng trọng số đơn giản nhất chỉ là một bảng nhị phân mà các từ khóa xuất hiện trong tài liệu thì có trọng số là 1 và trọng số là 0 trong các trường hợp khác. Trực quan hơn là dạng bảng trọng số thể hiện được tần số xuất hiện của các từ khóa trong tài liệu. dij = tfij tần số của từ thứ j trong tài liệu i Tài liệu/Từ t1 t2 t3 t4 t5 t6 d1 1 0 1 0 0 1 d2 1 0 0 1 1 1
  • 25. d3 1 0 0 1 1 1 d4 0 1 0 0 0 0 d5 0 1 0 0 0 0 d6 0 1 1 1 0 0 Bảng 3- 1: Ví dụ bảng trọng số nhị phân của các tài liệu. Tài liệu/Từ t1 t2 t3 t4 t5 t6 d1 1 0 1 0 0 1 d2 1 0 0 1 1 1 d3 1 0 0 1 1 1 d4 0 2 0 0 0 0 d5 0 1 0 0 0 0 d6 0 1 1 1 0 0 Bảng 3- 2: Ví dụ bảng trọng số của các tài liệu. Trọng số tần số thuật ngữ - nghịch đảo tần số tài liệu (Term Frequency - Inverse Document Frequency weighting) Bảng trọng số được sử dụng nhiều nhất là TD*IDF (tần số từ - nghịch đảo của tần số tài liệu) và các dạng biến đổi của nó. Cơ sở khoa học của công thức TD*IDF là các từ xuất hiện nhiều hơn trong một tài liệu (thừa số tf) sẽ đặc tả ý nghĩa của tài liệu tốt hơn là các từ xuất hiện ít. Tuy nhiên, các từ xuất hiện thường xuyên trong các tài liệu trong tập tài liệu thì có ít giá trị trong việc phân biệt nội dung tài liệu, vì vậy thừa số idf được sử dụng để làm giảm vai trò của các từ khóa xuất hiện nhiều trong toàn bộ nhóm tài liệu. Giả sử t1,t2,…,tm là ký hiệu các từ trong toàn bộ tập tài liệu và d1,d2,..,dn là các tài liệu trong tập tài liệu. Theo công thức TD*IDF, trọng số của mỗi từ tj trong
  • 26. tài liệu di được định nghĩa [15] là: wij = tfij ∗ log(n/dfj ) trong đó tfij (tần số từ ) – là số lần từ tj xuất hiện trong tài liệu di, dfj (tần số tài liệu) là số tài liệu trong tập tài liệu có chứa từ khóa tj. Thừa số log(N/dfj ) được gọi là nghịch đảo của tần số tài liệu của từ. Chuẩn hóa độ dài tài liệu Khi các tài liệu trong bộ tài liệu có thể có chiều dài khác nhau, có thể có một trường hợp các tài liệu lớn có thể chi phối không gian tài liệu (các thành phần của vectơ của nó có giá trị lớn hơn đáng kể so với các tài liệu khác) là nguyên nhân gây sai lệch quá trình phân cụm, giải pháp không chính xác. Để khắc phục vấn đề này, độ dài chuẩn thường được áp dụng trong các vector tài liệu. Tài liệu/Từ t1 t2 t3 t4 t5 t6 d1 0.301 0 0.4771 0.1761 0 0.301 d2 0.301 0 0 0.1761 0.4771 0.301 d3 0.301 0 0 0.1761 0.4771 0.301 d4 0 0.6021 0 0 0 0 d5 0 0.301 0 0 0 0 d6 0 0.301 0.4771 0.1761 0 0 Bảng 3- 3: Ví dụ trọng số cho các tài liệu trong bảng 3-2. Trọng số của vector tài liệu được chuẩn hóa bằng độ dài của nó.
  • 27. 3.2.3. Độ đo tương tự Khoảng cách hay độ tương tự giữa các vector tài liệu được xác định bằng một vài độ đo sau (xem [15]) Độ đo tương tự Sim(X,Y) Đánh giá theo vectơ nhị phân Đánh giá theo vectơ trọng số Tích trong Y X    t i i i y x 1 Hệ số góc Y X Y X   2        t i t i i i t i i i y x y x 1 1 2 2 1 2 Hệ số cosin 2 / 1 2 / 1 Y X Y X          t i t i i i t i i i y x y x 1 1 2 2 1 Hệ số Jaccard Y X Y X Y X               t i t i t i i i i i t i i i y x y x y x 1 1 1 2 2 1 Bảng 3- 4. Một số phép đo độ tương tự giữa hai vectơ tài liệu X, Y. Trong đó, xi, yi là trọng số thành phần thứ i của vectơ Vì cách biểu diễn đơn giản và trực quan nên hệ số cosine được sử dụng nhiều nhất. Khi các vector diễn tả tài liệu được chuẩn hóa bằng độ dài. Tất cả các độ đo ở trên đều tương tự nhau, giới hạn từ 1 cho các văn bản giống hệt nhau cho đến 0 khi các văn bản không có gì chung.
  • 28. 3.2.4. Biểu diễn cụm Lựa chọn cách biểu diễn cụm rất cần thiết cho các thuật toán phân cụm. Cách biểu diễn cụm tốt không chỉ giúp tính toán số đặc trưng của văn bản thuộc vào mỗi cụm mà còn giúp xác định một cách thỏa đáng mức độ mà mỗi đặc trưng góp phần vào việc mô tả nội dung của cụm. Với cách tiếp cận theo không gian vector, một cụm thường được biểu diễn như là tâm của vector (trọng tâm) của cụm các tài liệu. Cho một cụm Ck = {dk1, dk2,..., dkm }, ta có thể định nghĩa tổ hợp vector Dk của cụm 1 2 ... k k k k km d C D d d d d        Và trọng tâm của cụm là: 1 2 ... | | k k k km k k D d d d c C m      Đôi khi 1 trung vị - 1 đối tượng (tài liệu) ở gẩn trọng tâm nhất được chọn làm đại diện cho cụm. Mặc dù các cụm không nhất thiết phải được biểu diễn bởi các vectơ trong không gian giống như các tài liệu, nhưng làm như vậy sẽ đơn giản hóa việc tính toán độ tương tự (hoặc khoảng cách) giữa hai cụm hoặc giữa một cụm và một tài liệu (có thể sử dụng các độ đo tương tự cho các tài liệu). 3.3. Các giải thuật phân cụm Dựa trên cách tiếp cận có thể chia các giải thuật phân cụm thành 4 nhóm khác nhau là: - Phương pháp phân cụm dựa vào phân cấp. - Phương pháp dựa vào phân hoạch. - Phương pháp phân cụm dựa vào mật độ. - Phương pháp phân cụm dựa trên lưới. Đối với đối tượng dữ liệu là tập tài liệu thì người ta sử dụng mô hình không
  • 29. gian vectơ để biểu diễn và đã có nhiều giải thuật phân cụm được đề xuất cho mô hình này nhưng dựa trên các phương pháp tiếp cận có thể phân các giải thuật này thành hai loại: phương pháp phân cụm phân hoạch và thứ hai theo phương pháp phân cụm phân cấp. 3.3.1. Phương pháp phân cụm phân cấp Phương pháp này còn gọi là phương pháp phân cụm cây, trong đó sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy. Cây phân cụm có thể được xây dựng theo hai phương pháp tổng quát: phương pháp từ dưới lên (Bottom - up) và phương pháp từ trên xuống (Top - down). Các thuật toán theo phương pháp từ dưới lên còn gọi là thuật toán trộn còn phương pháp từ trên xuống còn được gọi là phương pháp tách. Kĩ thuật tiếp cận bottom-up: Bắt đầu xuất phát khởi tạo mỗi một nhóm tương ứng với mỗi một đối tượng và sau đó tiến hành hòa nhập đối tượng dựa vào độ đo tương tự giữa các nhóm. Quá trình này được lặp lại cho đến khi tất cả các nhóm được hòa nhập thành một nhóm (mức cao nhất của cây phân cấp) hoặc cho đến khi thỏa mãn điều kiện kết thúc. Cách tiếp cận này sử dụng chiến lược tham lam trong quá trình sát nhập. Giải thuật phân cụm phân cấp Input: tập đối tượng d1,.., dn, độ đo tương tự (di, dj), i j; i, j = 1..n Thuật toán: 1. Khởi tạo các nhóm từ tập đối tượng, mỗi đối tượng tạo thành một nhóm 2. for i = 1 to n - 1 do{ 3. Nhập hai nhóm tương tự nhau nhất thành một nhóm mới 4. } Kĩ thuật tiếp cận top-down: khởi đầu, tất cả các đối tượng được sắp xếp vào cùng một nhóm và sau đó tiến hành chia nhỏ các nhóm. Mỗi vòng lặp, thực hiện phân chia nhóm thành các nhóm nhỏ hơn dựa vào độ đo tương tự giữa các nhóm. Quá trình được lặp lại cho đến khi mỗi đối tượng là một nhóm riêng biệt hoặc khi thỏa điều kiện dừng. Cách tiếp cận này sử dụng chiến lược chia để trị.
  • 30. Hình 3.1 Phân cụm phân cấp Có nhiều phương thức đo mức độ tương tự giữa các nhóm, với mỗi phương thức sẽ thu được các kết quả khác nhau: - Single-linked: khoảng cách giữa hai nhóm được định nghĩa là khoảng cách bé nhất giữa hai đối tượng thuộc hai nhóm khác nhau. - Complete-linked : ngược với single-linked, khoảng cách giữa hai nhóm được định nghĩa là khoảng cách lớn nhất giữa hai đối tượng thuộc hai nhóm khác nhau. - Average-linked: khoảng cách giữa hai nhóm được định nghĩa là khoảng cách trung bình của tất cả các cặp đối tượng, trong cặp đó mỗi đối tượng thuộc về một nhóm khác nhau. Độ phức tạp tính toán của giải thuật phân cụm phân cấp là O(n2 logn) và chi phí bộ nhớ O(n2 ), trong đó n là số đối tượng (tài liệu). Giải thuật này là không hiệu quả đối với tập đối tượng cực lớn. Khi đó ta áp dụng phương pháp phân cụm phân hoạch. 3.3.2. Phương pháp phân cụm phân hoạch Kĩ thuật này xây dựng một phân hoạch của tập dữ liệu n đối tượng thành tập k nhóm theo điều kiện tối ưu. Khởi đầu, giải thuật phân cụm phân hoạch K-Means là được sử dụng nhiều nhất và sau đó có thêm các kiểu cải tiến thay đổi của nó. K-Means là thuật toán phân cụm được định nghĩa theo phần tử đại diện, nghĩa là mỗi nhóm được xác định bởi tâm của nhóm. Phương pháp này dựa vào độ đo
  • 31. khoảng cách giữa các đối tượng trong cụm. Trong thực tế, phần tử trung tâm thường được xác định theo trung bình khoảng cách giữa các đối tượng trong mỗi cụm. Thuật toán K- Means bắt đầu với việc chọn ngẫu nhiên các phần tử để khởi tạo một tập các phần tử trung tâm cụm. Sau đó thực hiện xác lập cụm theo các tâm cụm (phần tử nào gần với tâm cụm nào nhất thì sẽ thuộc vào cụm đó) và xác định lại tâm cụm. Thực hiện lặp lại cho đến khi thỏa điều kiện hội tụ. Độ phức tạp tính toán của giải thuật K-means tương đối thấp (kn), trong đó k là số nhóm, n là số đối tượng (tài liệu). Vì vậy giải thuật này được đánh giá là thích hợp trong việc ứng dụng phân cụm tập tài liệu kích thước lớn. Giải thuật K-Means Input: Tập n đối tượng, số cụm k Output: Một tập gồm K cụm thỏa mãn điều kiện cực tiểu hóa hàm mục tiêu E Thuật toán: Bước 1: Lựa chọn ngẫu nhiên k phần tử để khơi tạo cho k cụm. Bước 2: Phân các đối tượng vào cụm mà nó gần tâm nhất Bước 3: Xác định lại tâm của mỗi cụm Bước 4: Quay lại bước 2, hoặc dừng khi không hoặc còn ít sự thay đổi 3.3.3. Thuật toán phân cụm bán giám sát Seeded - KMeans Phân cụm bán giám sát là phương pháp sử dụng các thông tin bổ trợ để hướng dẫn cho quá trình phân cụm. Các thông tin bổ trợ có thể được cho dưới dạng tập các cặp ràng buộc hoặc một tập nhỏ một số dữ liệu được gán nhãn. Một số công trình nghiên cứu gần đây đã dùng thông tin bổ trợ trong việc phân cụm [4,5,6,7]
  • 32. Đối với phương pháp phân cụm nửa giám sát dựa trên tập dữ liệu được gán nhãn, để hình thành nên các cụm giống nhằm khởi tạo cho một thuật toán phân cụm hoặc để sinh ra các ràng buộc dẫn dắt quá trình phân cụm, người ta sẽ sử dụng tập dữ liệu được gán nhãn. Bài toán phân cụm nửa giám sát dựa trên tập dữ liệu được gán nhãn được phát biểu như sau: Cho một tập dữ liệu ban đầu   1 N i i X x   , gọi S X  là tập giống (tập dữ liệu đã gán nhãn) trong đó với mỗi đối tượng xj S người dùng cung cấp cho nó một phân hoạch (cụm) h X . Giả sử rằng bất kể cụm nào trong X cũng có ít nhất một đối tượng xj thuộc tập giống. Người ta phân hoạch tập giống S thành K cụm giống tách rời   1 K h h S  , do đó mọi đối tượng xj Sh đều nằm trong cụm h X tương ứng. Nhiệm vụ cần giải quyết là từ K cụm giống   1 K h h S  chúng ta phải phân hoạch tập dữ liệu X thành K phân hoạch tách rời   1 K h h X  . Thuật toán Seeded-KMeans Seeded-Kmeans là thuật toán phân cụm bán giám sát điển hình dựa trên tập dữ liệu đã được người dùng gán nhãn được Basu đề xuất năm 2002. Thuật toán Seeded-KMeans sử dụng các cụm giống Sh để khởi tạo cho thuật toán K-Means. Do vậy thay vì phải khởi tạo K cụm ngẫu nhiên chúng ta khởi tạo chúng từ K cụm giống. Thuật toán Seeded-KMeans Input: - Tập các đối tượng dữ liệu   1,..., , d N i X x x x   - Số lượng cụm: K - Tập giống 1 K h h S S    Output: K phân hoạch tách rời:   1 K h h X  của X sao cho hàm mục tiêu được tối ưu. Thuật toán: Bước 1: Khởi tạo các cụm: (0) 1 h h x S h x S     , với h = 1,...K; t0.
  • 33. Bước 2: Gán cụm: Gán mỗi đối tượng dữ liệu x vào cụm h* (tức là tập   * ( 1) 1 K t h h X   ) với h* = argmin ( ) 2 || || t h x   Bước 3: Ước lượng tâm: ( 1) ( 1) ( 1) 1 | | t h t h t x X h x X        Bước 4: t t+1 Bước 5: Dừng nếu hội tụ hoặc quay lại bước 2. 3.3.4. Tiêu chuẩn sự tối ưu Trong cách tiếp cận dựa trên phân hoạch sự phân cụm thường tuân theo một tiêu chuẩn tối ưu toàn cục. Một số tiêu chuẩn thường được sử dụng là (xem [22]): Cực đại hóa sự tương tự nội bộ (Maximize internal similarity) Tiêu chuẩn này dựa trên yêu cầu các tài liệu trong một cụm phải tương tự với các tài liệu khác. Do đó giải pháp đưa vào một cụm là cực đại hóa độ tương tự nội bộ (bên trong cụm) giữa các tài liệu. 1 2 1 , 1 .( ( , ) i j r k r i j r d d C r n d d n        Cực đại hóa độ tương tự trọng tâm tài liệu Cực đại hóa toàn bộ sự tương tự giữa mỗi tài liệu và trọng tâm cụm là tiêu chuẩn chung cho các thuật toán không gian vector K-means [7, 18]: 2 1 ( , ) i r k i r r d C d C        Dựa trên yêu cầu các văn bản không thuộc cùng cụm thì khác nhau càng nhiều càng tốt, có thể dẫn tới một tiêu chuẩn làm cho tâm của các cụm càng trực giao lẫn nhau càng tốt. Tuy nhiên tài liệu [22] đã cho thấy tiêu chuẩn này có thể thu được các giải pháp không có giá trị. (chẳng hạn k-1 cụm, mỗi cụm chứa duy nhất một tài liệu có một vài thuật ngữ chung với phần còn lại, và các văn bản còn lại sẽ được gán vào một cụm). Vì vậy một tiêu chuẩn nhằm mở rộng các cụm bằng
  • 34. cách cực tiểu hóa độ tương tự với trọng tâm của toàn bộ tập tài liệu đã được đề xuất [22]: 2 1 ( , ) k r r r n C C      Trong đó C là tâm của toàn bộ tập văn bản. 3.3.5. Gán cứng và gán mềm Đối với một số ứng dụng, đặc biệt là với văn bản, khi gán tài liệu vào một cụm, một trong có thể ta muốn định lượng một tài liệu có quan hệ với một cụm bằng một giá trị thực phù hợp. Giá trị đó được gọi là mức độ thành viên (the membership degree). Trong phân cụm tài liệu nếu chúng ta coi các cụm như là tập các tài liệu thuộc cùng chủ đề thì về bản chất một tài liệu có thể nói về một vài chủ đề và có thể gán vào một vài cụm. Thuật toán sử dụng quan điểm trên được gọi là sử dụng phép gán mềm hoặc mờ với các cụm phủ nhau. Ngược lại thuật toán với phép gán cứng chỉ cho phép mỗi văn bản chỉ thuộc vào duy nhất một cụm mà không quan tâm đến độ định lượng của quan hệ.
  • 35. 3.4. Các bước thực hiện phân cụm 1. Xây dựng thủ tục biểu diễn đối tượng, 2. Xây dựng hàm tính độ tương tự, 3. Xây dựng các tiêu chuẩn phân cụm, 4. Xây dựng mô hình cho cấu trúc cụm dữ liệu, 5. Xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo, 6. Đánh giá kết quả phân cụm 3.5. Đánh giá kết quả phân cụm Làm thế nào để đánh giá được chất lượng cụm? Trong thực tế, không có một tiêu chuẩn tuyệt đối nào, tùy theo các mục đích phân cụm sẽ có các tiêu chuẩn cụm khác nhau phù hợp với yêu cầu sử dụng. Các tiêu chuẩn này được người sử dụng đưa ra tùy theo từng bài toán phân cụm cụ thể. Tuy nhiên, nhìn chung một phương thức phân cụm được đánh giá là tốt nếu tạo ra được các cụm có chất lượng cao, tức là các đối tượng trong cùng cụm có mức tương tự với nhau rất cao, còn các đối tượng không cùng cụm mức tương tự rất thấp (phi tương tự). Ngoài ra, chất lượng của phương pháp phân cụm còn được đánh giá bằng khả năng khám phá một vài hoặc tất cả cấu trúc ẩn bên trong nó. Ta có thể tổng quát rằng, bản chất của việc phân cụm là xác định các đối tượng tương tự nhau để nhóm lại thành cụm. Do đó, chất lượng của kết quả phân cụm phụ thuộc chủ yếu hàm độ đo tương tự. Vậy hàm độ đo tương tự đóng vai trò quyết định chất lượng cụm dữ liệu. 3.6. Phân cụm kết quả tìm kiếm web Mặc dù xuất phát từ phân cụm tài liệu, các phương pháp phân cụm kết quả tìm kiếm web lại khác so với các thuật toán phân cụm trước đó về nhiều mặt. Đáng chú ý nhất, các thuật toán phân cụm tài liệu làm việc trên tập dữ liệu văn bản dài (hay các văn bản tóm tắt) với số lượng lớn. Ngược lại, các thuật toán phân cụm kết quả tìm kiếm web làm việc trên các tập tài liệu có độ dài trung bình (khoảng vài
  • 36. trăm phần tử với độ dài từ 10-20 từ). Trong phân cụm tài liệu, yếu tố quan trọng là chất lượng của các cụm và khả năng mở rộng với độ lớn của số lượng tài liệu vì nó thường sử dụng để phân cụm toàn bộ tập tài liệu. Đối với phân cụm kết quả tìm kiếm web, ngoài việc cung cấp các cụm chất lượng tốt, nó còn cần tạo ra các mô tả ngắn gọn xúc tích và có ý nghĩa cho nhóm. Ngoài ra, các thuật toán phải rất nhanh, cho kết quả ngay lập tức (vì phải xử lý các kết quả tìm kiếm ngay trước khi hiển thị đến người sử dụng) và phải mở rộng được qui mô với sự gia tăng yêu cầu của người sử dụng. Phân cụm tài liệu Phân cụm kết quả tìm kiếm web Các tài liệu dài (hoặc các văn bản tóm tắt) Các đoạn văn bản tóm tắt ngắn Xử lý dữ liệu offline trên tập dữ liệu lớn. Xử lý trực tuyến trên tập dữ liệu trung bình. Chất lượng của cụm Chất lượng cụm và mô tả có ý nghĩa cho cụm Khả năng mở rộng với số lượng tài liệu Khả năng mở rộng với số truy vấn của người dùng Hình 3- 3. So sánh giữa phân cụm tài liệu và phân cụm kết quả tìm kiếm web. 3.7. Các phương pháp tách từ tiếng Việt 3.7.1. Đặc điểm từ trong tiếng Việt Khác với Tiếng Anh, từ là một nhóm ký tự liên tiếp có ý nghĩa được phân cách nhau bằng các khoảng trắng hoặc dấu câu, đơn vị cơ bản trong Tiếng Việt là tiếng không phải là từ, một từ trong tiếng Việt có thể gồm một hoặc nhiều tiếng. Từ tiếng Việt có một số đặc điểm chính như sau: - Từ ở dạng nguyên thể, hình thức và ý nghĩa của từ độc lập với cú pháp - Từ được cấu trúc từ “tiếng” - Từ bao gồm từ đơn (từ một tiếng) và từ phức (n-tiếng, với n <= 5), bao
  • 37. gồm từ láy và từ ghép. Như vậy, từ Tiếng Việt và từ Tiếng Anh có những đặc điểm khác biệt chính như bảng dưới đây. Đặc điểm Tiếng Việt Tiếng Anh Đơn vị cơ bản Tiếng Từ Nhận dạng từ Tổ hợp các tiếng liên tiếp có nghĩa dựa vào ngữ cảnh sử dụng Cách nhau bởi các khoảng trắng hoặc dấu câu. Từ loại Không thống nhất Định nghĩa rõ ràng Tiền tố/hậu tố Không có Có Bảng 3- 5. So sánh các đặc điểm khác nhau giữa tiếng Anh và tiếng Việt Từ những đặc điểm khác biệt trên, khi phân tách văn bản tiếng Việt thành các từ có nhiều khó khăn hơn so với việc phân tách từ Tiếng Anh. Các phần dưới đây sẽ trình bày một số phương pháp tách từ Tiếng Việt đang được sử dụng hiện nay. 3.7.2. Phương pháp so khớp cực đại Phương pháp so khớp cực đại (MM - Maximum Matching) hay còn gọi là so khớp cực đại từ trái qua phải (LRMM - Left Right Maximum Matching). Ở phương pháp này, chúng ta sẽ duyệt một ngữ hoặc câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và cứ thực hiện lặp lại như vậy cho đến hết câu. Với tư tưởng đó, phương pháp này thực hiện tách từ đơn giản, nhanh và chỉ cần dựa vào từ điển để thực hiện. Tuy nhiên, khuyết điểm của phương pháp này cũng chính là từ điển, nghĩa là độ chính xác khi thực hiện tách từ phụ thuộc hoàn toàn vào tính đủ, tính chính xác của từ điển hơn nữa nó cũng tách từ sai trong một số trường hợp đặc biệt như câu: Học sinh học sinh học
  • 38. 3.7.3. Phương pháp học cải biến Phương pháp này tiếp cận dựa trên tập ngữ liệu đã đánh dấu.Theo cách tiếp cận này để cho máy tính có thể nhận biết ranh giới giữa các từ để có thể tách từ chính xác, chúng ta sẽ cho máy học các câu mẫu trong tập ngữ liệu đã được đánh dấu ranh giới giữa các từ đúng. Ta thấy phương pháp rất đơn giản, vì chỉ cần cho máy học các tập câu mẫu và sau đó máy sẽ tự rút ra qui luật của ngôn ngữ và để từ đó sẽ áp dụng chính xác khi có những câu đúng theo luật mà máy đã rút ra. Và rõ ràng để tách từ được hoàn toàn chính xác trong mọi trường hợp thì đòi hỏi phải có một tập ngữ liệu tiếng Việt thật đầy đủ và phải được huấn luyện lâu để có thể rút ra các luật đầy đủ. 3.7.4. Mô hình tách từ bằng WFST và mạng Neural Mô hình mạng chuyển dịch trạng thái hữu hạn có trọng số (WFST – Weighted Finit State Transducer) đã được áp dụng trong tách từ từ năm 1996. Ý tưởng cơ bản là áp dụng WFST với trọng số là xác suất xuất hiện của mỗi từ trong kho ngữ liệu. Dùng WFST để duyệt qua các câu cần xét, khi đó từ có trọng số lớn nhất là từ được chọn để tách. Phương pháp này cũng đã được sử dụng trong công trình đã được công bố của tác giả Đinh Điền [2001], tác giả đã sử dụng WFST kèm với mạng Neural để khử nhập nhằng khi tách từ, trong công trình tác giả đã xây dựng hệ thống tách từ gồm tầng WFST để tách từ và xử lý các vấn đề liên quan đến một số đặc thù riêng của ngôn ngữ tiếng Việt như từ láy, tên riêng,.. và tầng mạng Neural dùng để khử nhập nhằng về ngữ nghĩa sau khi đã tách từ (nếu có). Theo công bố trong công trình của tác giả, mô hình này đạt được độ chính xác trên 97%. Tác giả sử dụng thêm mạng Neural kết hợp với từ điển để khử các nhập nhằng có thể có khi tách ra nhiều từ có được từ một câu; tầng mạng Neural sẽ loại bỏ đi các từ không phù hợp bằng cách kết hợp với từ điển. Bên cạnh đó, cũng tương tự như phương pháp TBL điểm quan trọng của mô hình này cần tập ngữ liệu học đầy đủ.
  • 39. 3.7.5. Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền (IGATEC - Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese) do H. Nguyễn đề xuất năm 2005 như một hướng tiếp cận mới trong tách từ với mục đích phân loại văn bản mà không cần dùng đến một từ điển hay tập ngữ liệu học nào. Trong hướng tiếp cận này, tác giả kết hợp giữa thuật toán di truyền với dữ liệu thống kê được lấy từ Internet. Theo cách tiếp cận của tác giả, hệ thống tách từ gồm 2 thành phần Lấy thông tin trực tuyến (Online Extractor): Thành phần này có tác dụng lấy thông tin về tần số xuất hiện của các từ trong văn bản bằng cách sử dụng một search engine nổi tiếng như Google hay Yahoo chẳng hạn. Sau đó, tác giả sử dụng các công thức thích hợp (xem [4]) để tính toán mức độ phụ thuộc lẫn nhau để làm cơ sở tính fitness cho GA engine. Tách từ bằng thuật giải di truyền: mỗi cá thể trong quan thể được biểu diễn bởi chuỗi các bit 0,1, trong đó, mỗi bit đại diện cho một tiếng trong văn bản, mỗi nhóm bit cùng loại đại diện cho cho một đoạn. Các cá thể trong quần thể được khởi tạo ngẫu nhiên, trong đó mỗi đoạn được giới hạn trong khoảng 5. GA engine sau đó thực hiện các bước đột biến và lai ghép nhằm mục đích làm tăng giá trị fitness của các cá thể để đạt được cách tách từ tốt nhất có thể.
  • 40. Chương 4: LÝ THUYẾT TẬP THÔ 4.1. Giới thiệu Lý thuyết tập thô (rough set theory) lần đầu tiên được đề xuất bởi Z. Pawlak vào đầu những năm 1980 và nhanh chóng được xem như một công cụ xử lý các thông tin mơ hồ và không chắc chắn. Lý thuyết tập thô là một công cụ hữu ích được sử dụng nhiều trong việc phân tích và phân lớp dữ liệu. Lý thuyết tập thô đã được áp dụng thành công trong nhiều tác vụ khác nhau như: Trích chọn các đặc trưng, tổng hợp ra các luật và phân cụm dữ liệu. Lý thuyết tập thô dựa trên giả thiết rằng để định nghĩa một tập hợp, chúng ta cần phải có thông tin về mọi đối tượng trong tập vũ trụ, quan điểm này hoàn toàn khác với quan điểm truyền thống của tập hợp là mọi tập hợp đều được định nghĩa duy nhất bởi các phần tử của nó mà không cần biết bất kỳ thông tin nào về các phần tử của tập hợp. Vấn đề nổi bật của lý thuyết tập thô là việc đưa ra ý tưởng về tính mơ hồ của tri thức hay hệ thông tin; nó dựa trên khái niệm xấp xỉ dưới (Lower approximation) và xấp xỉ trên (Upper approximation) của hệ thông tin. Xấp xỉ dưới của một hệ thông tin cho một khái niệm C là tập hợp các đối tượng chắc chắn thuộc về khái niệm C; trong khi đó xấp xỉ trên của một hệ thông tin cho khái niệm C là tập hợp các đối tượng có thể thuộc về khái niệm C. Vùng khác biệt giữa xấp xỉ trên và xấp xỉ dưới được gọi là vùng biên (Boundary region) đó là những đối tượng không thể quyết định được là có thuộc khái niệm C (xem hình 4.1). Trong chương này chúng ta sẽ nghiên cứu các khái niệm và ý nghĩa cơ bản của lý thuyết tập thô. Đây là những kiến thức quan trọng cho việc áp dụng tập thô vào phân cụm kết quả tìm kiếm web.
  • 41. Hình 4- 1. Hình ảnh minh họa các khái niệm của tập thô 4.2. Hệ thông tin Một tập dữ liệu thể hiện dưới dạng bảng, trong đó mỗi dòng thể hiện cho một trường hợp, một sự kiện, một bệnh nhân hay đơn giản là một đối tượng. Mỗi cột của bảng thể hiện một thuộc tính (là một giá trị, một quan sát, một đặc điểm …) được “đo lường” cho từng đối tượng. Ngoài ra giá trị của thuộc tính cũng có thể được cung cấp bởi chuyên gia hay bởi người sử dụng. Một bảng như vậy được gọi là một hệ thông tin (information system). Một cách hình thức, hệ thông tin là một cặp A = (U,A) trong đó U là tập hữu hạn khác rỗng các đối tượng và được gọi là tập vũ trụ, A là tập hữu hạn khác rỗng các thuộc tính sao cho a: U→Va với mọi aA. Tập Va được gọi là tập giá trị của thuộc tính a. Ví dụ 4-1 : Bảng 4-1dưới đây cho ta hình ảnh về một hệ thông tin đơn giản với 7 đối tượng và 2 thuộc tính Age và LEMS (Lower Extremity Motor Score)[10].
  • 42. Age LEMS x1 16 – 30 50 x2 16 – 30 0 x3 31 – 45 1 – 25 x4 31 – 45 1 – 25 x5 46 – 60 26 – 49 x6 16 – 30 26 – 49 x7 46 – 60 26 – 49 Bảng 4- 1. Một hệ thông tin đơn giản Ta dễ dàng nhận thấy trong bảng trên, các cặp đối tượng x3, x4 cũng như x5 , x7 có giá trị bằng nhau với cả hai thuộc tính. Trường hợp này ta nói rằng các đối tượng này không phân biệt từng đôi đối với tập thuộc tính {Age, LEMS}. Trong nhiều ứng dụng, tập vũ trụ được phân chia thành các tập đối tượng con bởi một tập các thuộc tính phân biệt được gọi là tập thuộc tính quyết định. Nói cách khác tập vũ trụ đã được phân lớp bởi thuộc tính quyết định. Hệ thông tin trong trường hợp này được gọi là một hệ quyết định. Như vậy hệ quyết định là một hệ thông tin có dạng: A = (U,C D) trong đó A C D, C và D lần lượt được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định của hệ thông tin. Ví dụ 4-2 : Bảng 4-2 dưới đây thể hiện một hệ quyết định, trong đó tập thuộc tính {walk} được thêm vào nhận hai giá trị kết xuất là Yes và No [10].
  • 43. Age LEMS Walk x1 16 – 30 50 Yes x2 16 – 30 0 No x3 31 – 45 1 – 25 No x4 31 – 45 1 – 25 Yes x5 46 – 60 26 – 49 No x6 16 – 30 26 – 49 Yes x7 46 – 60 26 – 49 No Bảng 4- 2. Một bảng quyết định đơn giản Một lần nữa ta thấy rằng, các cặp đối tượng x3, x4 và x5, x7 vẫn có giá trị như nhau tại hai thuộc tính điều kiện, nhưng cặp thứ nhất {x3, x4}thì có giá trị kết xuất khác nhau (tức giá trị tại thuộc tính quyết định khác nhau), trong khi đó cặp thứ hai {x5, x7} thì bằng nhau tại thuộc tính quyết định. Từ bảng trên có thể rút ra được một luật: “Nếu Age là 16-30 và LEMS là 50 thì Walk là Yes”. Tính tối thiểu của các thuộc tính điều kiện trong tập các luật có được từ hệ quyết định là một trong những vấn đề rất quan trọng. 4.3. Quan hệ bất khả phân biệt Một hệ quyết định (hay một bảng quyết định) thể hiện tri thức về các đối tượng trong thực tiễn. Tuy nhiên trong nhiều trường hợp bảng này có thể được thu gọn lại vì các lý do sau:  Nhiều đối tượng giống nhau, hay không thể phân biệt với nhau lại được thể hiện lặp lại nhiều lần.  Khi bỏ đi một số thuộc tính thì thông tin do bảng quyết định cung cấp mà chúng ta quan tâm sẽ không bị mất mát. Những thuộc tính như vậy
  • 44. được coi là các thuộc tính thừa. 4.3.1. Quan hệ tương đương - Lớp tương đương Một quan hệ hai ngôi RX x Xđược gọi là quan hệ tương đương khi và chỉ khi :  R là quan hệ phản xạ: xRx, x  X  R là quan hệ đối xứng: xRy  yRx, x,y  X  R là quan hệ bắc cầu: xRy và yRz  xRz, x, y, zX Lớp tương đương của một đối tượng x là tập tất cả các đối tượng y  X mà xRy. Chúng ta xét hệ thông tin A = (U, A). Khi đó mỗi tập thuộc tính B đều tạo ra tương ứng một quan hệ tương đương IND A(B) IND A (B ) = {(x, x ' ) U2 | a B, a (x) a (x ' )} INDA (B) được gọi là quan hệ B -bất khả phân biệt. Nếu (x, x') INDA(B) thì các đối tượng x và x' là không thể phân biệt được với nhau qua tập thuộc tính B. Lớp tương đương của x trong quan hệ IND A(B) được kí hiệu bởi [x]B. Nếu không bị nhầm lẫn ta viết IND(B) thay cho INDA(B) Ví dụ 4-4 : Trong ví dụ này chúng ta sẽ xem xét các quan hệ bất khả phân biệt được định nghĩa trong Bảng 4-2 Chẳng hạn, xét tại thuộc tính {LEMS}, các đối tượng x3, x4 có cùng giá trị 1−25 nên thuộc cùng lớp tương đương định bởi quan hệ IND({LEMS}), hay chúng bất khả phân biệt qua tập thuộc tính {LEMS}. Tương tự như vậy là ba đối tượng x5, x6 và x7 cùng thuộc vào một lớp tương đương định bởi quan hệ IND({LEMS})
  • 45. Quan hệ IND định ra ba phân hoạch sau của tập các đối tượng trong vũ trụ: IND({Age}) = {{x1, x2, x6},{x3, x4}, {x5, x7}} IND({LEMS}) = {{x1},{x2},{x3, x4},{x5, x6 , x7}} IND({Age, LEMS}) = {{x1},{x2},{x3, x4},{x5, x7 },{x6}} 4.4. Xấp xỉ tập hợp Một quan hệ tương đương cho ta một sự phân hoạch các đối tượng của tập vũ trụ. Các lớp tương đương này có thể được sử dụng để tạo nên các tập con của tập vũ trụ. Các tập con này thường chứa các đối tượng có giá trị giống nhau tại tập các thuộc tính quyết định. Tuy vậy không phải khái niệm nào cũng có thể định nghĩa một cách rõ ràng như vậy. Chẳng hạn như khái niệm Walk trong bảng quyết định 4-2, khái niệm này không thể định nghĩa rõ ràng qua 2 thuộc tính điều kiện Age và LEMS: hai đối tượng x3 và x4 thuộc cùng một lớp tương đương tạo bởi 2 thuộc tính điều kiện nhưng lại có giá trị khác nhau tại thuộc tính Walk, vì vậy nếu một đối tượng nào đó có (Age,LEMS) (31-45,1-25) thì ta vẫn không thể biết chắc chắn giá trị của nó tại thuộc tính Walk. Trong những trường hợp như vậy người ta sẽ sử dụng khái niệm tập thô. Mặc dù không thể mô tả khái niệm Walk một cách rõ ràng nhưng căn cứ vào tập thuộc tính {Age, LEMS} ta vẫn có thể chỉ ra được chắc chắn:  Một số đối tượng có Walk là Yes  Một số đối tượng có Walk là No  Còn lại là các đối tượng thuộc về tập biên của 2 giá trị Yes và No. Tập các đối tượng có tập biên khác rỗng được gọi là tập thô. Những khái niệm trên được thể hiện một cách hình thức như sau:
  • 46. Cho hệ thông tin A = (U, A), tập thuộc tính BA , tập đối tượng XU  Chúng ta có thể xấp xỉ tập hợp X bằng cách chỉ sử dụng các thuộc tính trong B từ việc xây dựng các tập hợp B-xấp xỉ dưới và B -xấp xỉ trên được định nghĩa như sau:  B - xấp xỉ dưới của tập X : BX = {x | [x]BX }  B -xấp xỉ trên của tập X : BX {x | [x]B X } Tập hợp BX là tập các đối tượng trong U mà sử dụng các thuộc tính trong B ta có thể biết chắc chắn được chúng là các phần tử của X. Tập hợp BX là tập các đối tượng trong U mà sử dụng các thuộc tính trong B ta chỉ có thể nói rằng chúng có thể là các phần tử của X. Tập hợp BNB(X)  BX - BX được gọi là B -biên của tập X và chứa những đối tượng mà sử dụng các thuộc tính của B ta không thể xác định được chúng có thuộc tập X hay không. Tập hợp U - BX được gọi là B -ngoài của tập X, gồm những đối tượng mà sử dụng tập thuộc tính B ta biết chắc chắn chúng không thuộc tập X. Một tập hợp được gọi là thô nếu đường biên của nó là không rỗng, ngược lại ta nói tập này là rõ. Ví dụ 4-6: Trong đa số trường hợp, người ta luôn muốn hình thành các định nghĩa của các lớp quyết định từ các thuộc tính điều kiện. Xét bảng 4-2 ở trên với tập đối tượng W {x|Walk(x)= Yes} = {x1, x4, x6} và tập thuộc tính B{Age, LEMS}. Khi đó ta nhận được các vùng xấp xỉ sau đây của W thông qua B: W B = {x1, x6}, W B ={x1, x3, x4, x6} Tải bản FULL (89 trang): https://bit.ly/3Dhc6PK Dự phòng: fb.com/TaiHo123doc.net
  • 47. BNB(W) = {x3, x4}, U- W B = {x2, x5, x7} Hình 4-2. Xấp xỉ tập đối tượng trong Bảng 4-2 bằng các thuộc tính điều kiện Age và LEMS. Mỗi vùng được thể hiện kèm theo tập các lớp tương đương tương ứng. Một số tính chất của các tập hợp xấp xỉ 1. ( ) ( ) B X X B X   2. ( ) ( ) B B      , ( ) ( ) B U U B U   3. ( ) ( ) ( ) B X Y B X B Y    4. ( ) ( ) ( ) B X Y B X B Y    5. Nếu X Y thì B( ) ( ), ( ) ( ) X B Y B X B Y    6. ( ) ( ) ( ) B X Y B X B Y    7. ( ) ( ) ( ) B X Y B X B Y    8. ( ) ( )    B U X U B X 9. ( ) ( )    B U X U B X 10. ( ( ) ( ( )) ( ) B B X B B X B X   11. ( ( ) ( ( )) ( ) B B X B B X B X   Dựa vào ý nghĩa của các xấp xỉ trên và xấp xỉ dưới, người ta định nghĩa bốn lớp cơ bản của các tập thô, hay bốn thể loại mơ hồ (vagueness): a, X được gọi là B - định nghĩa được một cách thô (roughly B -definable) nếu và chỉ nếu B (X) ≠  và B (X) ≠ U Tải bản FULL (89 trang): https://bit.ly/3Dhc6PK Dự phòng: fb.com/TaiHo123doc.net
  • 48. b, X được gọi là B - không định nghĩa được một cách nội vi (internally B undefinable) nếu và chỉ nếu B (X) =  và B (X) ≠ U c, X được gọi là B -không định nghĩa được một cách ngoại vi (externally B undefinable) nếu và chỉ nếu B (X) ≠  và B (X) = U d, X được gọi là B -không định nghĩa được một cách hoàn toàn (totally B undefinable) nếu và chỉ nếu B (X) =  và B (X) = U Có thể diễn tả lại các khái niệm trên như sau:  X là B -định nghĩa được một cách thô nghĩa là: Nhờ sử dụng tập thuộc tính B ta có thể chỉ ra một số đối tượng của U thuộc về tập X và một số đối tượng của U thuộc về U -X.  X là B -không định nghĩa được một cách nội vi nghĩa là: sử dụng tập thuộc tính B ta có thể chỉ ra một số đối tượng của U thuộc về U - X, nhưng lại không thể chỉ ra được các đối tượng thuộc về X.  X là B - không định nghĩa được một cách ngoại vi nghĩa là : sử dụng tập thuộc tính B ta có thể chỉ ra một số đối tượng của U thuộc về X, nhưng không chỉ ra được các đối tượng thuộc về U-X  X là B - không định nghĩa được một cách hoàn toàn nghĩa là: sử dụng tập thuộc tính B ta không thể chỉ ra bất kỳ đối tượng nào của U thuộc về X hay thuộc về U -X Một tập thô có thể được định lượng bởi công thức: 6815919