Luận văn: Xây dựng bộ lọc phát hiện các Website có nội dung xấu

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC LẠC HỒNG
--------
NGUYỄN THANH PHONG
XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG
KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT
Luận văn Thạc sĩ Công nghệ Thông tin
ĐỒNG NAI, 2014

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC LẠC HỒNG
--------
NGUYỄN THANH PHONG
XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG
KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT
Chuyên ngành: Công nghệ Thông tin
Mã số: 60480201
Luận văn Thạc sĩ Công nghệ Thông tin
NGƢỜI HƢỚNG DẪN KHOA HỌC
TS. VŨ ĐỨC LUNG
ĐỒNG NAI, 2014

LỜI CẢM ƠN
Với những lời đầu tiên, em xin dành sự cảm ơn chân thành và sâu sắc tới
thầy tiến sỹ Vũ Đức Lung đã hƣớng dẫn và giúp đỡ em tận tình trong quá trình hoàn
thành luận văn.
Em cũng xin cảm ơn quý Thầy Cô Trƣờng Đại học Lạc Hồng đã tận tình
truyền dạy kiến thức trong quá trình em học tập tại trƣờng, những kiến thức đó đã
giúp em rất nhiều trong việc học tập và nghiên cứu sau này.
Cuối cùng, xin gửi lời cảm ơn tới những ngƣời thân trong gia đình và bạn bè,
đồng nghiệp đã giúp đỡ và tạo điều kiện tốt trong quá trình làm luận văn.
Đồng Nai, tháng 08 năm 2014
Trân trọng
Nguyễn Thanh Phong

LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt đƣợc trong luận văn là sản phẩm của riêng cá
nhân, là kết quả của quá trình học tập và nghiên cứu khoa học độc lập. Trong toàn
bộ nội dung của luận văn, những điều đƣợc trình bày hoặc là của cá nhân hoặc là
đƣợc tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ
rõ ràng và đƣợc trích dẫn hợp pháp.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy
định cho lời cam đoan của mình.
Đồng Nai, tháng 08 năm 2014
Tác giả
Nguyễn Thanh Phong

MỤC LỤC
LỜI CẢM ƠN
LỜI CAM ĐOAN
MỤC LỤC
KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT
DANH SÁCH CÁC BẢNG BIỂU, HÌNH VẼ
MỞ ĐẦU.....................................................................................................................1
Lý do chọn đề tài.........................................................................................................1
Mục tiêu đề tài.............................................................................................................2
Nội dung thực hiện......................................................................................................2
Phƣơng pháp thực hiện................................................................................................3
CHƢƠNG 1. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN WEBSITE.....4
1.1 Giới thiệu.............................................................................................................4
1.2 Các loại bộ lọc WEB có nội dung khiêu dâm .....................................................4
1.2.1 Bộ lọc WEB dựa vào địa chị mạng..................................................................4
1.2.2 Bộ lọc WEB dựa vào URL ..............................................................................6
1.2.3 Bộ lọc WEB dựa vào DNS ..............................................................................9
1.2.4 Bộ lọc WEB dựa vào từ khóa ........................................................................10
1.2.5 Bộ lọc WEB dựa vào nội dung text và hình ảnh............................................10
1.3 Các công trình liên quan ..................................................................................11
CHƢƠNG 2. CÁC LÝ THUYẾT ỨNG DỤNG TRONG LUẬN VĂN .............15
2.1 Rút trích nội dung của website ..........................................................................15
2.1.1 Phân tích mã HTML ......................................................................................15
2.1.2 So sánh khung mẫu ........................................................................................16
2.1.3 Xử lý ngôn ngữ tự nhiên ................................................................................17
2.2 Phân tích nội dung thành các token..................................................................18
2.2.1 Tiền xử lý dữ liệu...........................................................................................19
2.2.2 Tách câu dựa trên Maximum Entropy ...........................................................19
2.2.3 Tách từ ...........................................................................................................21
2.2.3.1 Phƣơng pháp Maximum Matching ..............................................................25
2.2.3.2 Phƣơng pháp Transformation – based learning – TBL................................25

2.2.3.3 Mô hình tách từ bằng WFST và mạng Neural.............................................26
2.2.3.4 Phƣơng pháp tách từ tiếng việt dựa trên thống kê từ Internet và thuật giải di
truyền ...........................................................................................................28
2.2.4 Thuật toán KEA .............................................................................................29
2.2.4.1 Chọn cụm ứng viên......................................................................................31
2.2.4.2 Tính toán đặc trƣng......................................................................................33
2.2.4.3 Huấn luyện ...................................................................................................33
2.2.4.4 Rút trích những cụm từ khóa .......................................................................34
2.2.5 Thuật toán KIP...............................................................................................34
2.2.6 Nhận diện thực thể có tên...............................................................................36
2.3 Phân tích URL ..................................................................................................37
CHƢƠNG 3. GIẢI PHÁP LỌC WEBSITE KHIÊU DÂM DỰA TRÊN URL
VÀ TEXT CONTENT ............................................................................................38
3.1 Phân tích mô hình hệ thống..............................................................................38
3.2 Module xử lý dựa vào URL..............................................................................40
3.3 Module lọc theo nội dung.................................................................................40
3.3.1 Giai đoạn huấn luyện .....................................................................................41
3.3.1.1 Tiền xử lý văn bản .......................................................................................41
3.3.1.2 Trích lọc đặc trƣng.......................................................................................42
3.3.1.3 Thuật toán Naïve Bayes...............................................................................44
3.3.2 Giai đoạn phân lớp, nhận dạng ......................................................................47
CHƢƠNG 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ.................................50
4.1 Môi trƣờng thử nghiệm......................................................................................50
4.2 Giao diện chƣơng trình......................................................................................50
4.2.1 Giao diện chính ..............................................................................................50
4.2.2 Giao diện học từ lấy TOKEN phân lớp nội dung Website ............................53
4.2.3 Giao diện duyệt các TOKEN từ đơn đƣa vào danh sách TOKEN ................54
4.2.4 Giao diện duyệt các TOKEN từ ghép đƣa vào danh sách TOKEN...............54
4.2.5 Giao diện danh sách các TOKEN từ phân lớp nội dung Website.................55
4.2.6 Giao diện lấy TOKEN URL...........................................................................55
4.2.7 Giao diện danh sách các TOKEN URL để phân lớp URL của Website........56
4.3 Thu thập dữ liệu................................................................................................56

4.3.1 Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN URL ...................................56
4.3.2 Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN nội dung..............................57
4.4 Đánh giá kết quả thực nghiệm..........................................................................58
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN.............................................................60
TÀI LIỆU THAM KHẢO

KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT
Từ viết tắt Ý nghĩa
KNN K-Nearest Neighbor
LDA Latent Drichlet Allocation
LLSF Linear Least Square Fit
LRMM Left Right Maximum Matching
MM Maximum Matching
NB Naïve Bayes
pLSA Probabilistic Latent Semantic Analysis
SVM Support Vector Machine
TBL Transformation -based Learning
TF Term Frequency
WFST Weighted Finit State Transducer

DANH SÁCH CÁC HÌNH VẼ
Hình 2.1 - Hệ thống bóc tách nội dung của VietSpider ............................................16
Hình 2.2 – Mô hình bóc tách nội dung chính bằng so sánh khung mẫu...................17
Hình 2.3 – Sơ đồ thuật toán KEA .............................................................................30
Hình 3.1 – Mô hình hệ thống lọc Website có nội dung khiêu dâm ..........................39
Hình 3.2 – Quy trình huấn luyện lấy TOKEN URL .................................................40
Hình 3.3 – Quy trình huấn luyện TOKEN nội dung.................................................41
Hình 3.4 – Quy trình tách từ .....................................................................................42
Hình 3.5 – Mô hình huấn luyện từ ............................................................................44
Hình 3.6 – Mô hình giai đoạn phân lớp ....................................................................48
Hình 4.1 – Giao diện lúc khởi động bộ lọc...............................................................50
Hình 4.2 – Giao diện đăng nhập................................................................................51
Hình 4.3 – Giao diện khi duyệt một địa chỉ WEB tốt...............................................51
Hình 4.4 – Giao diện khi duyệt một địa chỉ WEB xấu .............................................52
Hình 4.5 – Giao diện danh sách địa chỉ WEB tốt, xấu .............................................52
Hình 4.6 – Giao diện chức năng hệ thống.................................................................53
Hình 4.7 – Giao diện huấn luyện từ đơn, từ ghép.....................................................53
Hình 4.8 – Giao diện duyệt các TOKEN từ đơn đƣa vào danh sách ToKEN .........54
Hình 4.9 – Giao diện duyệt các TOKEN từ ghép đƣa vào danh sách ToKEN ........54
Hình 4.10 – Giao diện duyệt TOKEN từ đơn và từ ghép .........................................55
Hình 4.11 – Giao diện huấn luyện TOKEN URL.....................................................55
Hình 4.12 – Giao diện danh sách các TOKEN URL sau huấn luyện .......................56
Hình 4.13 – Địa chỉ URL thu thập đƣợc...................................................................56
Hình 4.14 – File tốt thu thập đƣợc ............................................................................57
Hình 4.15 – File xấu thu thập đƣợc...........................................................................57
Hình 4.16 – Cơ sở dữ liệu TOKEN nội dung sau quá trình huấn luyện ..................58

DANH SÁCH CÁC BẢNG BIỂU
Bảng 1.1 – Kết quả đánh giá NET PROJECT ............................................................5
Bảng 1.2 – Một số sản phẩm lọc WEB theo URL ......................................................7
Bảng 2.1 – Xác định cụm ứng viên...........................................................................32
Bảng 3.1 – Thống kê một số từ điển thông dụng tiếng việt......................................43
Bảng 3.2 – Số liệu thống kê bảng từ điển .................................................................43
Bảng 3.3 – Ví dụ minh họa tần số xuất hiện các TOKEN ........................................46
Bảng 3.4 –Ví dụ minh họa tần số xuất hiện các TOKEN chƣa làm trơn..................47
Bảng 3.5 –Ví dụ minh họa tần số xuất hiện các TOKEN đã làm trơn......................47
Bảng 4.1 – Kết quả thực nghiệm File nội dung ........................................................59
Bảng 4.2 – Kết quả thực nghiệm URL......................................................................59

1
MỞ ĐẦU
1. Lý do chọn đề tài
Internet bắt đầu xuất hiện từ những năm thập niên 60. Tuy nhiên tại thời
điểm đó nó chỉ đƣợc sử dụng nội bộ và phục vụ chủ yếu cho quân sự. Ngày
19/11/1997 là ngày đầu tiên Việt Nam chính thức hòa vào mạng Internet toàn cầu,
sau mƣời mấy năm hoạt động Internet trở thành một thuật ngữ hầu nhƣ ai cũng biết,
một phƣơng tiện truyền thông ai ai cũng đang sử dụng, thậm chí với một số bộ phận
còn phụ thuộc hoàn toàn. Tầm ảnh huởng của Internet phát tán mạnh mẽ khi nó bắt
đầu phát huy công dụng giải trí của mình, ngƣời ta không chỉ có thể tìm tƣ liệu mà
còn xem phim, nghe nhạc, chơi game trên mạng. Hàng triệu triệu ngƣời vào mạng
mỗi ngày, nhƣng số ngƣời vào mạng để làm việc, học tập, truy cập tài liệu thì rất ít.
Với sự phát triển nhanh chóng của Internet hiện nay, đó là dấu hiệu đáng
mừng trƣớc sự phát triển của công nghệ thông tin trong một xã hội hiện đại. Nhƣng
đằng sau nó là những hệ lụy từ Internet mang lại cho con ngƣời, trong đó đặc biệt là
giới trẻ. Song song với các trò chơi trên mạng, thì việc tò mò truy cập vào các trang
có nội dung không lành mạnh để đọc truyện Sex, xem các hình ảnh khiêu dâm, xem
phim Sex cũng trở nên phổ biến và tác hại làm cho ngƣời xem muốn có hành vi
quan hệ tình dục ngay, dẫn đến tình trạng sa đà vào tệ nạn mại dâm, hiếp dâm khi
chƣa đủ tuổi vị thành niên. 1
Website khiêu dâm không chỉ ảnh hƣởng đến hành vi tình dục của giới trẻ
mà còn ảnh hƣởng đến đạo đức làm việc nơi công sở 2
. Ngoài ra, nó còn gây mất an
ninh cho máy tính cá nhân của ngƣời sử dụng và hệ thống mạng máy tính nơi cơ
quan, bởi các phần mềm độc hại. Vậy làm sao để ngăn chặn không cho ngƣời sử
dụng truy cập vào các Website có nội dung khiêu dâm là vấn đề đang đƣợc xã hội
quan tâm. Hiện nay trong nƣớc và ngoài nƣớc cũng có nhiều phần mềm đƣợc
nghiên cứu nhƣ:
Nghiên cứu trong nƣớc có thể đề cập đến một số phần mềm sau: Phần mềm
Killporn của tác giả Nguyễn Hữu Bình; Phần mềm VwebFilter (viết tắt VWF) của
Công ty Điện toán và Truyền số liệu xây dựng; Phần mềm Depraved Web Killer
1
http://vi.wikipedia.org/wiki/Internet_t%E1%BA%A1i_Vi%E1%BB%87t_Nam
2
http://baohay.vn/chuyen-de/nhung-dieu-can-biet/288247/Web-sex-dang-tro-thanh-mon-giai-
tri-o-chon-cong-so.html

2
(DWK) của Vũ Lƣơng Bằng, nhân viên công ty Điện thoại Đông, quận 10 (TP
HCM); Phần mềm MiniFireWall 4.0 (MFW) của tác giả Huỳnh Ngọc Ẩn (công tác
tại phòng Tin học - Bƣu điện tỉnh Đồng Tháp); Bộ lọc phát hiện các Website có nội
dung không lành mạnh, luận văn thạc sĩ công nghệ thông tin của Cao Nguyễn Thủy
Tiên.
Nghiên cứu ngoài nƣớc có thể kể đến một số phần mềm sau: STOP P-O-R-
N 5.5 đƣợc phát hành bởi PB Software LLC; K9 Web Protection đƣợc phát hành
bởi Blue Coat Systems; Media Detective 2.3 đƣợc phát hành bởi Tap Tap Software;
Parental Filter 3.0 đƣợc phát hành bởi NWSP Software Design; ScrubLT 3.2.2.0
đƣợc phát hành bởi CrubLT; CyberSitter đƣợc phát hành bởi Solid Oak Software ;
iShield 1.0 đƣợc phát hành bởi Guardware.
Thực tế cho thấy các phần mềm ngoài nƣớc đa phần muốn sử dụng thì phải
trả phí và thƣờng lọc hình ảnh khiêu dâm còn lọc nội dung khiêu dâm chủ yếu bằng
tiếng anh còn bằng tiếng việt thì hạn chế, còn các phần mềm trong nƣớc thì cũng
còn những hạn chế trong việc chặn từ khóa khiêu dâm thông dụng và chặn URL cụ
thể của Website. Qua đó cho thấy còn nhiều vấn đề cần phải nghiên cứu làm sáng
tỏ, làm tốt hơn và đó là cũng là lý do mà đề tài “Xây dựng bộ lọc phát hiện các
Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT” đƣợc lựa
chọn cho luận văn này.
2. Mục tiêu đề tài
Xây dựng bộ lọc WEB có thể tự động phát hiện các Website cần truy cập có
nội dung khiêu dậm dựa trên URL và TEXT CONTENT của Website.
3. Nội dung thực hiện
Thu thập các URL và TEXT CONTENT của các Website có nội dung khiêu
dâm và không khiêu dâm để tạo bộ dữ liệu các token từ đã đƣợc huấn luyện để phục
vụ cho việc phân loại các Website có nội dung khiêu dâm và không khiêu dâm.
Nghiên cứu cách khai phá URL và TEXT CONTENT của Website từ đó đề
xuất mô hình lọc các Website có nội dung khiêu dâm dựa trên URL và TEXT
CONTENT.
Cài đặt bộ lọc Website hiện thực hóa vấn đề nghiên cứu.

3
4. Phƣơng pháp thực hiện
Dùng các công cụ, phần mềm đã có trong nƣớc và ngoài nƣớc để thu thập dữ
liệu của các trang tin tức, các trang Web có nội dung khiêu dâm. Dữ liệu cần thu
thập là URL và nội dung của Website.
Để phân lớp URL của một Website cần duyệt thuộc lớp tốt hay xấu thì dựa
vào danh sách ToKenURL. Danh sách ToKenURL là các từ, cụm từ đƣợc huấn
luyện từ các URL thu thập đƣợc.
Để phân lớp nội dung của một Website cần duyệt thuộc lớp có nội dung
Khiêu dâm hay không thì dựa vào danh sách ToKen nội dung. Danh sách ToKen
nội dung này đƣợc xây dựng từ việc huấn luyện các tập dữ liệu tốt và tập dữ liệu
xấu thu thập đƣợc, tính tỉ lệ xuất hiện của các ToKen từ trên các tập dữ liệu tốt và
xấu để chọn ra các ToKen từ có trọng số cao rồi so sánh với bộ từ điển dữ liệu để
chọn ra các ToKen từ đặc trƣng dùng để phân lớp nội dung của Website.
Nghiên cứu và áp dụng các thuật toán tách câu, tách từ trong văn bản tiếng
việt, kết hợp với thuật toán Naïve Bayes để tính xác suất nội dung văn bản của
Website cần duyệt để phân lớp Website là khiêu dâm hay không khiêu dâm.

4
CHƢƠNG 1. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN
WEBSITE
1.1. Giới thiệu
Lọc trang WEB là một vấn đề không phải là mới. Làm sao để phát hiện đƣợc
các trang WEB có nội dung và hình ảnh khiêu dâm là vấn đề cần thiết. Các gia
đình có sử dụng Internet thì cha mẹ không muốn con mình tiếp xúc với các trang
WEB có nội dung và hình ảnh khiêu dâm. Hiện nay, một số quốc gia trên thế giới,
trong đó có cả Việt Nam đã và đang nghiên cứu các giải pháp ngăn chặn các trang
WEB khiêu dâm sao cho có hiệu quả, vì thế yêu cầu đặt ra là liên tục phát triển các
phần mềm phát hiện và ngăn chặn các trang WEB khiêu dâm là một biện pháp an
toàn bổ sung. Nhiều trang WEB khiêu dâm không chỉ có nội dung khiêu dâm và
hình ảnh khiêu dâm mà cón chứa cả phần mềm độc hại, phần mềm quảng cáo, phần
mềm gián điệp và Virus…
Nói chung các trang WEB và các trang WEB có thể đƣợc phân loại là WEB
khiêu dâm chủ yêu dựa trên các yếu tố nhƣ: hình ảnh khiêu dâm và nội dung khiêu
dâm. Trong phạm vi của đề tài này chỉ giới hạn phát hiện và ngăn chặn các trang
WEB có nội dung khiêu dâm dựa trên URL và TEXT CONTENT của trang WEB.
1.2. Các loại bộ lọc WEB có nội dung khiêu dâm
Lọc chặn nội dung khiêu dâm trên mạng không phải là vấn đề đơn giản, nguyên
nhân nằm ở chỗ có hàng tỷ liên kết, và thực chẳng dễ dàng chút nào để biết chắc
chắn đâu là liên kết bẩn trong khối lƣợng thông tin khổng lồ và lộn xộn nhƣ thế.
Dƣới đây là một vài cách thức thƣờng đƣợc dùng trong các bộ lọc WEB đen, WEB
khiêu dâm.
1.2.1. Bộ lọc WEB dựa vào địa chỉ mạng
 Bộ lọc dựa vào danh sách đen (Back List) và danh sách trắng (White List)
Đây là biện pháp mà hầu hết các công cụ chặn web đen áp dụng, họ xây
dựng, chia nhóm và phân loại các trang web để biết chắc chắn nội dung chủ yếu của
một tên miền nào đấy thuộc về danh sách đen hay danh sách trắng (danh sách trắng
là danh sách các website đƣợc phép truy cập, danh sách đen là danh sách những trang
cấm), điều này có thể đƣợc thực hiện bằng máy, hoặc thông qua cộng đồng Internet
đông đảo giúp sức. Nó tỏ ra khá hiệu quả, ngăn chặn hầu nhƣ 99% các trang web

5
sex phổ biến, tuy nhiên nhƣợc điểm của chƣơng trình là đôi khi bỏ sót các trang
web sex cỡ nhỏ, bởi vì các trang nhƣ thế sinh ra rất nhiều mỗi ngày, và không có
một phần mềm nào có thể thêm đầy đủ tất cả vào danh sách đen của nó đƣợc.
 Lọc qua địa chỉ IP
Đây là kỹ thuật ngăn chặn trực tiếp trên đƣờng mạng bằng các địa chỉ IP của
một website. Kỹ thuật này có thể là thiết thực trong bối cảnh các website thƣờng bị
truy cập thông qua địa chỉ IP hay nó có thể truy cập thông qua IP thay cho tên
DSN. Đa số trƣờng hợp, không đƣợc khuyến khích dùng do 3 sự kém cỏi sau:
Ngăn chặn truy cập đến một IP cũng sẽ ngăn chặn lƣu thông mạng đến những site
có host ảo trên cùng IP ngay cả khi nó có nội dung liên quan đến vấn đề cấm hay
không.
Ngăn chặn truy cập đến một IP cũng sẽ ngăn chặn lƣu thông mạng đến mỗi thành
viên của cổng thông tin nằm trên IP đó. Nó sẽ ngăn chặn một thành phần của website
không phải là một phần hay một tập các trang con.
Đó là sự thay đổi thƣờng xuyên của các website bị lọc ngay khi chủ nhân website phát
hiện ra bị lọc. Hành động này dựa trên DNS để cho phép ngƣời dùng vẫn còn truy cập đến
trang web. Bảng thống kê phía dƣới sẽ so sánh kết quả lọc của một số phần mềm theo dự án
khảosátwebsitecủadự ánNetProject.
Bảng1.1–KếtquảđánhgiácủaNetProject
Phầnmềmlọc Tỉlệkhóadùng EfectivenessRate
BizGuard 55% 10%
CyberPatrol 52% 2%
CyberSitter 46% 3%
CyberSnoop 65% 23%
NortonInternetSecủity 45% 6%
SurfMonkey 65% 11%
X-Stop 65% 4%
 Bức tường lửa (Firewall)
Firewall là một kỹ thuật đƣợc tích hợp vào hệ thống mạng để chống sự truy cập
trái phép, nhằm bảo vệ các nguồn thông tin nội bộ và hạn chế sự xâm nhập không

6
mong muốn vào hệ thống. Thông thƣờng Firewall đƣợc đặt giữa mạng bên trong
(Intranet) của một công ty, tổ chức,  vai trò chính là bảo mật thông tin, ngăn chặn sự
truy cập không mong muốn từ bên ngoài và cấm truy cập từ bên trong (Intranet) tới
một số địa chỉ nhất định trên Internet.
Ưu điểm: Đa số các các hệ thống firewall đều sử dụng bộ lọc packet. Một trong
những ƣu điểm của phƣơng pháp này là chi phí thấp vì cơ chế lọc packet đã đƣợc
bao gồm trong mỗi phần mềm router.
Hạn chế: việc định nghĩa các chế độ lọc packet là một việc phức tạp, đòi hỏi
ngƣời quản trị mạng cần có hiểu biết chi tiết về các dịch vụ Internet, các dạng
Packet header, 
1.2.2. Bộ lọc WEB dựa vào URL (Universal Resoure Locator)
 Dựa vào từ khóa của URL
Thông thƣờng các bộ lọc web nhƣ thế này sẽ có một danh sách các từ khóa
dành cho ngƣời lớn đƣợc tạo ra sẳn để nhận dạng đƣợc những địa chỉ web bị chặn.
Từ khóa URL là chuỗi con nằm trong một địa chỉ web, những URL của trang web
có chứa chuỗi con này thƣờng là những trang web có nội dung khiêu dâm.
Các trang web có nội dung khiêu dâm thƣờng dùng từ ngữ khiêu dâm, tình
dục làm tên miền cho website với mục đích gợi nhớ để ngƣời dùng dễ tìm kiếm
bằng các công cụ tiềm kiếm. Thực tế cho thấy có trang web nào mà nội dung lành
mạnh lại đặt tên miền cho website nhƣ thế. Vì vậy, những trang web có từ khóa
URL nhƣ vậy cần chặn trực tiếp ngay từ đầu mà không cần phải tìm hiểu nội dung
bên trong.
Ví dụ: các trang web này đều là web có nội dung khiêu dâm
www.sexviet.com
www.sex700.com
www.sexygirls.com
do đều chứa các từ khóa là "sex" Hoặc các trang web khiêu dâm sau đây
www.freeporns.com
www.asiaporns.com
www.childporn.com
các trang này đều chứa các từ khóa là "porn"

7
Ưuđiểm:Đơngiảnnhƣngkhátincậy.
Hạn chế: Đôi khi có một trang nào đấychẳng chứa bất kỳtừ khóa khiêu dâm nào trong
URL nhƣng bản thân trang đó lại có nội dung bẩn sẽ đƣợc chƣơng trình bỏ qua hoặc ngƣợc lại
một trang web về giáo dục giới tính lành mạnh có thể chứa từ khóa sex trong URL sẽ lại bị
chặn.
 Dựa vào URL
Đây là kỹ thuật lọc bằng cách quan sát lƣu thông web (HTTP) bằng cách
theo dõi URL và các host field bên trong các yêu cầu HTTP để nhận ra đích đến
của yêu cầu. Host field đuợc dùng riêng biệt bởi các máy chủ web hosting để nhận
ra tài nguyên nào đƣợc trả về.
Lọc web qua URL thƣờng đƣợc xếp vào loại chủ đề rộng lớn về "Content
Management". Các kỹ thuật lọc qua URL ra đời từ 2 kiểu lọc "pass-by" và "pass-
through".
Lọc theo "pass-by": xử lý trên đƣờng mạng mà không cần phải trực tiếp trong
đƣờng nối giữa ngƣời dùng và internet. Yêu cầu ban đầu đƣợc chuyển đến máy chủ
web đầu cuối. Nếu yêu cầu bị cho là không thích hợp thì bộ lọc sẽ ngăn chặn
những trang gốc từ bất cứ yêu cầu truy cập nào. Kỹ thuật này cho phép thiết bị lọc
không bao gồm bộ định hƣớng yêu cầu. Nếu thiết bị lọc bị hỏng, lƣu thông mạng
vẫn tiếp tục hoạt động một cách bình thƣờng.
Lọc theo "pass-through": gồm việc sử dụng một thiết bị trên đƣờng của tất cả
yêu cầu của ngƣời dùng. Vì thế lƣu thông mạng đi qua bộ lọc "pass-through" là
thiết bị lọc thực sự. Thƣờng bộ lọc này nằm trong các kiểu firewall, router,
application switch, proxy server, cache server.
 Tùy chọn bộ lọc URL
Điểm đặc biệt của các sản phẩm theo phƣơng pháp này cho phép ngƣời dùng
chỉ định các URL bằng cách thêm hay bớt các URL khỏi "danh sách các site xấu" (Bad
Site List) mặc dù các website nguyên thủy trong danh sách không thể bị loại bỏ. Dƣới
đây là danh sách các sản phẩm lọc web phổ biến.
Bảng 1.2 - Một số sản phẩm lọc web theo phƣơng thức URL
Sản phẩm Hãng (Công ty)
Smartfilter Secure Computing

8
Web Filter SurfControl
Web Security Symatec
Bt-WebFilter Burst Technology
CyBlock WebFilter Wavecrest Computing
Ưu điểm:
Những Website ảo không bị ảnh hƣởng: Kỹ thuật này không ảnh hƣởng đến
các máy chủ web ảo khi chúng cùng dùng một IP nhƣ những website hạn chế. Một
website bị chặn và website không bị chặn có thể chia sẻ cùng một địa chỉ IP.
Không ảnh hƣởng đối với việc thay đổi IP: Trong phần lớn tình huống, sự thay đổi IP
của website bị hạn chế sẽ không ảnh hƣởng đến phƣơng pháp này. Vì phƣơng pháp
lọc này không phụ thuộc vào địa chỉ IP. Chủ sở hữu những trang web có thể đòi bất
cứ IP nào họ muốn, nhƣng ngƣời dùng đứng sau bộ lọc không thể truy cập đƣợc.
Những Website ảo không bị ảnh hƣởng: Kỹ thuật này không ảnh hƣởng đến
các máy chủ web ảo khi chúng cùng dùng một IP nhƣ những website hạn chế. Một
website bị chặn và website không bị chặn có thể chia sẻ cùng một địa chỉ IP.
Không ảnh hƣởng đối với việc thay đổi IP: Trong phần lớn tình huống, sự
thay đổi IP của website bị hạn chế sẽ không ảnh hƣởng đến phƣơng pháp này. Vì
phƣơng pháp lọc này không phụ thuộc vào địa chỉ IP. Chủ sở hữu những trang web
có thể đòi bất cứ IP nào họ muốn, nhƣng ngƣời dùng đứng sau bộ lọc không thể
truy cập đƣợc.
Hạn chế:
 Thƣờng không thể ngăn chặn các cổng phi tiêu chuẩn:
 Những Web server làm việc với cổng tiêu chuẩn rất tốt.
 Website trên các cổng phi tiêu chuẩn thì khó khăn cho việc ngăn cấm
vì chúng yêu cầu một cấp độ cao hơn trong bộ lọc.
 Một giải pháp lọc qua URL có thể là kỹ thuật có khả năng cần thiết
cho những kết nối HTTP trên các cổng phi tiêu chuẩn
 Không làm việc với các lƣu thông bị mã hóa: vì HTTP yêu cầu sử dụng
SSL/TLS bị mã hóa. Phƣơng pháp lọc theo URL không thể đọc các hostfield. Cho
nên, bộ lọc không có hiệu quả phát hiện một tài nguyên nào trên một địa chỉ IP mà
yêu cầu thực sự định hƣớng vào.

9
Tóm lại, các server cần có bộ lọc để thực hiện loại bỏ một số trang web
không tốt, nhƣng nó có thể làm cho hệ thống chậm lại.
1.2.3. Bộ lọc WEB dựa vào DNS
Những website bị lọc sẽ hoàn toàn không thể truy cập đƣợc đến tất cả các cấu
hình sử dụng bộ lọc nameserver cho bộ phân giải tên do tất cả các bộ lọc
nameserver sẽ trả về thông tin bất hợp lệ khi yêu cầu phân giải một hostname của
website bị lọc. Nhƣ vậy không thể truy cập đến tài liệu trên của máy chủ chứa
Website. Tuy nhiên, các website không bị lọc sẽ cho phép truy cập miễn là chúng nó
có một hostname khác từ các website bị lọc. Vì tên của chúng không đƣợc hỗ trợ
thông tin bất hợp lệ bởi bộ lọc nameserver nên dữ liệu đúng sẽ trả về cho bất cứ ngƣời
dùng nào yêu cầu phân giải tên và website hiển nhiên là có thể truy cập vào đƣợc.
Ƣuđiểm:
Sử dụng đa nghi thức (multi-protocol): http, ftp, gropher và bất kỳ nghi thức
nào khác dựa trên hệ thống tên.
Không bị ảnh hƣởng bởi việc thay đổi IP: Khi thay đổi IP của một website
không ảnh hƣởng đến phƣơng pháp lọc này, đây là phƣơng pháp lọc hoàn toàn độc
lập với địa chỉ IP.
Hạnchế:
 KhônghiệuquảđốivớicácURLcóchứađịachỉIP:
 Phần lớn những địa chỉ của một website ở dạng DNS (www.lhu.edu.vn), tuy
nhiên cũng có những địa chỉ đƣợc chỉ định bằng một địa chỉ IP thay vì là
dạng DNS (http://118.69.126.40).
 Trong trƣờng hợp này nó đƣợc truy cập đến bằng địa chỉ IP mà không phải
dùng địa crhỉ DNS của nó.
 Toàn bộ web server bị chặn hoàn toàn: Kỹ thuật không cho phép việc khóa có chọn lựa các
trang còn lại trên một webserver. Vì thế, nếu một trang bị cấmlà www.exp.com/bad.htm thì
có thể tất cả các truy cập không thể truy xuất đến www.exp.com dù nó không trong danh
sáchbịkhóa.
 Ảnh hƣởng đến các subdomain: Xét về kỹthuật, một tên miền đơn nhƣ example.com trong
URL http://www.example.com đƣợc dùng truy cập đến web server. Cùng một thời điểm,
domain name có thể phục vụ nhƣ một domain cấp trên của các cổng khác nhƣ

10
host1.example.com. Trong trƣờng hợp này, những địa chỉ DNS dạng www.example.com
có thể bị phân giải sai. Ngoài ra, nó cũng làm cho bộ phân giải tên miền bị sai đối với các
miềncon.Vànócònảnhhƣởngđếncácdịchvụchạytrên mạngnhƣe-mai
1.2.4. Bộ lọc WEB dựa vào từ khóa
Tƣơng tự nhƣ cách tiếp cận dựa vào URL keyword cũng có một danh sách
các từ khóa để nhận ra những trang web bị chặn. Một trang web cấm sẽ chứa nhiều từ
khóa không hợp lệ, đây là cơ sở để nhận ra trang web bị cấm. Điều quan trọng đối
với phƣơng pháp này là ngữ nghĩa của từ khóa theo ngữ cảnh, điều này làm cho hệ
thống có những nhầm lẫn khi đƣa ra một quyết định về một trang web có đƣợc thể
hiện hay không.
Một website chuyên đề bệnh ung thƣ có thể bị khóa với lý do bài viết về "bệnh
ung thư vú", ta thấy đƣợc rằng nếu trong bài viết có đề cập quá nhiều đến từ khóa
nằm trong danh sách từ khóa chặn là "vú" thì vô tình hệ thống sẽ nhầm lẫn và khóa
trang này.
Vấn đề tiếp theo đó là các từ cố ý hay vô ý đánh vần sai, ở một số trang chứa
nội dung xấu thì ngôn từ đƣợc dùng trong trang web của nó bị thay đổi để đánh lừa hệ
thống lọc, tuy nhiên khi ngƣời sử dụng đọc thì có thể hiểu ngay đó chỉ là sai chính tả
thôi còn đối với hệ thống lọc điều đó làm ảnh hƣởng lớn đến hệ thống.
1.2.5. Bộ lọc dựa vào nội dung text và hình ảnh
Theo Stanfor project CS229 của SaiKat Sen. Để xây dựng bộ lọc dựa vào nội
dung text và hình ảnh tác giả sử dụng ba kỹ thuật chính đó là: phân tích hình ảnh,
văn bản, phân tích và xếp hạng.
 Để phân tích văn bản, tác giả tiến hành kiểm tra:
 Tiêu đề trang: nếu tiêu đề trang có chứa một từ ngƣời lớn thì trang đƣợc
phân lớp là trang ngƣời lớn.
 Từ khóa: các trang web dành cho ngƣời lớn và các trang web có chứa nội
dung gần giống trang web ngƣời lớn thì tiến hành tìm kiếm các từ khóa
của trang trong từ điển từ vựng về ngƣời lớn.
 URL: phân tích các từ trên URL thành các chuỗi con và tra cứu vào bộ từ
điển dành cho ngƣời lớn. Trong trƣờng hợp không có một từ điển trực
tuyến tốt dành cho ngƣời lớn thì tiến hành xây dựng bằng cách sử dụng
một ứng dụng tùy chỉnh và sử dụng cơ sở dữ liệu từ vựng Princeton

11
WordNet. Các tùy chỉnh ứng dụng cho phép ngƣời dùng lựa chọn một bộ
nguồn từ, kết quả đầu ra từ đồng nghĩa trong mỗi lần lặp và cho phép
ngƣời sử dụng để phân lớp các từ đồng nghĩa nhƣ ngƣời lớn, làm xám và
sạch sẽ trƣớc khi tiến bƣớc kế tiếp là lặp đi lặp lại với các từ đồng nghĩa
ngƣời lớn. Nó là điều cần thiết để phân lớp các từ đồng nghĩa trong mỗi
lần lặp đi lặp lại, nếu không thì túi từ sẽ tăng nhanh kích thƣớc đến hàng
ngàn từ với nhiều nghĩa khác nhau. Tùychỉnh ứng dụng đƣợc xem nhƣ là
một công cụ đƣợc dùng để lặp đi lặp lại cho đến khi nào không còn từ
mới. Danh sách cuối cùng bao gồm hai tập tin: adult.txt và gray.txt.
Adult.txt chứa những từ đƣợc xác nhận của ngƣời lớn thì chúng ta sẽ lọc,
gray.txt chứa những từ mà chúng tôi muốn lọc nhƣng có thể đƣợc sử dụng
ở nội dung ngƣời lớn và nội dung không dành cho ngƣời lớn. Mục đích để
bộ lọc học đƣợc số lƣợng từ thích hợp qua các lần huấn luyện. từ vựng thu
thâp đƣợc bao gồm 106 từ danh sách đen và 26 từ xám.
 Nội dung trang: theo tasc giả nội dung trang là một yếu tố quyết định quan
trọng.
 Để phân tích hình ảnh: sử dụng kỹ thuật nhận dạng hình ảnh khác nhau. Các gói
OpenCV đƣợc sử dụng để nhận dạng hình ảnh và phân lớp ML. Để xếp hạng thì
sử dụng AldultRank một thƣớc đo thứ hạng trƣơng tự nhƣ PageRank.
1.3. Các công trình liên quan
Ở Việt Nam có một số đề tài nhƣ “Nghiên cứu, phát triển hệ thống lọc nội
dung hỗ trợ quản lý và đảm bảo an toàn - an ninh thông tin trên mạng Internet - TS.
Nguyễn Viết Thế - Cục công nghệ tin học từ 01/04/2006 - 01/03/2008”. Mục tiêu
của đề tài là nghiên cứu và đề xuất giải pháp hỗ trợ công tác quản lý một cách hiệu
quả an toàn và an ninh các luồng dữ liệu vào - ra giữa Việt Nam và thế giới qua
mạng Internet nói riêng và giữa các mạng diện rộng nói chung. Phát triển các công
cụ phần mềm, thiết bị phần cứng cho phép xử lý khối lƣợng dữ liệu lớn thời gian
thực (tính toán song song, tính toán lƣới), có khả năng phát hiện và ngăn chặn thông
tin (ảnh, văn bản bằng cả tiếng Việt và tiếng Anh) có nội dung không phù hợp với
văn hoá, pháp luật Việt Nam và ảnh hƣởng xấu đến trật tự an toàn xã hội. Triển khai
và ứng dụng thử nghiệm tại cổng thông tin vào/ra tại trƣờng Đại học Công nghệ, tại

12
Bộ Công an, và cổng Internet quốc gia tại trung tâm điện toán và truyền số liệu
VDC.
“Tài liệu nghiên cứu, phân tích và đề xuất chính sách pháp lý tại Việt nam
cho vấn đề lọc nội dung thông tin trên mạng Internet”, báo cáo chuyên đề trong
khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ -ĐTCT-KC.01/06-10. Cục
Công nghệ Tin học nghiệp vụ Bộ Công An.
DWK4.1: Depraved Web Killer (DWK) do tác giả Vũ Lƣơng Bằng dự thi
chung kết cuộc thi Trí Tuệ Việt Nam năm 2004, tính đến thời điểm này phiên bản
mới nhất là v4.1 (2011) có nhiều chức năng nhƣ: ngăn chặn các trang web có nội
dung xấu (từ khóa, URL), ghi nhật ký các chƣơng trình đã đƣợc chạy trên máy, ghi
nhật ký các trang web đã đƣợc truy cập, ghi nhật ký các trang web xấu mà phần
mềm đã ngăn chặn, gửi nhật ký đến địa chỉ mail do ngƣời dùng thiết lập,
Giải pháp lọc Web REMPARO là sản phẩm của Công ty TNHH Chíp Sáng
và Ashmanov đƣợc phát triển dựa trên công nghệ trí tuệ nhân tạo đọc hiểu ngôn ngữ
tự nhiên. Remparo - giải pháp lọc web theo ngữ nghĩa, có tính năng ngăn chặn truy
cập trang web có nôi dung xấu, không phù hợp. Mỗi trang web đi qua bộ lọc
Remparo nếu có nội dung không thích hợp thuộc các chủ đề nhƣ khiêu dâm, bạo
lực, phản động chính trị sẽ bị hệ thống nhận diện và đƣa ra hành động thích hợp
nhƣ: Cho phép hay ngăn chặn trang web hoặc thực hiện những hành động khác nhƣ
cảnh báo, chuyển hƣớng truy cập tuỳ thuộc vào mong muốn của ngƣời quản lý.
Ngoài những module lọc web theo từ khoá, “key words”, theo danh mục “black
lisk”/“White list”, giải pháp lọc web Remparo còn tích hợp module lọc web theo
nội dung dựa trên công nghệ trí tuệ nhân tạo đọc hiểu ngôn ngữ tự nhiên tiếng Việt.
Bên cạnh đó, giải pháp Remparo còn có những tính năng mới nhƣ: dễ sử
dụng, không cần cài đặt phần mềm; tỷ lệ chặn 99% và có thể lọc những trang web
mới xuất hiện chƣa đƣợc cập nhật trong cơ sở dữ liệu; chặn truy cập từng trang
webpage, không chặn cả website; việc chặn lọc đƣợc thực hiện hoàn toàn ở phía nhà
mạng; có thể thiết lập hệ thống quản lý truy cập từ một trung tâm; không mất thời
gian theo dõi và kiểm soát; không làm ảnh hƣởng đến tốc độ truy cập Internet.
Đề tài luận văn thạc sĩ “Xây dựng bộ lọc phát hiện các website có nội dung
không lành mạnh” - Cao Nguyễn Thủy Tiên năm 2011 - Đại học Lạc Hồng. Mục
tiêu của luận văn tìm hiểu đặc trƣng cũng nhƣ sự phát triển của website có nội dung

13
không lành mạnh, kết hợp phân tích các hệ thống lọc web hiện có, từ đó đề xuất mô
hình có thể tự động phát hiện những trang web có nội dung không lành mạnh sử
dụng ngôn ngữ tiếng Việt bằng các kỹ thuật rút trích thông tin từ website cũng nhƣ
ứng dụng khai phá dữ liệu văn bản, đặc biệt sử dụng thuật toán Naive Bayes nhằm
xác định ngƣỡng xác suất để phân loại các website không lành mạnh. Trong luận
văn này tác giả chỉ tập trung phân lớp các website không lành mạnh thông qua nội
dung website chƣa tiến hành phân lớp URL của website nên bộ lộc xử lý chƣa
nhanh lắm.
Hiện tại, trên thế giới cũng có khá nhiều phƣơng pháp để ngăn chặn những
trang web không mong muốn nhƣng phần lớn phải am hiểu về kỹ thuật tin học (sử
dụng proxy, firewall, bộ lọc, các phần mềm diệt virut, ngăn chặn spyware,…). Điều
này cũng mang lại khó khăn cho các phụ huynh vì phần lớn là những ngƣời không
có chuyên môn sâu về lĩnh vực này. Ngoài ra các phần mềm này còn đƣợc bán với
giá khá cao và thƣờng chỉ ngăn chặn các trang web dựa vào danh sách đen và trắng
mà chƣa chú trọng vào việc phân tích tự động nội dung để ngăn chặn, trong khi các
trang web này lại liên tục thay đổi địa chỉ để vƣợt qua các danh sách này. Có thể kể
đến các sản phẩm sau:
ChildWebGuardian PRO: là một ứng dụng đƣợc thiết kế để cung cấp cho trẻ
em trải nghiệm lƣớt web an toàn. Ứng dụng này sẽ theo dõi và kiểm tra nội dung
của mỗi trang web mà ta muốn truy cập. Nếu chƣơng trình tìm thấy một số nội
dung khiêu dâm, ChildWebGuardian PRO sẽ ngay lập tức chặn xem những trang
web nhƣ vậy. Ứng dụng này bao gồm một số chức năng kiểm soát nhƣ: bộ lọc nội
dung, bộ lọc trang khiêu dâm, kiểm soát của cha mẹ, chặn URL, chặn truy cập
Internet, kiểm soát trò chơi. Mỗi một chức năng này đều hình thành một trở ngại
lớn cho những ai muốn tìm kiếm thông tin khiêu dâm trên Internet. Và trƣớc khi
con bạn nhìn thấy bất cứ trang nào, nó sẽ đƣợc kiểm tra bởi tất cả chức năng này.
Sử dụng tính năng Parental Control đƣợc tích hợp vào phiên bản Kaspersky
Internet Security 2010.
K9 web protection giúp cài đặt các ngăn chặn về thời gian truy cập và danh
sách các website cho phép hoặc cấm truy cập.
Media Detective: là một phần mềm hữu ích, giúp bạn tìm kiếm và loại bỏ
những nội dung khiêu dâm hoặc thiếu lành mạnh trên máy tính của mình bằng cách

14
ngăn chặn truy cập web "đen". Phần mềm có các tính năng nhƣ phát hiện hình ảnh
khiêu dâm, Quét từ khóa, cung cấp nhiều chế View, kiểm tra File ZIP và phần mở
rộng tập tin, Quét tài liệu Word để tìm ra những hình ảnh đƣợc nhúng
Anti-Porn (AP) là chƣơng trình phòng chống web "đen" khá tốt nhờ có
CSDL các web không lành mạnh chủ yếu bằng tiếng Anh khá đầy đủ.
Internet Lock là chƣơng trình dành cho Windows cho phép quản lý việc truy
xuất Internet, lƣớt web, chat và email bằng Password.
Net Nanny là một phần mềm đƣợc thiết kế dành cho các gia đình muốn có
một công cụ để giám sát tình hình sử dụng Internet của con cái.
SurfControl – Enterprise Threat Protecion: đây là phần mềm của hãng
SurfControl, phần mềm này thiết kế theo cách tiếp cận lọc web và ngăn chặn từ
proxy qua URL và từ khóa, có khoảng 20 cách ngăn chặn
Internet Filter – Web Filters: do hãng iPrism Internet Filters & Web Filters
phát triển, là phần mềm thực hiện giám sát và ngăn chặn. Phần mềm này đƣợc
quảng cáo là cùng kỹ thuật lọc web động kiểm soát nội dung trang web ngay từ ở
ngõ vào. Tuy nhiên, theo hƣớng dẫn quản trị của nhà sản xuất thì phần mềm này
cũng có bóng dáng của kỹ thuật dùng phƣơng pháp lọc chặn từ khóa.
FamilyWall: là phần mềm bức tƣờng lửa chạy thƣờng trú trên máy tính của
ngƣời sử dụng. Chức năng chủ yếu của FamilyWall là ngăn chặn việc truy cập các
Website có nội dung xấu trên mạng Internet, bao gồm các lớp kiểm soát chính sau:
các từ khóa có nội dung xấu, nội dung các trang Web, danh sách các Website xấu đã
đƣợc phát hiện, …
Nói chung những phần mềm hay công cụ trên thực hiện tốt các chức năng
chặn các trang web không mong muốn dƣới dạng danh sách đen, danh sách trắng, từ
khóa tiếng Anh. Nhƣng hầu hết các phần mềm này không có cơ chế tự học, tự cải
thiện để thích nghi với các thay đổi hay những dữ liệu mới thêm vào của các trang
web không mong muốn và hầu hết phát triển cho ngăn chặn các trang web tiếng
Anh hơn là tiếng Việt.

15
CHƢƠNG 2. CÁC LÝ THUYẾT
ỨNG DỤNG TRONG LUẬN VĂN
2.1. Rút trích nội dung của website
Việc rút trích nội dung trên web thƣờng đƣợc thực hiện bằng cách sử dụng
các crawler hay wrapper. Một wrapper đƣợc xem nhƣ là một thủ tục đƣợc thiết kế
để có thể rút trích đƣợc những nội dung cần quan tâm của một nguồn thông tin nào
đó. Đã có nhiều công trình nghiên cứu khác nhau trên thế giới sử dụng nhiều
phƣơng pháp tạo wrapper khác nhau để thực hiện rút trích thông tin trên web. Các
phƣơng pháp này bao gồm:
+ Phân tích mã HTML
+ So sánh khung mẫu
+ Xử lí ngôn ngữ tự nhiên
Cũng giống nhƣ Google News, hệ thống khai thác và tổng hợp nội dung có
nhiệm vụ khai thác, tổng hợp, lƣu trữ rồi phát hành lại tới ngƣời dùng. Wrapper
nhận cấu hình đầu vào của một website (tin tức, nhật ký trực tuyến, ...) tiến hành
bóc tách, tổng hợp chủ đề liên quan, lƣu trữ trong database và phát hành lại tới
ngƣời đầu cuối. Nội dung đƣợc bóc tách toàn vẹn, sạch sẽ và đƣợc tổng hợp từ
nhiều nguồn khác nhau giúp ngƣời đọc có thể theo dõi, kiểm soát, tìm kiếm, biên
soạn, lƣu trữ, xuất bản,...
Khó khăn của bài toán là không phải toàn bộ nội dung của trang web đều cần
thiết. Nếu chỉ đơn thuần loại các chuỗi script HTML thì nội dung lọc đƣợc sẽ rất
nhiều lỗi rác không cần thiết. Ví dụ: phần thông tin quảng cáo, tin mới cập nhật, nội
dung tin ngắn, menu... những nội dung nhƣ thế này thƣờng cần phải bỏ qua trong
quá trình bóc tách nội dung chính của trang web
2.1.1. Phân tích mã HTML
Hiện nay, VietSpider3
của tác giả Nhữ Đình Thuần là một phần mềm bóc
tách đúng nghĩa, chúng truy xuất trực tiếp vào nội dung toàn diện rồi tiến hành bóc
tách. Sau đó những đặc tả dữ liệu (meta data) đƣợc xây dựng tự động trên nền nội
3
http://nhuthuan.blogspot.com/2006/11/s-lc-v-k-thut-trong-vietspider-3.html

16
dung đã bóc tách. Sau quy trình khai thác, nội dung sẽ trở thành độc lập với website
nguồn, đƣợc lƣu trữ và tái sử dụng cho những mục đích khác nhau.
Hình 2.1: Hệ thống bóc tách nội dung của VietSpider
Hệ thống của tác giả Nhữ Đình Thuần cũng đã cài đặt mô hình khai phá dữ
liệu cho phép tổng hợp những nội dung liên quan. Xây dựng mô hình topic tracking
cho phép theo dõi các sự kiện đang diễn ra theo tuần tự thời gian. Mô hình thuật
toán đƣợc cài đặt là LOR (Linked Object Representation) với sự hỗ trợ của kỹ thuật
Stopping trong phân tách nội dung. Giải pháp đánh chỉ mục (indexing) và tìm kiếm
(searching) đƣợc sửa đổi và cải tiến từ một giải pháp nguồn mở nổi tiếng của
Apache là Lucene Search.
Tuy nhiên, hạn chế của chƣơng trình là cần phải xác định đƣờng dẫn đến
vùng nội dung chính trƣớc khi bóc tách đối với mỗi domain. Nhƣ thế sẽ khó khăn
nếu hệ thống khi gặp phải một trang web mới hoàn toàn.
2.1.2. So sánh khung mẫu
Phƣơng pháp rút trích thông tin bằng cách so trùng hai trang web đƣợc xây
dựng trên nền tảng nhận dạng mẫu đƣợc tác giả Trang Nhật Quang thực hiện trong
việc rút trích nội dung nhằm cung cấp tin tức trên trang web hành chính. Phƣơng
pháp này cho phép so khớp trang web cần rút trích với một trang web mẫu để xác
định khung trình bày chung cho cả hai trang web cần rút trích, từ đó đi đến rút trích
ra nội dung nằm trong phần đƣợc xác định chứa nội dung chính trên trang mẫu.

17
(a) (b) (c)
Hình 2.2: Mô hình bóc tách nội dung chính bằng so sánh khung mẫu
(a) Trang web cần rút nội dung chính
(b) Trang web khung mẫu (đƣợc xác định trƣớc)
(c) Nội dung chính sau khi so khớp và rút đƣợc
Phƣơng pháp này không đòi hỏi ngƣời sử dụng phải biết về ngôn ngữ xây
dựng wrapper hay phải thay đổi wrapper khi cách trình bày thay đổi do trang web
mẫu có thể lấy trực tiếp từ trang chủ và có cùng cách trình bày với trang cần rút
trích. Tuy nhiên, đối với mỗi domain, cần phải xác định đƣợc một trang web làm
mẫu cho những trang khác. Đây cũng là một hạn chế trong quá trình tự động hóa
xác định nội dung chính của web.
2.1.3. Xử lý ngôn ngữ tự nhiên
Đây là phƣơng pháp sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên đƣợc áp
dụng cho những tài liệu mà thông tin trên đó thƣờng không có một cấu trúc nhất
định (nhƣ truyện). Các kỹ thuật này xem xét sự ràng buộc về mặt cú pháp và ngữ
nghĩa để nhận dạng ra các thông tin liên quan và rút trích ra thông tin cần thiết cho
các bƣớc xử lý nào đó. Các công cụ sử dụng phƣơng pháp này thích hợp cho việc
rút trích thông tin trên những trang web có chứa những đoạn văn tuân theo quy luật
văn phạm. Một số công cụ sử dụng phƣơng pháp xử lý ngôn ngữ tự nhiên trong việc
bóc tách nội dung nhƣ: WHISK hay RAPIER.
Đặc trƣng của phƣơng pháp này còn phụ thuộc vào ngôn ngữ trên trang web
cần đƣợc bóc tách nội dung. Đối với tiếng Việt có đề tài “Rút trích nội dung chính

18
trang web dựa vào ngữ cảnh của trang web” của tác giả Hồ Anh Thƣ4
. Đề tài tiến
hành xác định nội dung chính của trang web dựa vào ngữ cảnh của nội dung, sau đó
tiến hành rút trích bản tóm tắt của nội dung dựa trên phƣơng pháp chọn câu trội.
Việc xác định nội dung chính đƣợc thực hiện qua các bƣớc:
 Loại bỏ thông tin định dạng
 Tách vùng nội dung dựa vào cấu trúc, mà cụ thể là sử dụng tag TABLE để
tách vùng văn bản.
 Xác định mức độ liên quan về mặt nội dung để ghép nối các vùng kế cận với
nhau.
 Chọn vùng văn bản có kích thƣớc lớn nhất để xử lý tiếp
Tuy nhiên phƣơng pháp này có một số nhƣợc điểm sau:
 Tùy theo mức độ xử lý mà quá trình bóc tách phụ thuộc nhiều hoặc ít vào
ngôn ngữ xử lý.
 Phƣơng pháp dựa vào độ đo tƣơng tự giữa các vùng để ghép nối từ đó xác
định nội dung chính. Những nếu các nội dung chính đƣợc chia trên nhiều
table với các thông tin ít liên quan đến nhau thì sẽ khó khăn trong việc mở
rộng và xác định vùng nội dung chính chứa tất cả chúng.
 Trƣờng hợp thông tin trong một vùng (table) quá ít, sẽ ảnh hƣởng đến quá
trình tính tƣơng đồng và mở rộng vùng nội dung chính.
2.2. Phân tích nội dung thành các token
Token đƣợc dịch sang tiếng việt là “dấu hiệu” hay “biểu hiện”. Khi rút trích
đƣợc nội dung từ một trang WEB việc phân loại nội dung của trang web đó có
thuộc web khiêu dâm hay không thì phải tiến hành tiền xử lý dữ liệu, tách câu, tách
từ…
2.2.1. Tiền xử lý dữ liệu
Thông thƣờng các bƣớc tiền xử lý văn bản sẽ có trình tự sau:
 Rút trích nội dung văn bản nhƣ lấy nội dung từ các trang web cần xử lý để
loại bỏ các thẻ (tag) của html rồi rút trích nội dung của trang web.
4
http://vietnam.usembassy.gov/educational_exchange.html

19
 Tách ngữ: ứng với mỗi văn bản đã rút trích nội dung, ta tiến hành loại bỏ các
ký hiệu, các chữ số không cần thiết, phân tích văn bản thành các ngữ phân
cách bởi dấu câu.
 Tách từ, trong đó bƣớc tách từ có thể nói là rất quan trọng, ảnh hƣởng đến
kết quả phân loại văn bản.
 Loại bỏ Stopword (những từ xuất hiện hầu hết trong các văn bản, không có ý
nghĩa trong phân loại văn bản): bằng cách sử dụng một danh sách các từ
dừng thƣờng là file lƣu trữ các Stopword luôn gặp phải trong phân loại văn
bản hoặc bằng cách thống kê từ chính trong tập huấn luyện.
Mục đích của bƣớc này là xử lý tƣơng đối sạch dữ liệu đọc vào để các bƣớc
sau sẽ xử lý tốt hơn, do đó công việc của bƣớc này sẽ chỉ là lấy dữ liệu từ các
Webiste ghi dữ liệu vào file text thành chuỗi ký tự thuần túy (text) do đó nó sẽ có
yêu cầu nhƣ sau:
 Loại bỏ các dữ liệu là loại bỏ các thẻ tag định dạng, các link liên kết, các link
hình ảnh.
 Loại bỏ các khoảng trắng nhiều hơn 1 khoảng trắng.
 Các dấu xuống dòng.
 Cách dòng trống.
 Các ký tự lạ.
2.2.2. Tách câu dựa trên Maximum Entropy
Phuong H.L. và Vinh H.T. [4] mô hình hóa bài toán tách câu dƣới dạng bài
toán phân lớp trên Maximum Entropy. Với mỗi chuỗi ký tự có thể là điểm phân
cách câu (".", "?", hay "!"), ƣớc lƣợng xác xuất đồng thời của ký tự đó cùng với ngữ
cảnh xung quanh (biểu diễn bởi biến ngẫu nhiên c) và biến ngẫu nhiên thể hiện đó có
thực sự là điểm phân tách câu hay không (b in {no, yes}). Xác xuất mô hình đƣợc
định nghĩa nhƣ sau:
Ở đây: j là các tham số chƣa biết của mô hình, mỗi aj tƣơng ứng với một hàm đặc trƣng
fj. Gọi B = {no, yes} là tập các lớp và C là tập của các ngữ cảnh. Các đặc trƣng là các
hàm nhị phân fj: B x C {0, 1} dùng để mã hóa thông tin cần thiết. Xác suất để quan sát

20
đƣợc điểm phân tách câu trong ngữ cảnh c đƣợc đặc trƣng bởi xác xuất p(yes, c).
Tham số j đƣợc chọn là giá trị làm cực đại hàm likehook của dữ liệu huấn luyện với các
thuật toán GIS và IIS
Để phân lớp một ký tự tách câu tiềm năng vào một trong hai lớp {yes, no} - lớp yes
nghĩa là đó thực sự là một ký tự phân tách câu, còn no thì là ngƣợc lại, dựa vào luật
phân lớp nhƣ sau
p(yes|c) = p(yes,c)/p(c) = p (yes,c)/(p(yes,c) + p(no,c))
Ở đây c là ngữ cảnh xung quanh ký tự tách câu tiềm năng đó và bao gồm cả ký tự
đang xem xét. Sau đây là những lựa chọn hàm tiềm năng fj để phân tách câu trong
tiếng Việt.
Lựa chọn đặc trƣng
Các đặc trƣng trong Maximum Entropy mã hóa các thông tin hữu ích cho bài
toán tách câu. Nếu đặc trƣng xuất hiện trong tập đặc trƣng, trọng số tƣơng ứng của nó
dùng để hỗ trợ cho tính toán xác xuất p(b|c).
Các ký tự tách câu tiềm năng đƣợc xác định bằng cách duyệt qua văn bản, xác định
các chuỗi ký tự đƣợc phân cách bởi dấu cách (còn gọi là token) và chứa một trong
các ký tự ".", "?", hay "!". Thông tin về token và thông tin ngữ cảnh về token liền trái,
phải của token hiện tại đƣợc xác định xác xuất phần lớn.
Gọi các token chứa các ký tự kết thúc câu tiềm năng là "ứng viên". Phần ký tự đi
trƣớc ký tự kết thúc câu tiềm năng đƣợc gọi là "tiền tố", phần đi sau gọi là "hậu tố". Vị
trí của ký tự kết thúc câu tiềm năng cũng đƣợc mô tả trong tập đặc trƣng. Tập các
ngữ cảnh đƣợc xem xét từ chuỗi ký tự đƣợc mô tả nhƣ dƣới đây
1. Có/ không có 1 ký tự trống trƣớc ký tự kết thúc câu tiềm năng.
2. Có/ không có 1 ký tự trắng sau ký tự kết thúc câu tiềm năng.
3. Ký tự kết thúc câu tiềm năng.
4. Đặc trƣng tiền tố.
5. Độ dài tiền tố nếu nó có độ dài lớn hơn 0.
6. Ký tự đầu tiên của tiền tố là ký tự.
7. Tiền tố nằm trong danh sách các từ viết tắt.
8. Đặc trƣng hậu tố.
9. Token đi trƣớc token hiện tại.

21
10.Ký tự đầu tiên của token liền trƣớc viết hoa/ không viết hoa.
11.Token liền trƣớc nằm trong danh sách các từ viết tắt.
12.Token liền sau.
13.Token ứng viên đƣợc viết hoa/ không viết hoa.
Từ những ngữ cảnh trên, có thể rút ra tập ngữ cảnh từ tập dữ liệu (tập C). Tập
ngữ cảnh cùng với nhãn từ dữ liệu tạo ra một tập đặc trƣng tƣơng ứng. Xét ví dụ
sau để làm rõ mối quan hệ giữa ngữ cảnh, đặc trƣng:
"Những hacker máy tính sẽ có cơ hội chiếm giải thưởng trị giá 10.000 USD và
10.000 đola Singapore (5.882 USD) trong một cuộc tranh tài quốc tế mang tên
"Hackers Zone" được tổ chức vào ngày 13/5/1999 tại Singapore."
Xem xét ký tự kết thúc câu tiềm năng "." Trong token "10.000 USD", từ vị trí này
ta có thể rút ra một số ngữ cảnh sau:
1. Không có ký tự trắng trƣớc ký tự ứng viên.
2. Không có ký tự trắng sau ký tự ứng viên.
3. Ký tự ứng viên là "."
4. Tiền tố: 10
Từ dữ liệu học này, có thể rút trích ra các đặc trƣng nhƣ ví dụ dƣới đây:
f{không có ký tự trắng trước ứng viên, no} = 1. Ý nghĩa của đặc trƣng này là
phát biểu: "token không có ký tự trắng trước ứng viên và nhãn là no" là đúng (đặc
trƣng nhận giá trị 1).
Sau khi ƣớc lƣợng trọng số đặc trƣng ta dựa vào các tham số đó để tính giá trị
p(yes|c). Nếu giá trị này >50%, nhãn tƣơng ứng với ký tự ứng viên đƣợc ghi nhận là
"yes" hay ký tự ứng viên thực sự là ký tự phân tách câu.
2.2.3. Tách từ
Tách từ là một quá trình xác định các từ đơn, từ ghép… có trong câu qua
việc xử lý để xác định ranh giới của các từ trong câu văn. Đối với xử lý ngôn ngữ,
để có thể xác định cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu,
yêu cầu nhất thiết đặt ra là phải xác định đƣợc đâu là từ trong câu. Vấn đề này
tƣởng chừng đơn giản với con ngƣời nhƣng đối với máy tính, đây là bài toán rất khó
giải quyết. Đối với tiếng Anh, các kết quả trong lĩnh vực này rất khả quan vì đặc
điểm ngôn ngữ tiếng Anh là một ngôn ngữ phổ thông trên Internet và các ngôn ngữ

22
tƣơng tự là các từ có nghĩa cách nhau bằng một khoảng trắng, do vậy việc tách từ
trở nên rất đơn giản. Trong khi đối với tiếng Việt, ranh giới từ không đƣợc xác định
mặc định là khoảng trắng mà tùy thuộc vào ngữ cảnh dùng câu tiếng Việt. Ví dụ:
các từ trong tiếng Anh là “book”, “cat” thì trong tiếng Việt là “quyển sách”, “con
mèo”, ví dụ “du dƣơng’ nếu cắt bằng khoảng trắng thì ra các từ đơn vô nghĩa không
biểu hiện nghĩa ban đầu của từ ghép. Nhƣ vậy việc xác định từ có nghĩa bằng
khoảng trắng để có một đơn vị từ (term) phục vụ cho mục đích tìm kiếm đối với
tiếng Việt là không có giá trị, các công trình nghiên cứu về phân loại văn bản gần
đây đã có một số kết quả ban đầu nhƣng vẫn còn nhiều hạn chế. Nguyên nhân là
ngay ở bƣớc đầu tiên, chúng ta đã gặp khó khăn trong việc xử lý văn bản để rút ra
tần số xuất hiện của từ. Trong khi đó, để phân loại văn bản thì có thể nói bƣớc đầu
tiên là quan trọng nhất bởi vì nếu ở bƣớc tách từ đã sai thì việc phân loại hầu nhƣ
không thể thành công đƣợc. Phần lớn các phƣơng pháp tách từ tiếng Việt đều dựa
trên tập dữ liệu huấn luyện và từ điển trong khi hiện nay chƣa có từ điển hay tập dữ
liệu huấn luyện tiếng Việt đƣợc gán nhãn đủ lớn phục vụ việc này. Cũng có các
công trình nghiên cứu về việc tách từ cho tiếng Việt nhƣ vntokenizer của tác giả Lê
Hồng Phƣơng nhƣng do tính chất đa nghĩa của câu tiếng Việt nên không phải đoạn
văn bản nào cũng có thể tách từ một cách chuẩn xác, ví dụ cụm từ “con ngựa đá con
ngựa đá” trong từng hoàn cảnh có ý nghĩa khác nhau.
 Các hƣớng tiếp cận dựa trên ký tự (dựa trên “tiếng” trong tiếng Việt):
Hƣớng tiếp cận này đơn thuần rút trích ra một số lƣợng nhất định các tiếng
trong văn bản nhƣ rút trích từ 1 ký tự (unigram) hay nhiều ký tự (n-gram) và cũng
mang lại một số kết qủa nhất định đƣợc minh chứng thông qua một số công trình
nghiên cứu đã đƣợc công bố nhƣ của tác giả Lê An Hà [14] năm 2003, xây dựng tập
ngữ liệu thô 10MB bằng cách sử dụng phƣơng pháp qui hoạch động để cực đại hóa
xác suất xuất hiện của các ngữ của các phân đọan đƣợc phân cách bởi các ký tự
phân cách, với mỗi câu, sẽ xác định cách tách từ hợp lý nhất.
Một phƣơng pháp khác là tách tiếng Việt dựa trên thống kê từ Internet và
thuật giải di truyền – IGATEC (Internet and Genetics Algorithm based Text
Categorization for ngữ, cấu trúc khác nhau.Documents in Vietnamese) do tác giả
H.Nguyễn [13] đề xuất năm 2005 làm theo hƣớng tiếp cận mới thay vì sử dụng ngữ
liệu thô công trình tiếp cận theo hƣớng xem Internet nhƣ một kho ngữ liệu khổng lồ,

23
sau đó tiến hành thống kê và sử dụng thuật giải di truyền để tìm cách tách từ tối ƣu
nhất, điểm mới của hƣớng tiếp cận này là thay vì phải sử dụng ngữ liệu huấn luyện
đã đƣợc gán nhãn hay lexicon vốn chƣa có sẵn cho tiếng Việt, tác giả đã sử dụng
thông tin thống kê rút trích trực tiếp từ search engine và dùng giải thuật di truyền để
xác định những cách tách từ hợp lý nhất đối với văn bản tiếng Việt cho trƣớc, điểm
khác biệt của thuật toán là kết hợp giải thuật di truyền với việc trích xuất thông tin
thống kê từ Internet thông qua một công cụ tìm kiếm thay vì lấy từ tập dữ liệu nhƣ
các phƣơng pháp khác. Giải thuật di truyền cho phép xây dựng phƣơng pháp tìm
kiếm song song (tìm kiếm tiến hóa) trên quần thể mà trong đó mỗi cá thể tƣơng ứng
với một cách tách từ cho câu đang xét. Hàm thích nghi sẽ đánh giá độ thích nghi
của các tài liệu thống kê, rút trích từ Internet, thông tin rút trích bao gồm tần số các
tài liệu và thông tin tƣơng quan giữa các nhóm từ trong tài liệu. Dựa vào nguyên lý
tiến hóa và giải thuật di truyền thích hợp cho việc xác định xấp xỉ các lời giải tối ƣu
hóa toàn cục trong không gian tìm kiếm rất lớn thay vì các lời giải tối ƣu cục bộ.
Giải thuật di truyền sẽ tiến hóa một quần thể qua nhiều thế hệ nhằm tối ƣu hóa toàn
cục thông quá quá trình chọn lọc, lai, biến dị và tái sinh. Chất lƣợng của mỗi cá thể
trong quần thể đƣợc xác định bằng hàm thích nghi và qua mỗi thế hệ, chúng ta sẽ
chọn lại N cá thể tốt nhất sau khi thực hiện quá trình lai, biến dị và tái sinh. Các kết
quả thực nghiệm của tác giả Nguyễn Thanh Hùng [6] trong việc tìm hiểu hƣớng tiếp
cận mới ứng dụng giải thuật di truyền và thống kê Internet đạt đƣợc những kết quả
khả quan trong việc tách từ và phân loại văn bản tiếng Việt với độ đo micro-
averaging F1 (Yang) đạt trên 90%.
Khi so sánh kết qủa của tác giả Lê An Hà [14] và H.Nguyễn [13] thì thấy
công trình của H.Nguyễn cho đƣợc kết qủa tốt hơn khi tiến hành tách từ, tuy nhiên
do tốc độ xử lý của giải thuật nên thời gian xử lý lâu hơn. Ƣu điểm nổi bật của
hƣớng tiếp cận dựa trên nhiều ký tự là tính đơn giản, dễ ứng dụng, ngoài ra còn có
thuận lợi là ít tốn chi phí cho thao tác tạo chỉ mục và xử lý nhiều câu truy vấn. Qua
nhiều công trình nghiên cứu của các tác giả đã đƣợc công bố, hƣớng tiếp cận tách từ
dựa trên nhiều ký tự, cụ thể là cách tách từ hai ký tự đƣợc cho là sự lựa chọn thích
hợp. Tuy nhiên, không gian tìm kiếm sẽ rất lớn do có nhiều cách tổ hợp các tiếng
thành từ.
 Các hƣớng tiếp cận dựa trên “từ”:

24
Mục tiêu là tách đƣợc các từ hoàn chỉnh trong câu, hƣớng tiếp cận này đƣợc
chia thành 3 nhóm
+ Hƣớng tiếp cận dựa trên thống kê: Các giải pháp theo hƣớng tiếp cận dựa
vào thống kê cần phải dựa vào thông tin thống kê nhƣ term, từ hay tần số ký tự, hay
xác suất cùng xuất hiện trong một tập dữ liệu cơ sở. Ƣu điểm của hƣớng tiếp cận
này tỏ ra linh hoạt và hữu dụng trong nhiều lĩnh vực khác nhau. Tuy nhiên, tính
hiệu quả của các giải pháp loại này chủ yếu dựa vào ngữ liệu huấn luyện cụ thể
đƣợc sử dụng. Đáng tiếc đây lại là vấn đề khó khăn đối với bài toán tách từ tiếng
Việt nhƣ đã trình bày ở phần trên. Theo tác giả Đinh Điền [12] đã xây dựng ngữ
liệu huấn luyện riêng (khoảng 10MB) dựa vào các tài nguyên, tin tức và sách điện
tử trên Internet. Dĩ nhiên là bộ ngữ liệu này khá nhỏ và không toàn diện, không
rộng để bao gồm đủ các lĩnh vực, chủ đề khác nhau.
+ Hƣớng tiếp cận dựa trên từ điển: Ý tƣởng của hƣớng tiếp cận này là những
cụm từ đƣợc tách ra từ văn bản phải đƣợc so khớp với các từ trong từ điển. Do đó
trong hƣớng tiếp cận này đòi hỏi từ điển riêng cho từng lĩnh vực quan tâm. Từ điển
thành phần chỉ chứa các thành phần của từ và ngữ nhƣ hình vị và các từ đơn giản.
Hƣớng tiếp cận theo từ điển vẫn còn một số hạn chế trong việc tách từ vì thực hiện
hoàn toàn dựa vào từ điển. Nếu nhƣ thực hiện thao tác tách từ bằng cách sử dụng từ
điển hoàn chỉnh thì trong thực tế việc xây dựng một bộ từ điển hoàn chỉnh là khó
thực hiện vì đòi hỏi nhiều thời gian và công sức. Nếu tiếp cận theo hƣớng sử dụng
từ điển thành phần thì sẽ giảm nhẹ hạn chế, nhƣng khó khăn khi xây dựng từ điển vì
khi đó sẽ sử dụng các hình vị từ, các từ đơn giản và các từ khác để hình thành nên
từ, cụm từ hoàn chỉnh. Việc xây dựng từ điển các từ và ngữ tiếng Việt hoàn chỉnh là
khó khả thi.
+ Hƣớng tiếp cận theo Hybrid: Hƣớng tiếp cận lai này là sự kết hợp hai
hƣớng dựa trên thống kê và dựa trên từ điển để thừa hƣởng đƣợc các ƣu điểm của
nhiều kỹ thuật và các hƣớng tiếp cận khác nhau nhằm nâng cao kết qủa. Tuy nhiên
hƣớng tiếp cận Hybrid đòi hỏi có bộ lexicon tốt hay ngữ liệu huấn luyện đủ lớn và
đáng tin cậy lại nhƣng sẽ mất nhiều thời gian xử lý, bộ nhớ lƣu trữ, đòi hỏi nhiều
chi phí.
 Một số phƣơng pháp tách từ Tiếng Việt đƣợc sử dụng hiện nay

25
2.2.3.1. Phƣơng pháp Maximum Matching: Forward / Backward
Phƣơng pháp so khớp cực đại (Maximum Matching - MM) hay còn gọi là
LRMM - Left Right Maximum Matching, đƣợc trình bày bởi Chih-Hao Tsai [11]
năm 2000. Phƣơng pháp này sẽ duyệt một ngữ hoặc câu từ trái sang phải và chọn từ
có nhiều âm tiết nhất có mặt trong từ điển và cứ thực hiện lặp lại nhƣ vậy cho đến
hết câu.
Dạng đơn giản của phƣơng pháp dùng để giải quyết nhập nhằng từ đơn. Giả
sử chúng ta có một chuỗi ký tự C1, C2,…, Cn. Chúng ta sẽ áp dụng phƣơng pháp từ
đầu chuỗi. Đầu tiên kiểm tra xem C1 có phải là từ hay không, sau đó kiểm tra xem
C1C2 có phải là từ hay không. Tiếp tục thực hiện nhƣ thế cho đến khi tìm đƣợc từ
dài nhất.
Dạng phức tạp: Quy tắc của dạng này là phân đoạn từ. Thông thƣờng ngƣời
ta chọn phân đoạn ba từ có chiều dài tối đa. Thuật toán bắt đầu từ dạng đơn giản, cụ
thể là nếu phát hiện ra những cách tách từ gây nhập nhằng, nhƣ ở ví dụ trên, giả sử
C1 là từ và C1C2 cũng là một từ, khi đó chúng ta kiểm tra ký tự kế tiếp trong chuỗi
C1, C2 , ….. , Cn để tìm tất cả các đoạn ba từ có bắt đầu với C1 hoặc C1C2.
Giả sử chúng ta có đƣợc các đoạn sau:
- C1C2 C3C4
-C1C2 C3C4 C5
-C1C2 C3C4 C5C6
Khi đó chuỗi dài nhất sẽ là chuỗi thứ ba. Do đó từ đầu tiên của chuỗi thứ ba
(C1C2) sẽ đƣợc chọn. Thực hiện các bƣớc cho đến khi đƣợc chuỗi từ hoành chỉnh.
Ƣu điểm của phƣơng pháp này thực hiện tách từ đơn giản, nhanh và chỉ cần
dựa vào từ điển để thực hiện. Tuy nhiên, khuyết điểm của phƣơng pháp này cũng
chính là từ điển, vì độ chính xác khi thực hiện tách từ phụ thuộc hoàn toàn vào tính
đủ và chính xác của từ điển.
2.2.3.2. Phƣơng pháp Transformation – based Learning – TBL:
Phƣơng pháp TBL (Transformation-Based Learning) còn gọi là phƣơng pháp
học cải tiến, đƣợc Eric Brill giới thiệu lần đầu vào năm 1992. Ý tƣởng của phƣơng
pháp này áp dụng cho bài toán phân đoạn nhƣ sau: đầu tiên gọi văn bản chƣa đƣợc
phân đoạn là D1 sẽ khởi tạo các xử lý cho chƣơng trình phân đoạn ban đầu P1.
Chƣơng trình P1 có độ phức tạp tùy chọn, có thể chỉ là chú thích văn bản bằng cấu

26
trúc ngẫu nhiên, hoặc phúc tạp hơn là phân đoạn văn bản một cách thủ công. Sau
khi qua chƣơng trình P1, ta đƣợc văn bản D2 đã đƣợc phân đoạn. Văn bản D2 đƣợc
so sánh với văn bản đã đƣợc phân đoạn trƣớc một cách chính xác là D3. Chƣơng
trình P2 sẽ thực hiện học từng phép chuyển đổi (transformation) để khi áp dụng thì
D2 sẽ giống với văn bản chuẩn D3 hơn. Quá trình học đƣợc lặp đi lặp lại đến khi
không còn phép chuyển đổi nào tốt hơn nữa và kết quả sẽ thu đƣợc bộ luật R dùng
cho phân đoạn.
Có thể hiểu cách tiếp cận này dựa trên tập ngữ liệu đã đánh dấu, hệ thống có
thể nhận biết ranh giới giữa các từ để việc tách từ chính xác với phƣơng pháp này sẽ
cho máy học các câu mẫu trong tập ngữ liệu đã đƣợc đánh dấu ranh giới giữa các từ
đúng. Ƣu điểm của phƣơng pháp này là đơn giản vì chỉ cần cho máy học các tập câu
mẫu và sau đó máy sẽ tự rút ra qui luật của ngôn ngữ để từ đó sẽ áp dụng chính xác
khi có những câu đúng dựa theo luật mà máy đã rút ra. Tuy nhiên nhƣợc điểm là
mất rất nhiều thời gian học và tốn nhiều không gian bộ nhớ do nó phải sinh ra các
luật trung gian trong quá trình học. Để tách từ đƣợc chính xác trong mọi trƣờng hợp
thì đòi hỏi phải có một tập ngữ liệu tiếng Việt đầy đủ và phải qua thời gian huấn
luyện lâu để có thể rút ra các luật đầy đủ.
2.2.3.3. Mô hình tách từ bằng WFST và mạng Neural
Mô hình mạng chuyển dịch trạng thái hữu hạn có trọng số WFST– Weighted
Finit State Transducer, áp dụng WFST với trọng số là xác suất xuất hiện của mỗi từ
trong kho ngữ liệu, dùng WFST để duyệt qua các câu cần xét, khi đó từ có trọng số
lớn nhất là từ đƣợc chọn để tách. Mô hình WFST đã đƣợc ứng dụng vào việc phân
đoạn từ cho tiếng Trung Quốc đƣợc tác giả Richard Sproat và các cộng sự trình bày
năm 1996. Năm 2001 tác giả Đinh Điền [12] đã công bố công trình sử dụng mô
hình lai WFST kết hợp với mạng Neural để khử nhập nhằng khi tách từ, trong công
trình này tác giả đã xây dựng hệ thống tách từ gồm tầng WFST để tách từ và xử lý
các vấn đề liên quan đến một số đặc thù riêng của ngôn ngữ tiếng Việt nhƣ từ láy,
tên riêng, ... và tầng mạng Neural dùng để khử nhập nhằng về ngữ nghĩa sau khi đã
tách từ. Mô hình WFST căn cứ trên các trọng số này để chọn ra một cách tách từ
thích hợp. Sau khi có đƣợc tất cả trạng thái tách từ có thể có của câu, với mỗi trạng
thái, mô hình tính tổng trọng số và chọn trạng thái tách từ đúng nhất là câu có tổng
trọng số nhỏ nhất.

27
Chi tiết về 2 tầng này nhƣ sau:
Tầng WFST gồm có 3 bƣớc:
- Bƣớc 1: Xây dựng từ điển trọng số theo mô hình WFST, thao tác phân đoạn
từ đƣợc xem nhƣ là một sự chuyển dịch trạng thái có xác suất. Chúng ta miêu tả từ
điển D là một đồ thị biến đổi trạng thái hữu hạn có trọng số.
Giả sử: H là tập các từ chính tả tiếng Việt còn gọi là “tiếng”.
+ P là từ loại của từ.
Mỗi cung của D có thể là:
+ Từ một phần tử của H tới một phần tử của H
+ Các nhãn trong D biểu diễn một chi phí đƣợc ƣớc lƣợng theo công thức:
Cost =-log(f/N)
Trong đó: f là tần số của từ, N là kích thƣớc tập mẫu.
- Bƣớc 2: Xây dựng các khả năng phân đoạn từ: để giảm sự bùng nổ tổ hợp
khi sinh ra dãy các từ có thể từ một dãy các tiếng trong câu, tác giả đã đề xuất
phƣơng pháp kết hợp dùng thêm từ điển để hạn chế sinh ra các bùng nổ tổ hợp, cụ
thể là nếu phát hiện thấy một cách phân đoạn từ nào đó không phù hợp không có
trong từ điển, không có phải là từ láy, không phải là danh từ riêng thì tác giả loại
bỏ các nhánh xuất phát từ cách phân đoạn đoạn đó.
- Bƣớc 3: Lựa chọn khả năng phân đoạn từ tối ƣu: Sau khi có đƣợc danh sách
các cách phân đoạn từ có thể có của câu, tác giả đã chọn trƣờng hợp phân đoạn từ
có trọng số bé nhất.
Tầng mạng Neural: Mô hình đƣợc sử dụng để khử nhập nhằng khi tách từ bằng
cách kết hợp so sánh với từ điển, đƣợc tác giả đề xuất dùng dùng để luợng giá 3 dãy
từ loại: NNV, NVN, VNN (N: Noun, V:Verb). Mô hình này đƣợc học bằng chính
các câu mà cách phân đoạn từ vẫn còn nhập nhằng sau khi qua mô hình thứ nhất.
Theo nhƣ công bố trong công trình của tác giả Đinh Điền, mô hình này đạt
đƣợc độ chính xác trên 97% qua việc sử dụng thêm mạng Neural kết hợp với từ
điển để khử các nhập nhằng có thể có khi tách từ và tƣơng tự nhƣ phƣơng pháp
TBL mô hình này cần tập ngữ liệu học đầy đủ.
Ƣu điểm của phƣơng pháp: sẽ cho độ chính xác cao nếu xây dựng đƣợc một
dữ liệu học đầy đủ và chính xác. Nhƣợc điểm chính của thuật toán: việc đánh trọng

28
số dựa trên tần số xuất hiện của từ khi tiến hành phân đoạn, không tránh khỏi các
nhập nhằng trong tiếng Việt nếu gặp những văn bản quá dài.
2.2.3.4. Phƣơng pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và
thuật giải di truyền
Phƣơng pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật
giải di truyền – IGATEC (Internet and Genetics Algorithm based Text
Categorization for Documents in Vietnamese) do H. Nguyễn [13] đề xuất năm 2005
nhƣ một hƣớng tiếp cận mới trong tách từ với mục đích phân loại văn bản mà không
cần dùng đến một từ điển hay tập ngữ liệu học nào.Trong hƣớng tiếp cận này, tác
giả kết hợp giữa thuật toán di truyền với dữ liệu thống kê đƣợc lấy từ Internet.
Trong tiếp cận của mình, tác giả đã mô tả hệ thống tách từ gồm các thành
phần
2.2.3.4.1. Online Extractor:
Thành phần này có tác dụng lấy thông tin về tần số xuất hiện của các từ trong
văn bản bằng cách sử dụng một search engine nổi tiếng nhƣ Google hay Yahoo
chẳng hạn. Sau đó, tác giả sử dụng các công thức dƣới đây để tính toán mức độ phụ
thuộc lẫn nhau (mutual information) để làm cơ sở tính fitness cho GA engine.
- Tính xác suất các từ xuất hiện trên Internet:
 
MAX
)w2&w1count(
)w2&w1p(
MAX
count(w)
wp


Trong đó MAX = 4 * 109
count(w) số lƣợng văn bản trên Internet đƣợc tìm thấy có chứa từ w hoặc
cùng chứa w1 và w2 đối với count(w1&w2).
- Tính xác suất độ phụ thuộc của một từ lên một từ khác:
 w1p
)w2&w1p(
)w2|w1p( 
Thông tin phụ thuộc lẫn nhau (mutual information) của các từ ghép đƣợc cấu
tạo bởi n tiếng (cw = w1w2…wn)
 



n
1j
)wn&.....&w2&w1p(w jp
)wn&.....&w2&w1p(
MI(cw)

29
2.2.3.4.2. GA Engine for Text Segmentation:
Mỗi cá thể trong quan thể đƣợc biểu diễn bởi chuỗi các bit 0, 1, trong đó,
mỗi bit đại diện cho một tiếng trong văn bản, mỗi nhóm bit cùng loại đại diện cho
cho một segment. Các cá thể trong quần thể đƣợc khởi tạo ngẫu nhiên, trong đó mỗi
segment đƣợc giới hạn trong khoảng 5 GA Engine sau đó thực hiện các bƣớc đột
biến và lai ghép nhằm mục đích làm tăng giá trị fitness của các cá thể để đạt đƣợc
cách tách từ tốt nhất có thể.
KẾT LUẬN:
Xem xét tổng quan một số phƣơng pháp tiếp cận trong tách từ văn bản tiếng
Việt và dựa trên các nghiên cứu đã đƣợc công bố thì phƣơng pháp tách từ dựa trên
từ mang lại kết quả có độ chính xác khá cao. Điều này có đƣợc nhờ vào tập huấn
luyện lớn và các thông tin đƣợc đánh dấu trong tập dữ liệu giúp cho việc học để rút
ra các luật tách từ cho các văn bản khác đƣợc chính xác, tuy nhiên cũng dễ nhận
thấy kết quả của phƣơng pháp này hoàn toàn phụ thuộc vào tập dữ liệu huấn luyện.
Hƣớng tiếp cận dựa trên ký tự có ƣu điểm là dễ thực hiện, thời gian thực hiện
tƣơng đối nhanh, nhƣng lại cho kết qủa không chính xác bằng hƣớng tiếp cận dựa
trên từ. Hƣớng tiếp cận này nói chung phù hợp cho các ứng dụng không cần độ
chính xác tuyệt đối trong tách từ văn bản nhƣ ứng dụng lọc spam mail, firewall,…
Nhìn chung với hƣớng tiếp cận này nếu chúng ta có thể cải tiến để nâng cao độ
chính xác trong tách từ thì hƣớng tiếp cận này là hoàn toàn khả thi và có khả năng
thay thế hƣớng tiếp cận tách từ dựa trên từ vì không phải xây dựng kho ngữ liệu,
một công việc đòi hỏi nhiều công sức, thời gian và sự hỗ trợ của nhiều chuyên gia
trong các lĩnh vực khác nhau.
2.2.4. Thuật toán KEA
Turney (2000) đƣợc xem là ngƣời đầu tiên giải quyết bài toán rút trích các
keyphrase dựa trên phƣơng pháp học giám sát [17][18], trong khi các nghiên cứu
khác dùng heuristic, kỹ thuật phân tích n-gram, phƣơng pháp nhƣ mạng Neural
[13][14][15]. KEA [19] là một thuật toán trích xuất các cụm từ khóa (keyphrases) từ
dữ liệu văn bản. KEA xác định danh sách các cụm ứng viên dùng các phƣơng pháp
từ vựng học, sau đó tiến hành tính toán giá trị đặc trƣng cho mỗi ứng viên, tiếp đến
dùng thuật toán học máy để tiên đoán xem các cụm ứng viên nào là các cụm từ
khóa. Hiện nay KEA đƣợc xem là một thuật toán đơn giản và hiệu quả nhất để rút

30
các keyphrases [13]. KEA dùng phƣơng pháp học máy Naïve Bayes để huấn luyện
và rút trích các keyphrases.
Theo nhận định của các tác giả, KEA là thuật toán có khả năng độc lập ngôn
ngữ. Thuật toán KEA có thể đƣợc tóm tắt thông qua các bƣớc sau:
Bƣớc 1: Rút trích cụm ứng viên: KEA rút các cụm ứng viên n-gram (chiều dài 1
đến 3 từ) mà không bắt đầu hay kết thúc bằng các “stop word”. Trong trƣờng hợp
bài toán gán cụm từ khóa (keyphrase assignment) dùng từ điển định nghĩa trƣớc
(controlled indexing), KEA chỉ chọn ra các cụm ứng viên mà khớp với các thuật
ngữ đã định nghĩa trong từ điển. Với các cụm n-gram thu đƣợc KEA tiến hành loại
bỏ ra khỏi cụm ứng viên các “stop word” và chuyển về dạng gốc của từ (stemming)
cho cụm ứng viên.
Hình 2.3 - Sơ đồ thuật toán KEA (tham khảo: http://www.nzdl.org/Kea/description.html)
Bƣớc 2: Tính toán đặc trƣng: mỗi cụm ứng viên, KEA tính 4 giá trị đặc trƣng sau:
 TF×IDF: thể hiện mức độ quan trọng của một cụm ứng viên trong tài liệu
đang xét so với các tài liệu khác trong tập dữ liệu. Một cụm ứng viên có
TF×IDF càng cao thì càng có khả năng trở thành cụm từ khóa.
Kho
Tài liệu
Từ điển
lĩnh vựcRút trích ứng viên
Cụm ứng
viên
Huấn
luyện?
Tính đặc trƣng
Tính xác suất
Cụm từ
khóa
Xây dựng mô hình
dùng Naïve Bayes Mô hình
Có
Không
Cụm từ khóa
đƣợc gán nhãn
trƣớc

31
 Vị trí xuất hiện đầu tiên: theo quan niệm tác giả các cụm ứng viên mà có vị
trí xuất hiện gần đầu hay cuối tài liệu thì càng có khả năng trở thành cụm từ
khóa.
 Chiều dài cụm: số lƣợng từ trong cụm. Theo tác giả các cụm có chiều dài là
2 thƣờng đƣợc quan tâm.
 Độ tƣơng quan: là số lƣợng các cụm trong danh sách các cụm ứng viên có
liên quan ngữ nghĩa với cụm đang xét. Độ tƣơng quan đƣợc tính nhờ vào từ
điển định nghĩa trƣớc. Một cụm ứng viên có độ tƣơng quan cao thì càng có
khả năng trở thành cụm từ khóa.
Bƣớc 3: Huấn luyện và xây dựng mô hình: dùng tập tài liệu huấn luyện mà các
cụm từ khóa đã đƣợc gán bởi tác giả để xây dựng mô hình. Với danh sách các cụm
ứng viên đã xác định dùng các kỹ thuật n-gram, loại bỏ “stop word” và chuyển về
gốc từ (stemming) ở trên. KEA sẽ đánh dấu những cụm nào là “cụm +” (là cụm từ
khóa) và những cụm nào là “cụm -“ (không là cụm từ khóa). Mô hình sẽ đƣợc xây
dựng bằng cách tiến hành phân tích, tính toán giá trị cho các đặc trƣng cụm (nhƣ mô
tả phía trên) cho các “cụm +” và “cụm -”. Mô hình xây dựng sẽ phản ánh phân bố
của các giá trị đặc trƣng cho mỗi cụm từ.
Bƣớc 4: Rút trích cụm từ khóa: KEA sẽ dùng mô hình đã xây dựng bƣớc 3 và
tính toán giá trị đặc trƣng cho các cụm ứng viên. Sau đó tính xác suất để cụm ứng
viên là cụm từ khóa. Các cụm ứng viên với xác suất xếp hạng cao nhất đƣợc chọn
đƣa vào danh sách các cụm từ khóa. Ngƣời dùng có thể chỉ định số lƣợng các cụm
từ khóa cho một tài liệu.
2.2.4.1. Chọn cụm ứng viên (candidate phrases)
Việc chọn cụm ứng viên đƣợc tiến hành thông qua 3 bƣớc nhỏ sau:
Tiền xử lý (Input Cleaning): các files dữ liệu đầu vào đƣợc “dọn dẹp” và chuẩn
hóa và xác định biên giới ban đầu của các cụm. Chuỗi đầu vào sẽ đƣợc chặt thành
các tokens
 Các dấu chấm câu, ngoặc đơn và những con số đƣợc thay thế bởi các
đƣờng biên của các cụm (phrase boundaries).
 Xóa các dấu nháy đơn
 Tách những từ có dấu ở giữa thành hai

32
 Xóa những ký tự còn lại không phải là token. (vì không có token nào
mà không chứa các ký tự).
Kết quả
 Tập hợp các lines
 Mỗi line là một dãy các token (mỗi token chứa ít nhất 1 ký tự)
 Những từ viết tắt chứa các dấu ngăn cách phải đƣợc giữ lại là token
(nhƣ C4.5 chẳng hạn)
Xác định cụm (phrase): KEA xem xét tất cả các dãy con (subsequences) trong mỗi
dòng và xác định dãy con nào thích hợp là một cụm ứng viên. Một số phƣơng pháp
khác cố gắng xác định các noun phrase, tuy nhiên KEA dùng các luật để xác định
các phrase nhƣ sau:
 Chiều dài tối đa: phrase ứng viên thƣờng tối đa là 3 từ
 Phrase ứng viên không thể là tên riêng
 Phrase ứng viên không đƣợc phép bắt đầu và kết thúc với 1 stopword.
 Tất cả các dãy từ liền nhau trong mỗi dòng sẽ đƣợc kiểm tra dùng 3
luật trên. Kết quả là một tập các cụm ứng viên.
Ví dụ: Bảng 2.1 - Xác định cụm ứng viên
Dòng Cụm ứng viên
the programming by demonstration
method
programming
demonstration
method
programming by demonstration
demonstration method
programming by demonstration
method
Xác định gốc từ (stemming): bƣớc sau cùng trong việc xác định các cụm ứng viên
là xác định gốc từ (stemming) dùng thuật toán Lovins (1968) để bỏ đi các hậu tố.
Việc làm này giúp hệ thống có thể xem nhiều biến thể khác nhau của cụm (phrase)
nhƣ là một. (chẳng hạn cut elimination sẽ trở thành cut elim). Và hệ thống cũng
dùng stemming để so sánh những cụm từ khóa kết quả của KEA với các cụm từ
khóa do tác giả định nghĩa.

33
2.2.4.2. Tính toán đặc trƣng (Feature calculation)
Tính toán các đặc trƣng cho mỗi cụm ứng viên và chúng sẽ đƣợc dùng trong
huấn luyện và rút trích. Hai đặc trƣng đƣợc dùng đó là: tần số tf*idf, vị trí xuất hiện
đầu tiên của cụm.
Tần số TF*IDF (t): đặc trƣng này thể hiện tần suất xuất hiện của một cụm trong
một tài liệu so với tần suất của cụm trong cả kho dữ liệu. Số lƣợng tài liệu chứa một
cụm càng ít thì khả năng cụm đó là cụm từ khóa (keyphrase) cho tài liệu đang xét
càng cao. Thuật toán KEA đã tạo một tập tin để lƣu trử giá trị tần xuất của đặc trƣng
này.
( )
( )
( )
Freq(P, D) là sồ lần cụm P xuất hiện trong tài liệu D
Size(D) là số lƣợng từ của tài liệu D
df(P) là số lƣợng tài liệu chứa cụm P trong kho dữ liệu.
N: kích thƣớc của kho dữ liệu
Vị trí xuất hiện đầu tiên (d: disttance): đây là đặc trƣng thứ 2, là số lƣợng từ phía
trƣớc vị trí xuất hiện đầu tiên của cụm từ chia cho kích thƣớc của tài liệu (tổng số
từ). Giá trị của đặc trƣng này thuộc khoảng [0, 1].
2.2.4.3 Huấn luyện
Bƣớc huấn luyện dùng một tập tài liệu huấn luyện trong đó các cụm từ khóa đã
đƣợc tác giả xác định trƣớc. Đối với mỗi tài liệu trong tập huấn luyện, những cụm
ứng viên sẽ đƣợc xác định và các giá trị đặc trƣng của từng cụm ứng viên sẽ đƣợc
tính toán. Để giảm kích thƣớc của tập huấn luyện, tác giả bỏ qua các cụm mà chỉ
xuất hiện một lần trong tài liệu. Mỗi cụm ứng viên sẽ đƣợc gán nhãn là cụm từ khóa
hay không là cụm từ khóa dựa vào những cụm từ khóa do tác giả chỉ định. Quá trình
huấn luyện sẽ sinh ra một một mô hình và mô hình này đƣợc dùng để tiên đoán
phân lớp cho các mẫu dữ liệu mới dùng các giá trị của hai đặc trƣng. Nhóm tác giả
đã thử nghiệm với một số phƣơng pháp học máy khác nhau và quyết định chọn kỹ
thuật Naïve Bayes cho thuật toán KEA, vì theo tác giả phƣơng pháp học dựa trên
xác suất Naïve Bayes đơn giản nhƣng cho kết quả khá tốt.

34
2.2.4.4 Rút trích những cụm từ khóa
Để rút trích các cụm từ khóa từ một tài liệu mới, KEA xác định các cụm ứng
viên và các giá trị đặc trƣng, sau đó áp dụng mô hình đã xây dựng trong quá trình
huấn luyện. Mô hình xác định xác suất mà mỗi ứng viên là một cụm từ khóa. Sau
đó KEA sẽ thực hiên thao tác hậu xử lý để chọn ra tập hợp những cụm từ khóa tốt
nhất có thể.
Khi mô hình Naïve Bayes đƣợc áp dụng cho các cụm ứng viên với các giá trị đặc
trƣng t(TF*IDF) và d (distance), hai lƣợng sau đƣợc tính toán đó là
[ ] [ ] [ ] (1)
[ ] [ ] [ ]
Y: số lƣợng các cụm là cụm từ khóa (do tác giả chỉ định)
N: số lƣợng các cụm ứng viên không phải là cụm từ khóa.
Xác suất tổng thể mà cụm ứng viên là cụm từ khóa đƣợc tính nhƣ sau:
[ ]
[ ] [ ]
(2)
Sau khi tính toán giá trị xác suất p. Các ứng viên đƣợc sắp theo thứ tự (tăng hay
giảm dần) của giá trị p này. Tiếp sau đó sẽ là 2 bƣớc hậu xử lý. Thứ nhất, TF*IDF
sẽ là giá trị quyết định trong trƣờng hợp 2 cụm ứng viên có cùng xác suất p. Thứ
hai, tác giả quyết định loại bỏ ra khỏi danh sách các cụm mà là “cụm con” của một
cụm có xác suất cao hơn. Từ danh sách còn lại, thuật toán sẽ chọn ra r cụm có xác
suất cao nhất (với r là số lƣợng các cụm từ khóa cần xác định theo yêu cầu).
2.2.5 Thuật toán KIP
2.2.5.1 Ý tƣởng
Một cụm danh từ chứa những từ khóa hay cụm từ khóa về một lĩnh vực cụ thể sẽ
có khả năng trở thành cụm từ khóa trong lĩnh vực đó. Một cụm danh từ càng chứa
nhiều từ khóa hay cụm từ khóa thì cụm danh từ này càng có nhiều khả năng trở
thành cụm từ khóa. Hệ thống xây dựng sẵn một cơ sở dữ liệu từ vựng lƣu giữ các từ
khóa, cụm từ khóa về một lĩnh vực cụ thể. Và các từ khóa trong từ điển định nghĩa
trƣớc đó sẽ dùng để tính toán điểm hay trọng số cho một cụm danh từ. Từ đó quyết
định cụm ứng viên nào là cụm từ khóa dựa trên trọng số, điểm số đã tính đƣợc cao
hơn.
2.2.5.2 Mô tả thuật toán

Luận văn: Xây dựng bộ lọc phát hiện các Website có nội dung xấu

Luận văn: Xây dựng bộ lọc phát hiện các Website có nội dung xấu

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Luận văn: Xây dựng bộ lọc phát hiện các Website có nội dung xấu

Similar to Luận văn: Xây dựng bộ lọc phát hiện các Website có nội dung xấu (20)

More from Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864

More from Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864 (20)

Recently uploaded

Recently uploaded (20)

Luận văn: Xây dựng bộ lọc phát hiện các Website có nội dung xấu