SlideShare a Scribd company logo
1 of 30
1
PHÁT TRIỂN THUẬT TOÁN
GOM CỤM VĂN BẢN VÀ ỨNG
DỤNG
GVHD: TS. VŨ THANH NGUYÊN
SVTH: NGUYỄN THẾ QUANG - MSSV: CH0601056
NĂM 2009
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN – ĐHQG HỒ CHÍ MINH
CAO HỌC KHÓA 3
2
Nội dung trình bày
 Đặt vấn đề
 Mục tiêu nghiên cứu.
 Phương pháp thực hiện.
 Kết quả đạt được.
 Kiến nghị.
3
Đặt vấn đề
 Do sự phát triển nhanh của các thư viện số,
các hệ thống E-Learning, các hình thức đào
tạo qua mạng…
 Thông tin trả về phải chính xác, nhanh nhất
khi người dùng truy vấn.
4
Mục tiêu nghiên cứu (1/3)
 Do sự kém hiệu quả của hệ truy tìm thông
tin(IR) sử dụng các mô hình: Boolean, Xác
suất và Không gian vector về:
- Hiệu quả truy tìm.
- Hiệu quả về quan hệ ngữ nghĩa của thông
tin.
5
Mục tiêu nghiên cứu (2/3)
 Luận văn xây dựng mô hình hệ IR nhằm cải
thiện các yếu điểm trên bằng cách kết hợp mô
hình ngữ nghĩa Latent Semantic Indexing
(LSI) vào bài toán gom cụm văn bản.
6
Mục tiêu nghiên cứu (3/3)
 Bằng 2 cách:
- Dùng LSI tiền xử lý ma trận từ chỉ mục.
- Đề nghị một độ đo thích hợp cho tập văn
bản.
7
Phương pháp thực hiện (1/1)
 Tìm hiểu mô hình không gian vector.
 Tìm hiểu mô hình LSI.
 Tìm hiểu các độ đo tương tự.
 Kết hợp LSI vào bài toán gom cụm văn bản.
 Đánh giá hiệu quả hệ truy tìm thông tin.
8
Phương pháp thực hiện (1/2)
Mô hình không gian vector
 Ma trận biểu diễn tập văn bản:
tập n văn bản và m từ chỉ mục được vector hóa
thành ma trận A (ma trận từ chỉ mục)


















=
↓↓↓
aaa
aaa
aaa
A
ddd
mnmm
n
n
n




21
22221
11211
21
t
t
t
m
←
←
←

2
1
9
Phương pháp thực hiện (2/2)
Mô hình không gian vector
 Hàm tính trọng số từ chỉ mục:
Wij = lij * gi * nj
Trong đó:
- lij là trọng số cục bộ của từ chỉ mục i trong
văn bản j
- gi là trọng số toàn cục của từ chỉ mục i .
- nj là hệ số được chuẩn hoá của văn bản j.
10
Phương pháp thực hiện (1/8)
Mô hình LSI
 khắc phục hai hạn chế tồn tại trong mô hình
không gian vector chuẩn về hai vấn đề
synoymy và polysemy [7], [8], [9].
11
Phương pháp thực hiện (2/8)
Mô hình LSI
 Phân tích Singular Value Decomposition
(SVD ) trên ma trận từ chỉ mục A:
T
VUA Σ=
12
Phương pháp thực hiện (3/8)
Mô hình LSI
 Trong đó:
- U là ma trận trực giao cấp m x r (m số từ chỉ mục)
các vector dòng của U là các vector từ chỉ mục.
- ∑ là ma trận đường chéo cấp r x r có các giá trị suy
biến (singular value) , với r = rank(A).
- V là ma trận trực giao cấp r x n (n số văn bản trong
tập văn bản) - các vector cột của V là các vector văn
bản.
13
Phương pháp thực hiện (4/8)
Mô hình LSI
 Mục đích phân tích SVD:
Để phát hiện ra các quan hệ ngữ nghĩa trong
cách dùng từ trong toàn bộ văn bản.
14
Phương pháp thực hiện (5/8)
Mô hình LSI
 Giảm số chiều ma trận sau khi phân tích
SVD:
VUA
T
kkkk Σ=
15
Phương pháp thực hiện (6/8)
Mô hình LSI
 Trong đó:
- các cột của Uk là k cột đầu tiên của U.
- các cột của Vk là k cột đầu tiên của của V .
− ∑k: ma trận đường chéo cấp k x k với các
phần tử nằm trên đường chéo là k giá trị suy
biến lớn nhất của A.
16
 chọn hệ số k cho mô hình LSI:
Tác giả trong các bài báo [8] khuyên nên
chọn k từ 50 đến 100 cho tập dữ liệu nhỏ và từ
100 đến 300 cho tập dữ liệu lớn.
Phương pháp thực hiện (7/8)
Mô hình LSI
17
Phương pháp thực hiện (8/8)
Mô hình LSI
18
Phương pháp thực hiện (1/4)
Mô hình LSI và K-Means
 Đề nghị 2 phương pháp:
- Dùng mô hình LSI tiền xử lý ma trận từ
chỉ mục (terms document A).
- Áp dụng độ đo Cosines để tính độ tương tự
cho các văn bản.
19
Phương pháp thực hiện (2/4)
Mô hình LSI và K-Means
 Chọn độ đo Cosines:
Do tính chất của tập văn bản không phụ thuộc vào
độ dài. Hai văn bản gần nhau nếu như chúng có cùng
tập từ chỉ mục.
VD:d1= (2, 3, 1), d2= (20, 30, 10),d3= (0, 1, 3).
Ta thấy d1 gần d2 hơn d3.
qa j
qa
qa
T
j
j
22
),(cos =

20
Phương pháp thực hiện (3/4)
Mô hình LSI và K-Means
 Chọn số cụm cho K-means:
Chính là hệ số k trong mô hình LSI Vì k mang tính
chất là k ngữ nghĩa trong mô hình LSI phù hợp với
việc chọn k cụm văn bản theo ngữ nghĩa .
21
Phương pháp thực hiện (4/4)
Mô hình LSI và K-Means
 Đánh giá hiệu quả so với mô hình LSI:
- Mô hình LSI: thời gian tính Cosines của câu truy
vấn q với các văn bản trong tập văn bản N là: O(N).
- Mô hình gom cụm cải tiến: thời gian tính Cosines
của câu truy vấn q với các văn bản trong tập văn bản n
là: O(kn).
Ta thấy : O(kn)<<O(N) vì (k,n<<N)
22
Kết quả thực nghiệm trên tập dữ liệu 7379 văn
bản và 13274 từ với 30 truy vấn và k=300
 Đồ thị hiệu quả truy tìm của 3 mô hình
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
VSM LSI CLU_LSI
Search Engine
Đồ Thị Hiệu Quả Truy Tìm
23
Kết quả thực nghiệm trên tập dữ liệu 7379 văn
bản và 13274 từ với 30 truy vấn và k=300
 Đồ thị Precision trung bình của LSI và
K-means
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
50 100 150 200 250 300 350 400 450
Hệ số k
Precisiontrungbình
K-means
LSI
24
Kết quả thực nghiệm trên tập dữ liệu 7379 văn
bản và 13274 từ với 30 truy vấn và k=300
 Đồ thị Precision/recall của độ đo Euclidean
và Cosines:
0.0
0.2
0.4
0.6
0.8
1.0
1.2
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Recall
Precision
Cosines
Euclidean
25
Kiến nghị
 Trong luận văn chỉ tập trung truy vấn trên tài liệu
HTML bằng tiếng Anh và phân tích trên từ của văn
bản. Hướng phát triển tiếp theo của luận văn là làm
cách nào truy vấn trên văn bản tiếng việt, từ tượng
hình, truy vấn dựa trên mẫu câu. Và đây là một
hướng phát triển trong tương lai.
26
Tài liệu tham khảo
 Tiếng Việt
[1] Đỗ Trung Hiếu (2005), Số hóa văn bản theo mô
hình không gian vector và ứng dụng, luận văn thạc sĩ,
Trường Đại Học Khoa Học Tự Nhiên.
27
Tài liệu tham khảo
 Tiếng Anh
[2] April Kontostathis (2007), “Essential Dimensions of latent sematic indexing”,
Department of Mathematics and Computer Science Ursinus College, Proceedings
of the 40th Hawaii International Conference on System Sciences, 2007.
[3] Cherukuri Aswani Kumar, Suripeddi Srinivas (2006) , “Latent Semantic
Indexing Using Eigenvalue Analysis for Efficient Information Retrieval”, Int. J.
Appl. Math. Comput. Sci., 2006, Vol. 16, No. 4, pp. 551–558
[4] David A.Hull (1994), Information retrieval Using Statistical Classification,
Doctor of Philosophy Degree, The University of Stanford.
[5] Gabriel Oksa, Martin Becka and Marian Vajtersic (2002),” Parallel SVD
Computation in Updating Problems of Latent Semantic Indexing”, Proceeding
ALGORITMY 2002 Conference on Scientific Computing, pp. 113 – 120.
28
Tài liệu tham khảo
 Tiếng Anh
[6] Katarina Blom, (1999), Information Retrieval Using the Singular Value
Decomposition and Krylov Subspace, Department of Mathematics
Chalmers University of Technology S-412 Goteborg, Sewden
[7] Kevin Erich Heinrich (2007), Automated Gene Classification using
Nonnegative Matrix Factorization on Biomedical Literature, Doctor of
Philosophy Degree, The University of Tennessee, Knoxville.
[8] Miles Efron (2003). Eigenvalue – Based Estimators for Optimal
Dimentionality Reduction in Information Retrieval. ProQuest Information
and Learning Company.
29
Tài liệu tham khảo
 Tiếng Anh
[9] Michael W. Berry, Zlatko Drmac, Elizabeth R. Jessup (1999), “Matrix,
Vector Space, and Information Retrieval”, SIAM REVIEW Vol 41, No. 2, pp.
335 – 352.
[10] Nordianah Ab Samat, Masrah Azrifah Azmi Murad, Muhamad Taufik
Abdullah, Rodziah Atan (2008), “Term Weighting Schemes Experiment
Based on SVD for Malay Text Retrieval”, Faculty of Computer Science and
Information Technology University Putra Malaysia, IJCSNS International
Journal of Computer Science and Network Security, VOL.8 No.10, October
2008.
30
XIN CHÂN THÀNH CẢM ƠN
QUÝ THẦY VÀ CÁC BẠN!

More Related Content

Similar to Baocao lv

Shape Matching And Object Recognition Using Shape Contexts
Shape Matching And Object Recognition Using Shape ContextsShape Matching And Object Recognition Using Shape Contexts
Shape Matching And Object Recognition Using Shape Contexts
nlnngu
 
13315235570281 11.vl.1.r.dungliemlien
13315235570281 11.vl.1.r.dungliemlien13315235570281 11.vl.1.r.dungliemlien
13315235570281 11.vl.1.r.dungliemlien
hai le minh
 

Similar to Baocao lv (20)

Luận án: Tìm kiếm tương tự trên chuỗi thời gian dạng luồng, HAY
Luận án: Tìm kiếm tương tự trên chuỗi thời gian dạng luồng, HAYLuận án: Tìm kiếm tương tự trên chuỗi thời gian dạng luồng, HAY
Luận án: Tìm kiếm tương tự trên chuỗi thời gian dạng luồng, HAY
 
Luận án: Cung cấp tài nguyên cho dịch vụ ảo hóa, HAY
Luận án: Cung cấp tài nguyên cho dịch vụ ảo hóa, HAYLuận án: Cung cấp tài nguyên cho dịch vụ ảo hóa, HAY
Luận án: Cung cấp tài nguyên cho dịch vụ ảo hóa, HAY
 
Luận văn: Giải thuật bám đuổi đối tượng sử dụng bộ lọc Particle
Luận văn: Giải thuật bám đuổi đối tượng sử dụng bộ lọc ParticleLuận văn: Giải thuật bám đuổi đối tượng sử dụng bộ lọc Particle
Luận văn: Giải thuật bám đuổi đối tượng sử dụng bộ lọc Particle
 
Luận án: Dao động ngẫu nhiên phi tuyến bằng tiêu chuẩn sai số - Gửi miễn phí ...
Luận án: Dao động ngẫu nhiên phi tuyến bằng tiêu chuẩn sai số - Gửi miễn phí ...Luận án: Dao động ngẫu nhiên phi tuyến bằng tiêu chuẩn sai số - Gửi miễn phí ...
Luận án: Dao động ngẫu nhiên phi tuyến bằng tiêu chuẩn sai số - Gửi miễn phí ...
 
Nghiên Cứu Ứng Dụng Kỹ Thuật Học Bán Giám Sát Vào Lĩnh Vực Phân Loại Văn Bản ...
Nghiên Cứu Ứng Dụng Kỹ Thuật Học Bán Giám Sát Vào Lĩnh Vực Phân Loại Văn Bản ...Nghiên Cứu Ứng Dụng Kỹ Thuật Học Bán Giám Sát Vào Lĩnh Vực Phân Loại Văn Bản ...
Nghiên Cứu Ứng Dụng Kỹ Thuật Học Bán Giám Sát Vào Lĩnh Vực Phân Loại Văn Bản ...
 
Thuật toán K mean
Thuật toán K meanThuật toán K mean
Thuật toán K mean
 
Khai_pha_d_liu_Data_mining.pdf
Khai_pha_d_liu_Data_mining.pdfKhai_pha_d_liu_Data_mining.pdf
Khai_pha_d_liu_Data_mining.pdf
 
Shape Matching And Object Recognition Using Shape Contexts
Shape Matching And Object Recognition Using Shape ContextsShape Matching And Object Recognition Using Shape Contexts
Shape Matching And Object Recognition Using Shape Contexts
 
Dự đoán liên kết trong đồ thị tri thức
Dự đoán liên kết trong đồ thị tri thứcDự đoán liên kết trong đồ thị tri thức
Dự đoán liên kết trong đồ thị tri thức
 
Đề tài: Phương pháp giải bài toán cân bằng có tính lồi suy rộng
Đề tài: Phương pháp giải bài toán cân bằng có tính lồi suy rộngĐề tài: Phương pháp giải bài toán cân bằng có tính lồi suy rộng
Đề tài: Phương pháp giải bài toán cân bằng có tính lồi suy rộng
 
Cấu trúc dữ liệu cơ bản 1
Cấu trúc dữ liệu cơ bản 1Cấu trúc dữ liệu cơ bản 1
Cấu trúc dữ liệu cơ bản 1
 
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thámPhân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
 
Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng, HAY
Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng, HAYKhai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng, HAY
Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng, HAY
 
Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...
Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...
Dao động phi tuyến yếu của hệ cấp ba có đạo hàm cấp phân số - Gửi miễn phí qu...
 
Đề tài: Vấn đề chọn lọc về hệ phương trình vi phân và điều khiển
Đề tài: Vấn đề chọn lọc về hệ phương trình vi phân và điều khiểnĐề tài: Vấn đề chọn lọc về hệ phương trình vi phân và điều khiển
Đề tài: Vấn đề chọn lọc về hệ phương trình vi phân và điều khiển
 
Luận án: Nhận dạng, điều khiển hệ phi tuyến dùng mô hình nơ rôn
Luận án: Nhận dạng, điều khiển hệ phi tuyến dùng mô hình nơ rônLuận án: Nhận dạng, điều khiển hệ phi tuyến dùng mô hình nơ rôn
Luận án: Nhận dạng, điều khiển hệ phi tuyến dùng mô hình nơ rôn
 
LuanVanThacSi-ChuaPhanLoai (130).pdf
LuanVanThacSi-ChuaPhanLoai (130).pdfLuanVanThacSi-ChuaPhanLoai (130).pdf
LuanVanThacSi-ChuaPhanLoai (130).pdf
 
13315235570281 11.vl.1.r.dungliemlien
13315235570281 11.vl.1.r.dungliemlien13315235570281 11.vl.1.r.dungliemlien
13315235570281 11.vl.1.r.dungliemlien
 
Đề Thi HK2 Toán 6 - THCS An Nhơn
Đề Thi HK2 Toán 6 - THCS An NhơnĐề Thi HK2 Toán 6 - THCS An Nhơn
Đề Thi HK2 Toán 6 - THCS An Nhơn
 
Luận án: Nghiên cứu thuật toán giảm bậc mô hình và ứng dụng
Luận án: Nghiên cứu thuật toán giảm bậc mô hình và ứng dụngLuận án: Nghiên cứu thuật toán giảm bậc mô hình và ứng dụng
Luận án: Nghiên cứu thuật toán giảm bậc mô hình và ứng dụng
 

Baocao lv

  • 1. 1 PHÁT TRIỂN THUẬT TOÁN GOM CỤM VĂN BẢN VÀ ỨNG DỤNG GVHD: TS. VŨ THANH NGUYÊN SVTH: NGUYỄN THẾ QUANG - MSSV: CH0601056 NĂM 2009 ĐẠI HỌC CÔNG NGHỆ THÔNG TIN – ĐHQG HỒ CHÍ MINH CAO HỌC KHÓA 3
  • 2. 2 Nội dung trình bày  Đặt vấn đề  Mục tiêu nghiên cứu.  Phương pháp thực hiện.  Kết quả đạt được.  Kiến nghị.
  • 3. 3 Đặt vấn đề  Do sự phát triển nhanh của các thư viện số, các hệ thống E-Learning, các hình thức đào tạo qua mạng…  Thông tin trả về phải chính xác, nhanh nhất khi người dùng truy vấn.
  • 4. 4 Mục tiêu nghiên cứu (1/3)  Do sự kém hiệu quả của hệ truy tìm thông tin(IR) sử dụng các mô hình: Boolean, Xác suất và Không gian vector về: - Hiệu quả truy tìm. - Hiệu quả về quan hệ ngữ nghĩa của thông tin.
  • 5. 5 Mục tiêu nghiên cứu (2/3)  Luận văn xây dựng mô hình hệ IR nhằm cải thiện các yếu điểm trên bằng cách kết hợp mô hình ngữ nghĩa Latent Semantic Indexing (LSI) vào bài toán gom cụm văn bản.
  • 6. 6 Mục tiêu nghiên cứu (3/3)  Bằng 2 cách: - Dùng LSI tiền xử lý ma trận từ chỉ mục. - Đề nghị một độ đo thích hợp cho tập văn bản.
  • 7. 7 Phương pháp thực hiện (1/1)  Tìm hiểu mô hình không gian vector.  Tìm hiểu mô hình LSI.  Tìm hiểu các độ đo tương tự.  Kết hợp LSI vào bài toán gom cụm văn bản.  Đánh giá hiệu quả hệ truy tìm thông tin.
  • 8. 8 Phương pháp thực hiện (1/2) Mô hình không gian vector  Ma trận biểu diễn tập văn bản: tập n văn bản và m từ chỉ mục được vector hóa thành ma trận A (ma trận từ chỉ mục)                   = ↓↓↓ aaa aaa aaa A ddd mnmm n n n     21 22221 11211 21 t t t m ← ← ←  2 1
  • 9. 9 Phương pháp thực hiện (2/2) Mô hình không gian vector  Hàm tính trọng số từ chỉ mục: Wij = lij * gi * nj Trong đó: - lij là trọng số cục bộ của từ chỉ mục i trong văn bản j - gi là trọng số toàn cục của từ chỉ mục i . - nj là hệ số được chuẩn hoá của văn bản j.
  • 10. 10 Phương pháp thực hiện (1/8) Mô hình LSI  khắc phục hai hạn chế tồn tại trong mô hình không gian vector chuẩn về hai vấn đề synoymy và polysemy [7], [8], [9].
  • 11. 11 Phương pháp thực hiện (2/8) Mô hình LSI  Phân tích Singular Value Decomposition (SVD ) trên ma trận từ chỉ mục A: T VUA Σ=
  • 12. 12 Phương pháp thực hiện (3/8) Mô hình LSI  Trong đó: - U là ma trận trực giao cấp m x r (m số từ chỉ mục) các vector dòng của U là các vector từ chỉ mục. - ∑ là ma trận đường chéo cấp r x r có các giá trị suy biến (singular value) , với r = rank(A). - V là ma trận trực giao cấp r x n (n số văn bản trong tập văn bản) - các vector cột của V là các vector văn bản.
  • 13. 13 Phương pháp thực hiện (4/8) Mô hình LSI  Mục đích phân tích SVD: Để phát hiện ra các quan hệ ngữ nghĩa trong cách dùng từ trong toàn bộ văn bản.
  • 14. 14 Phương pháp thực hiện (5/8) Mô hình LSI  Giảm số chiều ma trận sau khi phân tích SVD: VUA T kkkk Σ=
  • 15. 15 Phương pháp thực hiện (6/8) Mô hình LSI  Trong đó: - các cột của Uk là k cột đầu tiên của U. - các cột của Vk là k cột đầu tiên của của V . − ∑k: ma trận đường chéo cấp k x k với các phần tử nằm trên đường chéo là k giá trị suy biến lớn nhất của A.
  • 16. 16  chọn hệ số k cho mô hình LSI: Tác giả trong các bài báo [8] khuyên nên chọn k từ 50 đến 100 cho tập dữ liệu nhỏ và từ 100 đến 300 cho tập dữ liệu lớn. Phương pháp thực hiện (7/8) Mô hình LSI
  • 17. 17 Phương pháp thực hiện (8/8) Mô hình LSI
  • 18. 18 Phương pháp thực hiện (1/4) Mô hình LSI và K-Means  Đề nghị 2 phương pháp: - Dùng mô hình LSI tiền xử lý ma trận từ chỉ mục (terms document A). - Áp dụng độ đo Cosines để tính độ tương tự cho các văn bản.
  • 19. 19 Phương pháp thực hiện (2/4) Mô hình LSI và K-Means  Chọn độ đo Cosines: Do tính chất của tập văn bản không phụ thuộc vào độ dài. Hai văn bản gần nhau nếu như chúng có cùng tập từ chỉ mục. VD:d1= (2, 3, 1), d2= (20, 30, 10),d3= (0, 1, 3). Ta thấy d1 gần d2 hơn d3. qa j qa qa T j j 22 ),(cos = 
  • 20. 20 Phương pháp thực hiện (3/4) Mô hình LSI và K-Means  Chọn số cụm cho K-means: Chính là hệ số k trong mô hình LSI Vì k mang tính chất là k ngữ nghĩa trong mô hình LSI phù hợp với việc chọn k cụm văn bản theo ngữ nghĩa .
  • 21. 21 Phương pháp thực hiện (4/4) Mô hình LSI và K-Means  Đánh giá hiệu quả so với mô hình LSI: - Mô hình LSI: thời gian tính Cosines của câu truy vấn q với các văn bản trong tập văn bản N là: O(N). - Mô hình gom cụm cải tiến: thời gian tính Cosines của câu truy vấn q với các văn bản trong tập văn bản n là: O(kn). Ta thấy : O(kn)<<O(N) vì (k,n<<N)
  • 22. 22 Kết quả thực nghiệm trên tập dữ liệu 7379 văn bản và 13274 từ với 30 truy vấn và k=300  Đồ thị hiệu quả truy tìm của 3 mô hình 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% VSM LSI CLU_LSI Search Engine Đồ Thị Hiệu Quả Truy Tìm
  • 23. 23 Kết quả thực nghiệm trên tập dữ liệu 7379 văn bản và 13274 từ với 30 truy vấn và k=300  Đồ thị Precision trung bình của LSI và K-means 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 50 100 150 200 250 300 350 400 450 Hệ số k Precisiontrungbình K-means LSI
  • 24. 24 Kết quả thực nghiệm trên tập dữ liệu 7379 văn bản và 13274 từ với 30 truy vấn và k=300  Đồ thị Precision/recall của độ đo Euclidean và Cosines: 0.0 0.2 0.4 0.6 0.8 1.0 1.2 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Recall Precision Cosines Euclidean
  • 25. 25 Kiến nghị  Trong luận văn chỉ tập trung truy vấn trên tài liệu HTML bằng tiếng Anh và phân tích trên từ của văn bản. Hướng phát triển tiếp theo của luận văn là làm cách nào truy vấn trên văn bản tiếng việt, từ tượng hình, truy vấn dựa trên mẫu câu. Và đây là một hướng phát triển trong tương lai.
  • 26. 26 Tài liệu tham khảo  Tiếng Việt [1] Đỗ Trung Hiếu (2005), Số hóa văn bản theo mô hình không gian vector và ứng dụng, luận văn thạc sĩ, Trường Đại Học Khoa Học Tự Nhiên.
  • 27. 27 Tài liệu tham khảo  Tiếng Anh [2] April Kontostathis (2007), “Essential Dimensions of latent sematic indexing”, Department of Mathematics and Computer Science Ursinus College, Proceedings of the 40th Hawaii International Conference on System Sciences, 2007. [3] Cherukuri Aswani Kumar, Suripeddi Srinivas (2006) , “Latent Semantic Indexing Using Eigenvalue Analysis for Efficient Information Retrieval”, Int. J. Appl. Math. Comput. Sci., 2006, Vol. 16, No. 4, pp. 551–558 [4] David A.Hull (1994), Information retrieval Using Statistical Classification, Doctor of Philosophy Degree, The University of Stanford. [5] Gabriel Oksa, Martin Becka and Marian Vajtersic (2002),” Parallel SVD Computation in Updating Problems of Latent Semantic Indexing”, Proceeding ALGORITMY 2002 Conference on Scientific Computing, pp. 113 – 120.
  • 28. 28 Tài liệu tham khảo  Tiếng Anh [6] Katarina Blom, (1999), Information Retrieval Using the Singular Value Decomposition and Krylov Subspace, Department of Mathematics Chalmers University of Technology S-412 Goteborg, Sewden [7] Kevin Erich Heinrich (2007), Automated Gene Classification using Nonnegative Matrix Factorization on Biomedical Literature, Doctor of Philosophy Degree, The University of Tennessee, Knoxville. [8] Miles Efron (2003). Eigenvalue – Based Estimators for Optimal Dimentionality Reduction in Information Retrieval. ProQuest Information and Learning Company.
  • 29. 29 Tài liệu tham khảo  Tiếng Anh [9] Michael W. Berry, Zlatko Drmac, Elizabeth R. Jessup (1999), “Matrix, Vector Space, and Information Retrieval”, SIAM REVIEW Vol 41, No. 2, pp. 335 – 352. [10] Nordianah Ab Samat, Masrah Azrifah Azmi Murad, Muhamad Taufik Abdullah, Rodziah Atan (2008), “Term Weighting Schemes Experiment Based on SVD for Malay Text Retrieval”, Faculty of Computer Science and Information Technology University Putra Malaysia, IJCSNS International Journal of Computer Science and Network Security, VOL.8 No.10, October 2008.
  • 30. 30 XIN CHÂN THÀNH CẢM ƠN QUÝ THẦY VÀ CÁC BẠN!