SlideShare a Scribd company logo
Xây dựng tag cloud
bằng cây n-gram
Lê Ngọc Minh
Nội dung
1.   Giới thiệu
2.   Phát biểu bài toán
3.   Cây n-gram
4.   Giải quyết bài toán bằng cây n-gram
5.   Thực nghiệm
6.   Hướng phát triển



                                           2
1.   Giới thiệu
2.   Phát biểu bài toán
3.   Cây n-gram
4.   Giải quyết bài toán bằng cây n-gram
5.   Thực nghiệm
6.   Hướng phát triển



                                           3
Quản lý danh tiếng trực tuyến
 Danh tiếng: Những gì mọi người nói
  về một nhãn hiệu, tên tuổi.
 Quản lý danh tiếng:
    ◦ Nắm được cộng đồng quan tâm đến điều
      gì.
    ◦ Nắm được ý kiến (tích cực/tiêu cực) của
      cộng đồng về điều đó.
    ◦ Giải quyết khủng hoảng: loại bỏ những ý
      kiến không thuận lợi hoặc đẩy nó xuống
      thấp hơn trong kết quả tìm kiếm.
                                                5
Khách hàng của ORM




                     6
Nghiên cứu liên quan đến
        ORM
       Số bài báo trên Google          Năm 2000: 6
4500
              Scholar *
                                       Năm 2001: 10
4000                                   ...
                                        Năm 2009: 1929
3500
3000
                                    
2500                                   Năm 2010: 3030
2000                                   Năm 2011: 4022
1500
1000
                                       Đầu năm 2012: 896
 500
   0
                                    (*) Tìm kiếm trên 3 từ khóa
                                    "sentiment analysis", “sentiment
    2000 2002 2004 2006 2008 2010
                                    classification” và "opinion mining" .


                                                                            7
Tag cloud
 Những cụm từ thường được nhắc đến
  khi đề cập đến một nhãn hiệu, tên tuổi.
 Giả sử có sự tương quan giữa số lần
  được nhắc đến và độ quan tâm
    ◦ Nhắc đến nhiều trên báo, diễn đàn, mạng xã
      hội  nhiều người đọc  nhiều người quan
      tâm.
    ◦ Nhiều người quan tâm  Nhiều thảo luận
      trên diễn đàn, mạng xã hội  Được nhắc
      đến nhiều.
   Cho biết cộng đồng quan tâm nhiều nhất
    đến điều gì.                                   8
Ví dụ về tag cloud (1)




 Tag cloud cho từ khóa VnIdol.
 Dự đoán:
    ◦ Chương trình “Gắn kết yêu thương” được quan
      tâm.
    ◦ Có sự so sánh với các chương trình khác.
                                                    9
Ví dụ về tag cloud (2)
<tagcloud>
<tag string="show truyền_hình_thực_tế" count="4" />
<tag string="tổ_chức trình_diễn" count="4"/>
<tag string="trình_diễn thời_trang" count="4"/>
<tag string="bộ_vi_xử_lý intel" count="4"/>
<tag string="intel core" count="4"/>
<tag string="core 2" count="4"/>
<tag string="2 duo" count="4"/>
<tag string="ngôi_nhà âm_nhạc" count="4"/>
<tag string="tìm_kiếm tài_năng" count="4"/>
<tag string="s got_talent" count="4""/>
<tag string="mở_rộng sân_chơi" count="3" />
<tag string="sân_chơi ca_hát" count="3" />
</tagcloud>


                                                      10
Ví dụ về tag cloud (2)
   Nhận xét:
    ◦ Một số cụm xuất hiện cùng nhau nhưng bị
      tách ra thành các n-gram khác nhau
    ◦ Các cụm ngắn ít ý nghĩa
    ◦ Nhiều cụm ngắn gây mất tập trung




                                            11
Ví dụ về tag cloud (2)
<tagcloud>
<tag string="show truyền_hình_thực_tế" count="4" />
<tag string="tổ_chức trình_diễn thời_trang"
  count="4"/>
<tag string="bộ_vi_xử_lý intel core 2 duo"
  count="4"/>
<tag string="ngôi_nhà âm_nhạc" count="4"/>
<tag string="tìm_kiếm tài_năng" count="4"/>
<tag string="s got_talent" count="4""/>
<tag string="mở_rộng sân_chơi ca_hát" count="3" />
</tagcloud>




                                                  12
1.   Giới thiệu
2.   Phát biểu bài toán
3.   Cây n-gram
4.   Giải quyết bài toán bằng cây n-gram
5.   Thực nghiệm
6.   Hướng phát triển



                                           13
Phát biểu bài toán
 Đầu vào: tập các câu S =
  {S1, S2,…, SN}, số p
 Đầu ra: các bộ (g,c)
    ◦ g : n-gram trong S (n ≥ p).
    ◦ c : số lần xuất hiện tương ứng.
    ◦ Ràng buộc: ghép tất cả các n-gram luôn
      xuất hiện cùng nhau tạo thành n-gram dài
      hơn.


                                             14
1.   Giới thiệu
2.   Phát biểu bài toán
3.   Cây n-gram
4.   Giải quyết bài toán bằng cây n-gram
5.   Thực nghiệm
6.   Hướng phát triển



                                           15
Định nghĩa
 Cho trước S và p, cây n-
   gram T là cây:
1. Tất cả các cạnh đều có
    nhãn là một từ trong S.
2. Các cạnh xuất phát từ
    cùng một nút có nhãn
    không trùng nhau.
3. Các nhãn cạnh trên
    đường đi P từ gốc đến
    nút lá l ghép lại thành
    một n-gram của S (n ≥
    p), ký hiệu g(l).




                              16
Định nghĩa
4.   Trên một đường đi P từ
     gốc đến nút lá l, tất cả
     các n-gram (n ≥ p) có
     thể tạo thành đều có
     số lần xuất hiện
     bằng nhau trong S.
     Nút lá l được gán nhãn
     là số lần xuất hiện
     đó, ký hiệu c(l).


                                17
Định nghĩa
5.   Nút lá l có liên kết
     (l’, x) nếu g(l’) =
     xg(l) (x là một từ
     nào đó) và c(l’) =
     c(l). Khi đó l’ có
     một liên kết ngược
     đến l.
6.   Với mọi p-gram g’
     của S, có thể tìm
     được nút lá l sao
                          Cây n-gram cho:
     cho g’ ∈ prefix(g(l)) S = “a b c. a b c. c d.”
     và countS(g’) = c(l). p = 2

                                                      18
Ý nghĩa
1.   Cho một p-gram g bất kỳ, hỏi nó xuất
     hiện bao nhiêu lần trong S  tìm
     đường đi bắt đầu bằng g.
2.   Liệt kê tất cả các p-gram của S 
     duyệt tất cả các đường đi từ gốc có
     độ dài p.
3.   Giải bài toán ban đầu  duyệt tất
     cả các đường đi từ gốc đến lá mà
     nút lá không có liên kết xuôi.
                                            20
1.   Giới thiệu
2.   Phát biểu bài toán
3.   Cây n-gram
4.   Giải quyết bài toán bằng cây n-
     gram
5.   Thực nghiệm
6.   Hướng phát triển


                                       21
Giải thuật xây dựng cây
 Xuất phát từ một cây T rỗng (chỉ có
  nút gốc), thêm từng câu Si vào T.
 Thêm từng hậu tố Si,j theo thứ tự
  ngược
 Giả sử tiền tố dài nhất của Si,j có thể tìm
  thấy trong cây có độ dài m
    ◦ m < p : thêm đoạn còn lại vào cây
    ◦m≥p:
      Kết thúc ở nút lá: tăng nhãn lên 1
      Ngược lại: cắt nhánh
                                                22
Thêm cạnh (1)
   Tại bước k, xâu Si,k
    đã tồn tại trong cây
   Tại bước j (j <
    k), xâu Si,j được
    thêm vào cây
   Ta chỉ thêm đoạn
    Si[j..k+p-2] vì p-gram
    Si[k..k+p-1] đã tồn tại
   Gọi b là vị trí cuối
    đoạn  sau mỗi            + “a c d”
    bước không thêm
    cạnh, gán b=j+p-2

                                          23
Thêm cạnh (2)
 Nếu thao tác thêm
  cạnh được thực
  hiện hai lần liên
  tiếp, các nút lá mới
  được liên kết
 Gọi l là nút lá được
  tạo sau mỗi bước:
    ◦ Sau một bước
      không thêm cạnh, l
      = nil


                           24
Tăng nhãn (1)
Nếu từ đầu tiên
 của bước tiếp theo
 bằng nhãn liên kết
 tăng nhãn của nút
 được liên kết




                      + “a b c d”


                                    25
Tăng nhãn (2)
Nếu từ đầu tiên
 của bước tiếp theo
 khác nhãn liên kết
cắt nhánh đi một
 cạnh




                      + “c d”


                                26
Cắt nhánh (1)
Nếu từ đầu tiên
 của bước tiếp theo
 bằng nhãn của liên
 kết
 Cắt nhánh một
 đoạn bằng đoạn
 vừa cắt, liên kết lại

                         + “a b c”


                                     27
Cắt nhánh (2)
Nếu từ đầu tiên
 của bước tiếp theo
 khác nhãn của liên
 kết
Cắt nhánh chứa
 các nút lá được
 liên kết
Độ dài đoạn cắt
 sao cho phần còn       + “b c”
 lại không chứa p-
 gram đã có = |g(l)|-
 p+1                              28
1.   Giới thiệu
2.   Phát biểu bài toán
3.   Cây n-gram
4.   Giải quyết bài toán bằng cây n-gram
5.   Thực nghiệm
6.   Hướng phát triển



                                           34
Các bước thực hiện
1.   Loại bỏ mã HTML
2.   Tách từ
3.   Loại bỏ stop word
4.   Đếm n-gram
5.   Trích ra 10 cụm xuất hiện nhiều nhất




                                            35
Cài đặt
 C#.Net
 Tích hợp vào hệ
  thống ePi ORM




                    36
Thời gian tính
                     Thời gian tính theo số từ (s)
 0.2

0.18

0.16

0.14

0.12

 0.1

0.08

0.06

0.04

0.02

  0
       0   1000   2000    3000     4000    5000      6000   7000   8000




                                                                          37
1.   Giới thiệu
2.   Phát biểu bài toán
3.   Cây n-gram
4.   Giải quyết bài toán bằng cây n-gram
5.   Thực nghiệm
6.   Hướng phát triển



                                           38
Hướng phát triển
 Nhận xét: từ độ sâu p trở đi cây không
  phân nhánh  gộp thành một nút để
  tăng tốc
 Tìm ra các ứng dụng mới của cây n-
  gram




                                       39

More Related Content

What's hot

Chuyen de so hocVMF
Chuyen de so hocVMFChuyen de so hocVMF
Chuyen de so hocVMF
Vui Lên Bạn Nhé
 
CHUYÊN ĐỀ SỐ HỌC ÔN THI VÀO LỚP 10 CÁC TRƯỜNG CHUYÊN
CHUYÊN ĐỀ SỐ HỌC ÔN THI VÀO LỚP 10 CÁC TRƯỜNG CHUYÊNCHUYÊN ĐỀ SỐ HỌC ÔN THI VÀO LỚP 10 CÁC TRƯỜNG CHUYÊN
CHUYÊN ĐỀ SỐ HỌC ÔN THI VÀO LỚP 10 CÁC TRƯỜNG CHUYÊN
BOIDUONGTOAN.COM
 
Bo de kiem tra toan 7
Bo de kiem tra toan 7Bo de kiem tra toan 7
Bo de kiem tra toan 7
minhhuong2501
 
Toan11 chuong 4_gioi_han_day_so_ham so
Toan11 chuong 4_gioi_han_day_so_ham soToan11 chuong 4_gioi_han_day_so_ham so
Toan11 chuong 4_gioi_han_day_so_ham soquantcn
 
CHUYÊN ĐỀ ĐẠI SỐ ÔN THI VÀO LỚP 10 CÁC TRƯỜNG CHUYÊN
CHUYÊN ĐỀ ĐẠI SỐ ÔN THI VÀO LỚP 10 CÁC TRƯỜNG CHUYÊNCHUYÊN ĐỀ ĐẠI SỐ ÔN THI VÀO LỚP 10 CÁC TRƯỜNG CHUYÊN
CHUYÊN ĐỀ ĐẠI SỐ ÔN THI VÀO LỚP 10 CÁC TRƯỜNG CHUYÊN
BOIDUONGTOAN.COM
 
Ứng dụng đồng dư vào giải toán chia hết lớp 9
Ứng dụng đồng dư vào giải toán chia hết lớp 9Ứng dụng đồng dư vào giải toán chia hết lớp 9
Ứng dụng đồng dư vào giải toán chia hết lớp 9
youngunoistalented1995
 
1 (1) thithu2011 (2)
1 (1) thithu2011 (2)1 (1) thithu2011 (2)
1 (1) thithu2011 (2)trungcodan
 
Toan nghia
Toan nghiaToan nghia
Toan nghia
Kim Liên Cao
 
Thi thử toán chuyên nguyễn huệ 2012 lần 3 k d
Thi thử toán chuyên nguyễn huệ 2012 lần 3 k dThi thử toán chuyên nguyễn huệ 2012 lần 3 k d
Thi thử toán chuyên nguyễn huệ 2012 lần 3 k dThế Giới Tinh Hoa
 
Tìm thành phần liên thông mạnh và bài toán 2-SAT
Tìm thành phần liên thông mạnh và bài toán 2-SATTìm thành phần liên thông mạnh và bài toán 2-SAT
Tìm thành phần liên thông mạnh và bài toán 2-SAT
Tam Pham Minh
 
Vận dụng hằng đẳng thức vào giải toán
Vận dụng hằng đẳng thức vào giải toánVận dụng hằng đẳng thức vào giải toán
Vận dụng hằng đẳng thức vào giải toán
Cảnh
 
HÀM SỐ MŨ & LOGARIT
HÀM SỐ MŨ & LOGARITHÀM SỐ MŨ & LOGARIT
HÀM SỐ MŨ & LOGARIT
DANAMATH
 
Tai lieu danh cho hsg toan lop 8
Tai lieu danh cho hsg toan lop 8Tai lieu danh cho hsg toan lop 8
Tai lieu danh cho hsg toan lop 8
Học Tập Long An
 
Tổng hợp hệ pt
Tổng hợp hệ ptTổng hợp hệ pt
Tổng hợp hệ pt
bluebookworm06_03
 
4 cac he_dem_dung_trong_tin_hoc
4 cac he_dem_dung_trong_tin_hoc4 cac he_dem_dung_trong_tin_hoc
4 cac he_dem_dung_trong_tin_hoc
toanpv1989
 
Sử dụng máy tính
Sử dụng máy tínhSử dụng máy tính
Sử dụng máy tínhqueothienhoang
 

What's hot (19)

Bìa tập đại số tổ hợp
Bìa tập đại số tổ hợpBìa tập đại số tổ hợp
Bìa tập đại số tổ hợp
 
Chuyen de so hocVMF
Chuyen de so hocVMFChuyen de so hocVMF
Chuyen de so hocVMF
 
CHUYÊN ĐỀ SỐ HỌC ÔN THI VÀO LỚP 10 CÁC TRƯỜNG CHUYÊN
CHUYÊN ĐỀ SỐ HỌC ÔN THI VÀO LỚP 10 CÁC TRƯỜNG CHUYÊNCHUYÊN ĐỀ SỐ HỌC ÔN THI VÀO LỚP 10 CÁC TRƯỜNG CHUYÊN
CHUYÊN ĐỀ SỐ HỌC ÔN THI VÀO LỚP 10 CÁC TRƯỜNG CHUYÊN
 
Bo de kiem tra toan 7
Bo de kiem tra toan 7Bo de kiem tra toan 7
Bo de kiem tra toan 7
 
Toan11 chuong 4_gioi_han_day_so_ham so
Toan11 chuong 4_gioi_han_day_so_ham soToan11 chuong 4_gioi_han_day_so_ham so
Toan11 chuong 4_gioi_han_day_so_ham so
 
CHUYÊN ĐỀ ĐẠI SỐ ÔN THI VÀO LỚP 10 CÁC TRƯỜNG CHUYÊN
CHUYÊN ĐỀ ĐẠI SỐ ÔN THI VÀO LỚP 10 CÁC TRƯỜNG CHUYÊNCHUYÊN ĐỀ ĐẠI SỐ ÔN THI VÀO LỚP 10 CÁC TRƯỜNG CHUYÊN
CHUYÊN ĐỀ ĐẠI SỐ ÔN THI VÀO LỚP 10 CÁC TRƯỜNG CHUYÊN
 
Dãy số nguyễn tất thu
Dãy số  nguyễn tất thuDãy số  nguyễn tất thu
Dãy số nguyễn tất thu
 
Ứng dụng đồng dư vào giải toán chia hết lớp 9
Ứng dụng đồng dư vào giải toán chia hết lớp 9Ứng dụng đồng dư vào giải toán chia hết lớp 9
Ứng dụng đồng dư vào giải toán chia hết lớp 9
 
1 (1) thithu2011 (2)
1 (1) thithu2011 (2)1 (1) thithu2011 (2)
1 (1) thithu2011 (2)
 
Toan nghia
Toan nghiaToan nghia
Toan nghia
 
Thi thử toán chuyên nguyễn huệ 2012 lần 3 k d
Thi thử toán chuyên nguyễn huệ 2012 lần 3 k dThi thử toán chuyên nguyễn huệ 2012 lần 3 k d
Thi thử toán chuyên nguyễn huệ 2012 lần 3 k d
 
đề Cương ôn tập toán 7
đề Cương ôn tập toán 7đề Cương ôn tập toán 7
đề Cương ôn tập toán 7
 
Tìm thành phần liên thông mạnh và bài toán 2-SAT
Tìm thành phần liên thông mạnh và bài toán 2-SATTìm thành phần liên thông mạnh và bài toán 2-SAT
Tìm thành phần liên thông mạnh và bài toán 2-SAT
 
Vận dụng hằng đẳng thức vào giải toán
Vận dụng hằng đẳng thức vào giải toánVận dụng hằng đẳng thức vào giải toán
Vận dụng hằng đẳng thức vào giải toán
 
HÀM SỐ MŨ & LOGARIT
HÀM SỐ MŨ & LOGARITHÀM SỐ MŨ & LOGARIT
HÀM SỐ MŨ & LOGARIT
 
Tai lieu danh cho hsg toan lop 8
Tai lieu danh cho hsg toan lop 8Tai lieu danh cho hsg toan lop 8
Tai lieu danh cho hsg toan lop 8
 
Tổng hợp hệ pt
Tổng hợp hệ ptTổng hợp hệ pt
Tổng hợp hệ pt
 
4 cac he_dem_dung_trong_tin_hoc
4 cac he_dem_dung_trong_tin_hoc4 cac he_dem_dung_trong_tin_hoc
4 cac he_dem_dung_trong_tin_hoc
 
Sử dụng máy tính
Sử dụng máy tínhSử dụng máy tính
Sử dụng máy tính
 

Similar to Xây dựng tag cloud bằng cây n-gram

tai-lieu-chu-de-nhi-thuc-niu-ton-Copy.pdf
tai-lieu-chu-de-nhi-thuc-niu-ton-Copy.pdftai-lieu-chu-de-nhi-thuc-niu-ton-Copy.pdf
tai-lieu-chu-de-nhi-thuc-niu-ton-Copy.pdf
HuongGiangNguyen43
 
Vận dụng giới hạn dãy số trong giải phương trình hàm.pdf
Vận dụng giới hạn dãy số trong giải phương trình hàm.pdfVận dụng giới hạn dãy số trong giải phương trình hàm.pdf
Vận dụng giới hạn dãy số trong giải phương trình hàm.pdf
vongoccuong
 
525 bai tap_toan_a1
525 bai tap_toan_a1525 bai tap_toan_a1
525 bai tap_toan_a1
dreamteller
 
108 bai toan chon loc lop 7
108 bai toan chon loc lop 7108 bai toan chon loc lop 7
108 bai toan chon loc lop 7
leroben
 
MA TRẬN + ĐẶC TẢ + ĐỀ KIỂM TRA CUỐI HỌC KÌ 2 MÔN TOÁN – LỚP 8 BỘ SÁCH KẾT NỐI...
MA TRẬN + ĐẶC TẢ + ĐỀ KIỂM TRA CUỐI HỌC KÌ 2 MÔN TOÁN – LỚP 8 BỘ SÁCH KẾT NỐI...MA TRẬN + ĐẶC TẢ + ĐỀ KIỂM TRA CUỐI HỌC KÌ 2 MÔN TOÁN – LỚP 8 BỘ SÁCH KẾT NỐI...
MA TRẬN + ĐẶC TẢ + ĐỀ KIỂM TRA CUỐI HỌC KÌ 2 MÔN TOÁN – LỚP 8 BỘ SÁCH KẾT NỐI...
Nguyen Thanh Tu Collection
 
Kỹ thuật lập trình (khoa toán tin học)
Kỹ thuật lập trình (khoa toán tin học)Kỹ thuật lập trình (khoa toán tin học)
Kỹ thuật lập trình (khoa toán tin học)nhok_lovely
 
200 Bài Toán tư duy lớp 4
200 Bài Toán tư duy lớp 4200 Bài Toán tư duy lớp 4
200 Bài Toán tư duy lớp 4
anhtuyethcmup1
 
Caunangcao toan2017
Caunangcao toan2017Caunangcao toan2017
Caunangcao toan2017
Phạm Văn Hoằng
 
Bài tập CTDL và GT 13
Bài tập CTDL và GT 13Bài tập CTDL và GT 13
Bài tập CTDL và GT 13
Hồ Lợi
 
Cơ sở dữ liệu và giải thuật Vũ Song Tùng
Cơ sở dữ liệu và giải thuật Vũ Song TùngCơ sở dữ liệu và giải thuật Vũ Song Tùng
Cơ sở dữ liệu và giải thuật Vũ Song Tùng
dtrhung_vtbk
 
DepressionPredictaiushdihiwqhdiwqqqwdqw.ppt
DepressionPredictaiushdihiwqhdiwqqqwdqw.pptDepressionPredictaiushdihiwqhdiwqqqwdqw.ppt
DepressionPredictaiushdihiwqhdiwqqqwdqw.ppt
linhly42
 
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTITKHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT
Popping Khiem - Funky Dance Crew PTIT
 
CHUYÊN ĐỀ DẠY THÊM ĐẦY ĐỦ TOÁN 9 NĂM 2024 - CẢ NĂM (ĐHSPHN) - LÍ THUYẾT TRỌNG...
CHUYÊN ĐỀ DẠY THÊM ĐẦY ĐỦ TOÁN 9 NĂM 2024 - CẢ NĂM (ĐHSPHN) - LÍ THUYẾT TRỌNG...CHUYÊN ĐỀ DẠY THÊM ĐẦY ĐỦ TOÁN 9 NĂM 2024 - CẢ NĂM (ĐHSPHN) - LÍ THUYẾT TRỌNG...
CHUYÊN ĐỀ DẠY THÊM ĐẦY ĐỦ TOÁN 9 NĂM 2024 - CẢ NĂM (ĐHSPHN) - LÍ THUYẾT TRỌNG...
Nguyen Thanh Tu Collection
 
600 câu trắc nghiệm lớp 12 có đáp án ôn tập chương 2 hàm số mũ, logarit
600 câu trắc nghiệm lớp 12 có đáp án ôn tập chương 2 hàm số mũ, logarit600 câu trắc nghiệm lớp 12 có đáp án ôn tập chương 2 hàm số mũ, logarit
600 câu trắc nghiệm lớp 12 có đáp án ôn tập chương 2 hàm số mũ, logarit
haic2hv.net
 
ThiếT Kế Và đáNh Giá ThuậT ToáN
ThiếT Kế Và đáNh Giá ThuậT ToáNThiếT Kế Và đáNh Giá ThuậT ToáN
ThiếT Kế Và đáNh Giá ThuậT ToáNguest717ec2
 
Tich phan %28 nguyen duy khoi%29
Tich phan %28 nguyen duy khoi%29Tich phan %28 nguyen duy khoi%29
Tich phan %28 nguyen duy khoi%29trongphuckhtn
 

Similar to Xây dựng tag cloud bằng cây n-gram (20)

File403
File403File403
File403
 
tai-lieu-chu-de-nhi-thuc-niu-ton-Copy.pdf
tai-lieu-chu-de-nhi-thuc-niu-ton-Copy.pdftai-lieu-chu-de-nhi-thuc-niu-ton-Copy.pdf
tai-lieu-chu-de-nhi-thuc-niu-ton-Copy.pdf
 
Hoán vị lặp tổ hợp
Hoán vị lặp tổ hợpHoán vị lặp tổ hợp
Hoán vị lặp tổ hợp
 
Vận dụng giới hạn dãy số trong giải phương trình hàm.pdf
Vận dụng giới hạn dãy số trong giải phương trình hàm.pdfVận dụng giới hạn dãy số trong giải phương trình hàm.pdf
Vận dụng giới hạn dãy số trong giải phương trình hàm.pdf
 
525 bai tap_toan_a1
525 bai tap_toan_a1525 bai tap_toan_a1
525 bai tap_toan_a1
 
108 bai toan chon loc lop 7
108 bai toan chon loc lop 7108 bai toan chon loc lop 7
108 bai toan chon loc lop 7
 
MA TRẬN + ĐẶC TẢ + ĐỀ KIỂM TRA CUỐI HỌC KÌ 2 MÔN TOÁN – LỚP 8 BỘ SÁCH KẾT NỐI...
MA TRẬN + ĐẶC TẢ + ĐỀ KIỂM TRA CUỐI HỌC KÌ 2 MÔN TOÁN – LỚP 8 BỘ SÁCH KẾT NỐI...MA TRẬN + ĐẶC TẢ + ĐỀ KIỂM TRA CUỐI HỌC KÌ 2 MÔN TOÁN – LỚP 8 BỘ SÁCH KẾT NỐI...
MA TRẬN + ĐẶC TẢ + ĐỀ KIỂM TRA CUỐI HỌC KÌ 2 MÔN TOÁN – LỚP 8 BỘ SÁCH KẾT NỐI...
 
Kỹ thuật lập trình (khoa toán tin học)
Kỹ thuật lập trình (khoa toán tin học)Kỹ thuật lập trình (khoa toán tin học)
Kỹ thuật lập trình (khoa toán tin học)
 
200 Bài Toán tư duy lớp 4
200 Bài Toán tư duy lớp 4200 Bài Toán tư duy lớp 4
200 Bài Toán tư duy lớp 4
 
Caunangcao toan2017
Caunangcao toan2017Caunangcao toan2017
Caunangcao toan2017
 
Bài tập CTDL và GT 13
Bài tập CTDL và GT 13Bài tập CTDL và GT 13
Bài tập CTDL và GT 13
 
Cơ sở dữ liệu và giải thuật Vũ Song Tùng
Cơ sở dữ liệu và giải thuật Vũ Song TùngCơ sở dữ liệu và giải thuật Vũ Song Tùng
Cơ sở dữ liệu và giải thuật Vũ Song Tùng
 
Ch08
Ch08Ch08
Ch08
 
Ch08
Ch08Ch08
Ch08
 
DepressionPredictaiushdihiwqhdiwqqqwdqw.ppt
DepressionPredictaiushdihiwqhdiwqqqwdqw.pptDepressionPredictaiushdihiwqhdiwqqqwdqw.ppt
DepressionPredictaiushdihiwqhdiwqqqwdqw.ppt
 
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTITKHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT
 
CHUYÊN ĐỀ DẠY THÊM ĐẦY ĐỦ TOÁN 9 NĂM 2024 - CẢ NĂM (ĐHSPHN) - LÍ THUYẾT TRỌNG...
CHUYÊN ĐỀ DẠY THÊM ĐẦY ĐỦ TOÁN 9 NĂM 2024 - CẢ NĂM (ĐHSPHN) - LÍ THUYẾT TRỌNG...CHUYÊN ĐỀ DẠY THÊM ĐẦY ĐỦ TOÁN 9 NĂM 2024 - CẢ NĂM (ĐHSPHN) - LÍ THUYẾT TRỌNG...
CHUYÊN ĐỀ DẠY THÊM ĐẦY ĐỦ TOÁN 9 NĂM 2024 - CẢ NĂM (ĐHSPHN) - LÍ THUYẾT TRỌNG...
 
600 câu trắc nghiệm lớp 12 có đáp án ôn tập chương 2 hàm số mũ, logarit
600 câu trắc nghiệm lớp 12 có đáp án ôn tập chương 2 hàm số mũ, logarit600 câu trắc nghiệm lớp 12 có đáp án ôn tập chương 2 hàm số mũ, logarit
600 câu trắc nghiệm lớp 12 có đáp án ôn tập chương 2 hàm số mũ, logarit
 
ThiếT Kế Và đáNh Giá ThuậT ToáN
ThiếT Kế Và đáNh Giá ThuậT ToáNThiếT Kế Và đáNh Giá ThuậT ToáN
ThiếT Kế Và đáNh Giá ThuậT ToáN
 
Tich phan %28 nguyen duy khoi%29
Tich phan %28 nguyen duy khoi%29Tich phan %28 nguyen duy khoi%29
Tich phan %28 nguyen duy khoi%29
 

More from Minh Lê

Robust Object Recognition with Cortex-Like Mechanisms
Robust Object Recognition with Cortex-Like MechanismsRobust Object Recognition with Cortex-Like Mechanisms
Robust Object Recognition with Cortex-Like Mechanisms
Minh Lê
 
how neurons connect to each others?
how neurons connect to each others?how neurons connect to each others?
how neurons connect to each others?Minh Lê
 
Lý thuyết tính toán - BKHN - 7
Lý thuyết tính toán - BKHN - 7Lý thuyết tính toán - BKHN - 7
Lý thuyết tính toán - BKHN - 7Minh Lê
 
Lý thuyết tính toán - BKHN - 5
Lý thuyết tính toán - BKHN - 5Lý thuyết tính toán - BKHN - 5
Lý thuyết tính toán - BKHN - 5Minh Lê
 
Lý thuyết tính toán - BKHN - 4
Lý thuyết tính toán - BKHN - 4Lý thuyết tính toán - BKHN - 4
Lý thuyết tính toán - BKHN - 4Minh Lê
 
Lý thuyết tính toán - BKHN - 3
Lý thuyết tính toán - BKHN - 3Lý thuyết tính toán - BKHN - 3
Lý thuyết tính toán - BKHN - 3Minh Lê
 
Lý thuyết tính toán - BKHN - 2
Lý thuyết tính toán - BKHN - 2Lý thuyết tính toán - BKHN - 2
Lý thuyết tính toán - BKHN - 2Minh Lê
 
Lý thuyết tính toán - BKHN - 1
Lý thuyết tính toán - BKHN - 1Lý thuyết tính toán - BKHN - 1
Lý thuyết tính toán - BKHN - 1Minh Lê
 
Lý thuyết tính toán - BKHN - 6
Lý thuyết tính toán - BKHN - 6Lý thuyết tính toán - BKHN - 6
Lý thuyết tính toán - BKHN - 6Minh Lê
 
Cross-entropy method
Cross-entropy methodCross-entropy method
Cross-entropy method
Minh Lê
 
Cross-entropy method
Cross-entropy methodCross-entropy method
Cross-entropy method
Minh Lê
 
Parsimony problems
Parsimony problemsParsimony problems
Parsimony problems
Minh Lê
 
Food expert system
Food expert systemFood expert system
Food expert systemMinh Lê
 

More from Minh Lê (13)

Robust Object Recognition with Cortex-Like Mechanisms
Robust Object Recognition with Cortex-Like MechanismsRobust Object Recognition with Cortex-Like Mechanisms
Robust Object Recognition with Cortex-Like Mechanisms
 
how neurons connect to each others?
how neurons connect to each others?how neurons connect to each others?
how neurons connect to each others?
 
Lý thuyết tính toán - BKHN - 7
Lý thuyết tính toán - BKHN - 7Lý thuyết tính toán - BKHN - 7
Lý thuyết tính toán - BKHN - 7
 
Lý thuyết tính toán - BKHN - 5
Lý thuyết tính toán - BKHN - 5Lý thuyết tính toán - BKHN - 5
Lý thuyết tính toán - BKHN - 5
 
Lý thuyết tính toán - BKHN - 4
Lý thuyết tính toán - BKHN - 4Lý thuyết tính toán - BKHN - 4
Lý thuyết tính toán - BKHN - 4
 
Lý thuyết tính toán - BKHN - 3
Lý thuyết tính toán - BKHN - 3Lý thuyết tính toán - BKHN - 3
Lý thuyết tính toán - BKHN - 3
 
Lý thuyết tính toán - BKHN - 2
Lý thuyết tính toán - BKHN - 2Lý thuyết tính toán - BKHN - 2
Lý thuyết tính toán - BKHN - 2
 
Lý thuyết tính toán - BKHN - 1
Lý thuyết tính toán - BKHN - 1Lý thuyết tính toán - BKHN - 1
Lý thuyết tính toán - BKHN - 1
 
Lý thuyết tính toán - BKHN - 6
Lý thuyết tính toán - BKHN - 6Lý thuyết tính toán - BKHN - 6
Lý thuyết tính toán - BKHN - 6
 
Cross-entropy method
Cross-entropy methodCross-entropy method
Cross-entropy method
 
Cross-entropy method
Cross-entropy methodCross-entropy method
Cross-entropy method
 
Parsimony problems
Parsimony problemsParsimony problems
Parsimony problems
 
Food expert system
Food expert systemFood expert system
Food expert system
 

Xây dựng tag cloud bằng cây n-gram

  • 1. Xây dựng tag cloud bằng cây n-gram Lê Ngọc Minh
  • 2. Nội dung 1. Giới thiệu 2. Phát biểu bài toán 3. Cây n-gram 4. Giải quyết bài toán bằng cây n-gram 5. Thực nghiệm 6. Hướng phát triển 2
  • 3. 1. Giới thiệu 2. Phát biểu bài toán 3. Cây n-gram 4. Giải quyết bài toán bằng cây n-gram 5. Thực nghiệm 6. Hướng phát triển 3
  • 4. Quản lý danh tiếng trực tuyến  Danh tiếng: Những gì mọi người nói về một nhãn hiệu, tên tuổi.  Quản lý danh tiếng: ◦ Nắm được cộng đồng quan tâm đến điều gì. ◦ Nắm được ý kiến (tích cực/tiêu cực) của cộng đồng về điều đó. ◦ Giải quyết khủng hoảng: loại bỏ những ý kiến không thuận lợi hoặc đẩy nó xuống thấp hơn trong kết quả tìm kiếm. 5
  • 6. Nghiên cứu liên quan đến ORM Số bài báo trên Google  Năm 2000: 6 4500 Scholar *  Năm 2001: 10 4000  ... Năm 2009: 1929 3500 3000  2500  Năm 2010: 3030 2000  Năm 2011: 4022 1500 1000  Đầu năm 2012: 896 500 0 (*) Tìm kiếm trên 3 từ khóa "sentiment analysis", “sentiment 2000 2002 2004 2006 2008 2010 classification” và "opinion mining" . 7
  • 7. Tag cloud  Những cụm từ thường được nhắc đến khi đề cập đến một nhãn hiệu, tên tuổi.  Giả sử có sự tương quan giữa số lần được nhắc đến và độ quan tâm ◦ Nhắc đến nhiều trên báo, diễn đàn, mạng xã hội  nhiều người đọc  nhiều người quan tâm. ◦ Nhiều người quan tâm  Nhiều thảo luận trên diễn đàn, mạng xã hội  Được nhắc đến nhiều.  Cho biết cộng đồng quan tâm nhiều nhất đến điều gì. 8
  • 8. Ví dụ về tag cloud (1)  Tag cloud cho từ khóa VnIdol.  Dự đoán: ◦ Chương trình “Gắn kết yêu thương” được quan tâm. ◦ Có sự so sánh với các chương trình khác. 9
  • 9. Ví dụ về tag cloud (2) <tagcloud> <tag string="show truyền_hình_thực_tế" count="4" /> <tag string="tổ_chức trình_diễn" count="4"/> <tag string="trình_diễn thời_trang" count="4"/> <tag string="bộ_vi_xử_lý intel" count="4"/> <tag string="intel core" count="4"/> <tag string="core 2" count="4"/> <tag string="2 duo" count="4"/> <tag string="ngôi_nhà âm_nhạc" count="4"/> <tag string="tìm_kiếm tài_năng" count="4"/> <tag string="s got_talent" count="4""/> <tag string="mở_rộng sân_chơi" count="3" /> <tag string="sân_chơi ca_hát" count="3" /> </tagcloud> 10
  • 10. Ví dụ về tag cloud (2)  Nhận xét: ◦ Một số cụm xuất hiện cùng nhau nhưng bị tách ra thành các n-gram khác nhau ◦ Các cụm ngắn ít ý nghĩa ◦ Nhiều cụm ngắn gây mất tập trung 11
  • 11. Ví dụ về tag cloud (2) <tagcloud> <tag string="show truyền_hình_thực_tế" count="4" /> <tag string="tổ_chức trình_diễn thời_trang" count="4"/> <tag string="bộ_vi_xử_lý intel core 2 duo" count="4"/> <tag string="ngôi_nhà âm_nhạc" count="4"/> <tag string="tìm_kiếm tài_năng" count="4"/> <tag string="s got_talent" count="4""/> <tag string="mở_rộng sân_chơi ca_hát" count="3" /> </tagcloud> 12
  • 12. 1. Giới thiệu 2. Phát biểu bài toán 3. Cây n-gram 4. Giải quyết bài toán bằng cây n-gram 5. Thực nghiệm 6. Hướng phát triển 13
  • 13. Phát biểu bài toán  Đầu vào: tập các câu S = {S1, S2,…, SN}, số p  Đầu ra: các bộ (g,c) ◦ g : n-gram trong S (n ≥ p). ◦ c : số lần xuất hiện tương ứng. ◦ Ràng buộc: ghép tất cả các n-gram luôn xuất hiện cùng nhau tạo thành n-gram dài hơn. 14
  • 14. 1. Giới thiệu 2. Phát biểu bài toán 3. Cây n-gram 4. Giải quyết bài toán bằng cây n-gram 5. Thực nghiệm 6. Hướng phát triển 15
  • 15. Định nghĩa Cho trước S và p, cây n- gram T là cây: 1. Tất cả các cạnh đều có nhãn là một từ trong S. 2. Các cạnh xuất phát từ cùng một nút có nhãn không trùng nhau. 3. Các nhãn cạnh trên đường đi P từ gốc đến nút lá l ghép lại thành một n-gram của S (n ≥ p), ký hiệu g(l). 16
  • 16. Định nghĩa 4. Trên một đường đi P từ gốc đến nút lá l, tất cả các n-gram (n ≥ p) có thể tạo thành đều có số lần xuất hiện bằng nhau trong S. Nút lá l được gán nhãn là số lần xuất hiện đó, ký hiệu c(l). 17
  • 17. Định nghĩa 5. Nút lá l có liên kết (l’, x) nếu g(l’) = xg(l) (x là một từ nào đó) và c(l’) = c(l). Khi đó l’ có một liên kết ngược đến l. 6. Với mọi p-gram g’ của S, có thể tìm được nút lá l sao Cây n-gram cho: cho g’ ∈ prefix(g(l)) S = “a b c. a b c. c d.” và countS(g’) = c(l). p = 2 18
  • 18. Ý nghĩa 1. Cho một p-gram g bất kỳ, hỏi nó xuất hiện bao nhiêu lần trong S  tìm đường đi bắt đầu bằng g. 2. Liệt kê tất cả các p-gram của S  duyệt tất cả các đường đi từ gốc có độ dài p. 3. Giải bài toán ban đầu  duyệt tất cả các đường đi từ gốc đến lá mà nút lá không có liên kết xuôi. 20
  • 19. 1. Giới thiệu 2. Phát biểu bài toán 3. Cây n-gram 4. Giải quyết bài toán bằng cây n- gram 5. Thực nghiệm 6. Hướng phát triển 21
  • 20. Giải thuật xây dựng cây  Xuất phát từ một cây T rỗng (chỉ có nút gốc), thêm từng câu Si vào T.  Thêm từng hậu tố Si,j theo thứ tự ngược  Giả sử tiền tố dài nhất của Si,j có thể tìm thấy trong cây có độ dài m ◦ m < p : thêm đoạn còn lại vào cây ◦m≥p:  Kết thúc ở nút lá: tăng nhãn lên 1  Ngược lại: cắt nhánh 22
  • 21. Thêm cạnh (1)  Tại bước k, xâu Si,k đã tồn tại trong cây  Tại bước j (j < k), xâu Si,j được thêm vào cây  Ta chỉ thêm đoạn Si[j..k+p-2] vì p-gram Si[k..k+p-1] đã tồn tại  Gọi b là vị trí cuối đoạn  sau mỗi + “a c d” bước không thêm cạnh, gán b=j+p-2 23
  • 22. Thêm cạnh (2)  Nếu thao tác thêm cạnh được thực hiện hai lần liên tiếp, các nút lá mới được liên kết  Gọi l là nút lá được tạo sau mỗi bước: ◦ Sau một bước không thêm cạnh, l = nil 24
  • 23. Tăng nhãn (1) Nếu từ đầu tiên của bước tiếp theo bằng nhãn liên kết  tăng nhãn của nút được liên kết + “a b c d” 25
  • 24. Tăng nhãn (2) Nếu từ đầu tiên của bước tiếp theo khác nhãn liên kết cắt nhánh đi một cạnh + “c d” 26
  • 25. Cắt nhánh (1) Nếu từ đầu tiên của bước tiếp theo bằng nhãn của liên kết  Cắt nhánh một đoạn bằng đoạn vừa cắt, liên kết lại + “a b c” 27
  • 26. Cắt nhánh (2) Nếu từ đầu tiên của bước tiếp theo khác nhãn của liên kết Cắt nhánh chứa các nút lá được liên kết Độ dài đoạn cắt sao cho phần còn + “b c” lại không chứa p- gram đã có = |g(l)|- p+1 28
  • 27. 1. Giới thiệu 2. Phát biểu bài toán 3. Cây n-gram 4. Giải quyết bài toán bằng cây n-gram 5. Thực nghiệm 6. Hướng phát triển 34
  • 28. Các bước thực hiện 1. Loại bỏ mã HTML 2. Tách từ 3. Loại bỏ stop word 4. Đếm n-gram 5. Trích ra 10 cụm xuất hiện nhiều nhất 35
  • 29. Cài đặt  C#.Net  Tích hợp vào hệ thống ePi ORM 36
  • 30. Thời gian tính Thời gian tính theo số từ (s) 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 1000 2000 3000 4000 5000 6000 7000 8000 37
  • 31. 1. Giới thiệu 2. Phát biểu bài toán 3. Cây n-gram 4. Giải quyết bài toán bằng cây n-gram 5. Thực nghiệm 6. Hướng phát triển 38
  • 32. Hướng phát triển  Nhận xét: từ độ sâu p trở đi cây không phân nhánh  gộp thành một nút để tăng tốc  Tìm ra các ứng dụng mới của cây n- gram 39

Editor's Notes

  1. ChươngtrìnhtừthiệntrênYanTVhttp://kenh14.vn/c3/20120412100039388/25-sao-viet-dep-lung-linh-trong-mv-gan-ket-yeu-thuong.chn
  2. count(a b) = count(b c) = count(a b c) = 2