Webmining[final]

964 views

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
964
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
50
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Là sự kết hợp giữa khai phá text và công nghệ web.- Khai phá dữ liệu: phát hiện tri thức trong CSDL(quá trình nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và được hiểu trong dữ liệu)
  • Pingdom.com là một website uy tín chuyên cung cấp các dịch vụ quản lý và theo dõi lưu lượng truy cập cho các website trên toàn thế giới.
  • - Các CSDL truyền thống có kích thước không lớn lắm, thường được lưu trữ tập trungWeb có kích thước rất lớn, tới hàng T, thay đổi liên tục, phân tán khắp thế giới.1/2005, có hơn 11,5 tỷ trang web được đánh chỉ số, Google đã lưu hơn 4 tỷ trang Web với dung lượng hàng trăm T(trung bình 5-10KB  55TB)  không thể xây dựng kho lưu trữ tích hợpdữ liệu thường không đồng nhất: nhiều ngôn ngữ(nội dung, lập trình), nhiều định dạng, từ vựng. Nhưng không được sắp xếp theo một tiêu chuẩn nàoCác thông tin trong web được cập nhật liên tục. Ví dụ: tin tức, thị trường chứng khoán, quảng cáo,...Phục vụ cho lượng người đa dạng, mức độ quan tâm khác nhau99% thông tin của web là vô ích với 99% người dùng web
  • cấu trúc theo quy định của ngôn ngữ định dạng
  • 1: phân lớp, phân cụm, phân đoạn kết hợp với các siêu liên kết2: dự báo khai thác yếu tố thời gian liên quan đến thời điểm xuất hiện trang web  dự báo nội dung, cấu trúc, hình thức xuất hiện trong thời gian tới; dự báo nhu cầu, đánh giá khách hàng,…
  • Phần lớn tri thức web được chứa trong nội dung văn bảnVăn bản không phải toàn bộ nội dung web, mà còn hình ảnh, âm thanh, video,…
  • Quá trình này thường sử dụng các thông tin như tiêu đề trang, URL, content-type, các liên kết trong trang web... để tiến hành phân lớp và đưa ra tập con các kết quả tốt nhất cho người dùng.
  • Y tế: hoạt động khám và điều trị  cung cấp kinh nghiệm chuyên môn, phát triển chuyên môn, tiềm ẩn các thông tin liên quan bệnh – thuốc – bệnh nhânTin- sinh học: gen, di truyềnAn toàn thông tin: mail, tin tức,...  đưa ra các kết nối giữa con người, nhóm, ứng xử, thị hiếuPhần mềm: phát hiện phần mềm nhái, thu gọn tối ưu hoá
  • Khi nói đến khai phá cấu trúc web là chúng ta phải tưởng tượng , hình dung nó dưới dạng đồ thị. Đỉnh là trang web và cạnh là các liên kết . Ví dụ : blog , mạng xã hội ….email cũng là một dạng của đồ thị web.
  • Khai phá đồ thị Web là bài toán cơ bản nhất và cũng điển hình nhất trong khai phá cấu trúc Web.
  • Đồ thị nhận thấy rất đơn giản trong cuộc sống đó là các quan hệ xã hội. Còn trong web thì cũng tương tự như vậy. Mỗi trang Web là 1 đỉnh, các cạnh của nó là các link trỏ tới nó hoặc nó trỏ tới trang khác.Ngoài ra còn có thêm 1 số ví dụ về đồ thị áp dụng trong internet như: email, blog , facebok..
  • Trang A liên kết tới B Ok có hướng.Hạng trang Web, là một bài toán kinh điển, hạng này được sử dụng trong nhiều tình huống khác nhau: Những trang có rank cao thì sẽ được dẫn dắt đi trước trong tìm kiếm của Google. Theo số liệu nghiên cứu thì, khi 1 trang web có nhiều trang link tới nó thì đó là trang web quan trọng. Rank sẽ được tính dược theo các liên kết này.
  • Phân lớp Web dựa theo liên kết Khai thác thông tin liên kết cho phân lớp WebPhân cụm Web dựa theo liên kết Tìm ra sự xuất hiện tự nhiên các lớp con: dữ liệu là liên kếtPhân tích kiểu liên kết Dự báo về sự tồn tại của liên kết Dự báo mục đích của liên kết Phân tích độ mạnh liên kết Độ mạnh của cung và đỉnh (hạng trang)Phân tích số lượng liên kết Dự báo số lượng liên kết giữa các đối tượng.
  • Có những trang sẽ đưa sitemap này lên….
  • Tập người dùng có thể koi là đối tượng phục vụ của bài toán phân tích mẫu truy cập WebThông tin truy cập sẽ được Web Server log ghi nhận lại.
  • Không chỉ dừng lại ở các thống kê như thế này mà còn thống kê người dùng, địa điểm, nơi ở , vùng miền để có những chiến lược nhất định
  • Webmining[final]

    1. 1. KHAI PHÁ WEB<br />DATA MINING<br /><ul><li>Võ Minh Phát
    2. 2. Phan Sơn Hải</li></li></ul><li>NỘI DUNG<br />Giới thiệu về khai phá web<br />Khai phá nội dung<br />Khai phá cấu trúc<br />Khai phá sử dụng web<br />
    3. 3. GIỚI THIỆU<br />
    4. 4. KHÁI NIỆM<br />Trích chọn ra các thành phần được quan tâm hay được đánh giá là có ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liên quan đến World Wide Web.<br />
    5. 5. KHAI PHÁ WEB<br />
    6. 6. WEBSITE – THỐNG KÊ<br />http://www.pingdom.com<br />255 triệu – Số website tính đến thời điểm tháng 12/2010.<br />21.4 triệu– Số website mới của năm 2010<br />
    7. 7. ĐẶC TRƯNG WEB<br />Quá lớn để tổ chức thành kho dữ liệu<br />Độ phức tạp là rất lớn<br />Là một nguồn tài nguyên thông tin có độ thay đổi cao<br />Phục vụ một cộng đồng người dùng rộng lớn và đa dạng<br />Chỉ một phần rất nhỏ của thông tin trên web là thực sự hữu ích<br />
    8. 8. THUẬN LỢI<br />Tính «dữ liệu bán cấu trúc»<br />Không chỉ có các trang mà còn có các liên kết<br />Weblog entry<br />
    9. 9. CÁC BÀI TOÁN ỨNG DỤNG<br />Khai phá dữ liệu text + bổ sung các yếu tố của miền ứng dụng dữ liệu web<br />Khai phá dữ liệu mang tính đặc thù của Web<br />
    10. 10. PHÂN LOẠI<br />
    11. 11. KHAI PHÁ NỘI DUNG<br />
    12. 12. WEB PAGE SUMMARIZATION<br />Truy xuất các thông tin từ các văn bản có cấu trúc, văn bản siêu liên kết, hay các văn bản bán cấu trúc. <br /> Liên quan chủ yếu tới việc khai phá bản thân nội dung các văn bản. <br />
    13. 13. SEARCH ENGINE RESULT SUMMARIZATION<br />
    14. 14. QUÁ TRÌNH KHAI PHÁ TEXT<br />
    15. 15. LĨNH VỰC ỨNG DỤNG<br />Y tế và chăm sóc sức khoẻ<br />Sinh học<br />An toàn thông tin<br />Phát triển phần mềm<br />...<br />
    16. 16. KHAI PHÁ CẤU TRÚC<br />
    17. 17. ĐỊNH NGHĨA<br />Là quá trình xử lý, nhằm rút ra các tri thức từ cách tổ chức và liên kết giữa các tham chiếu của các trang web.<br />Gồm: <br /><ul><li>Khai phá đồ thị Web
    18. 18. Khai phá cấu trúc Web</li></li></ul><li>KHAI PHÁ ĐỒ THỊ WEB<br />LINK<br />LINK<br />WEB<br />WEB<br />WEB<br />LINK<br />LINK<br />LINK<br />LINK<br />LINK<br />WEB<br />WEB<br />WEB<br />LINK<br />LINK<br />LINK<br />LINK<br />WEB<br />WEB<br />
    19. 19. VÍ DỤ<br />
    20. 20. KHAI PHÁ ĐỒ THỊ WEB<br />Hạng trang Web: tính “độ quan trọng” của một trang Web.<br />
    21. 21. KHAI PHÁ ĐỒ THỊ WEB<br />
    22. 22. KHAI PHÁ CẤU TRÚC TRANG WEB<br />Cấu trúc trang Web<br />Trang Web tuân thủ theo quy định của ngôn ngữ định dạng trang web (HTML,…)<br />Trang web được tổ chức dưới dạng hình cây.<br />Output khai phá cấu trúc là input khai phá dữ liệu<br />Phân tích cấu trúc trang Web<br />Tìm các mẫu cấu trúc trang Web<br />Kết hợp với khai phá nội dung Web<br />
    23. 23. SITE MAP<br />
    24. 24. KHAI PHÁ SỬ DỤNG WEB<br />
    25. 25. ĐỊNH NGHĨA<br />Xử lý để lấy ra các thông tin hữu ích trong hồ sơ truy cập web.<br />Gồm:<br /><ul><li>Phân tích các mẫu truy cập
    26. 26. Phân tích xu hướng cá nhân</li></li></ul><li>PHÂN TÍCH CÁC MẪU TRUY CẬP<br />Định nghĩa: Phân tích các Web log để khám phá ra các mẫu truy cập của người dùng.<br />IP, TIME, Browser, Device<br />
    27. 27. VÍ DỤ:<br />
    28. 28. VÍ DỤ<br />
    29. 29. PHÂN TÍCH XU HƯỚNG CÁ NHÂN<br />Định nghĩa: Phân tích các mẫu truy cập của người dùng tại mỗi thời điểm để biết xu <br />hướng truy cập trang Web của từng đối tượng người dùng tại mỗi thời điểm khác nhau.<br />Giới thiệu<br />“Cá nhân hóa”: Thông tin cá nhân và tư vấn cá nhân hóa<br />Thông tin cá nhân: CSDL quản lý; Máy khách..<br />Ngữ cảnh làm việc của cá nhân: vào mấy giờ user đó truy cập vào, mục hay truy cập…<br />
    30. 30. Hệ thống khai phá sử dụng Webtư vấn hướng cá nhân<br />
    31. 31. END<br />THANKS FOR LISTENING!<br />

    ×