Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Online Reputation Management and Sentiment Analysis

2,000 views

Published on

Giới thiệu tổng quan về dịch vụ Online Reputation Management, bài toán Sentiment Analysis trong tiếng Việt và hệ thống ePi ORM.

This is a brief introduction about Online Reputation Management, Sentiment Analysis in Vietnamese and ePi's ORM service.

Published in: Technology

Online Reputation Management and Sentiment Analysis

  1. 1. Online Reputation Management và Sentiment Analysis MINH, Lê Ngọc & NGỌC, Đỗ Bích ePi Technologies, JSC.
  2. 2. 05/07: Bán chiếc Galaxy S2 đầu tiên.07/08: Thread trên tinhte về lỗi hồng tâm (namanh18102007).11/08: Vietnamnet: Sự thất vọng mangtên Galaxy S2.14/08: Samsung Vina phản hồi về lỗi.16/08: Samsung Vina sửa lỗi cho namanh18102007. 2
  3. 3. Danh tiếng • Danh tiếng [Reputation] • Danh tiếng trực tuyến [Online reputation]. 3
  4. 4. Bạn có cần bảo vệ danh tiếng trên mạng? Thương hiệu Đời tư Bị bạn gái cũ nói xấu trên mạng! Công việc Người nổi tiếng 4
  5. 5. Online Reputation Management (ORM) 5
  6. 6. Thị trường ORM• Năm 2008: ORM tăng trưởng 30% ước tính đạt giá trị £60 triệu vào cuối năm 2008 (*).• Ước tính: Năm 2008, $100 triệu được chi cho các dịch vụ ORM, vào năm 2011 con số này tăng hơn gấp đôi, khoảng $250 triệu (**).• Năm 2011: Salesforce mua công ty Radian6 với giá $326 triệu (***). * E-consultancy ** Online-Reputation-Management.us *** techcrunch.com 6
  7. 7. Khách hàng của ORM 7
  8. 8. Dịch vụ ORM trên thế giới 8
  9. 9. Dịch vụ ORM ở Việt Nam 9
  10. 10. Tính năng của một dịch vụ ORM Theo dõi Tác Phân động ORM tích Báo cáo 10
  11. 11. 11
  12. 12. • Nguồn dữ liệu đang theo dõi hiện tại: • Tin tức: 165 • Forum: 21 • Mạng xã hội: Facebook, Youtube. • Dự kiến: linkhay, ZingMe, Twitter.• Bất kz nguồn dữ liệu nào (blog, forum, tin tức…) khách hàng yêu cầu. 12
  13. 13. Bài toán phân tích ý kiến
  14. 14. Bài toán phân tích ý kiến (*) Tìm kiếm trên 3 từ khóa "sentiment analysis", “sentiment classification” và "opinion mining" .• Opinion Mining• Sentiment Analysis Số bài báo trên Google Scholar * 4500 4000 3500 3000 2500 2000 1500 1000 500 0 2000 2002 2004 2006 2008 2010 14
  15. 15. Ý kiến • “Máy tạo cảm giác rất chắc Ai phát chắn và đầm tay do báng biểu được bọc cao su chống trơn Người viết trượt” - Canon 550D đơn Thời giản nhưng mạnh mẽ. điểm Về cái gì • Khi sử dụng trong khoảng 15 nói Ý phút, máy chỉ hơi ấm lên một kiến Vaio dòng E chút và nhiều nhất ở vùng bên Canon 550D Tốt cạnh touchpad nhưng điều này có thể chấp nhận được - Khía Vaio dòng E phong cách, hiệu Tốt hay cạnh xấu suất cao. nào Tản Thiết kế nhiệt 15
  16. 16. Bài toán phân tích ý kiến tiếng Việt• Không thể áp dụng hoàn toàn các nghiên cứu tiếng Anh cho tiếng Việt: • Từ đa tiếng. • Văn phạm phức tạp, chưa thống nhất. • Không có kho ngữ liệu lớn. 16
  17. 17. Các vấn đề trong phân tích ý kiến tiếng Việt
  18. 18. Các vấn đề trong phân tích ý kiến tiếng Việt1. Xác định khía cạnh.2. Vấn đề đồng tham chiếu.3. Cách diễn đạt ý kiến.4. Ý kiến cho cả tài liệu.5. Vấn đề ngôn ngữ. 18
  19. 19. Khía cạnh• Khía cạnh là gì: • VD: màn hình, màu sắc là khía cạnh của điện thoại…• Tại sao phải xác định khía cạnh? • Thống kê ý kiến trên một khía cạnh nào đó.• Việc biểu diễn khía cạnh: • “Chiếc điện thoại trông rất bắt mắt”. • “Máy có thể sử dụng liên tục từ 5-6 tiếng”. • “Máy không để vừa túi quần”. 19
  20. 20. Đồng tham chiếu• Nếu các mẫu laptop trước đây của Acer bị chê là dày và nặng hơn so với các hãng khác thì Aspire 3935 sẽ thay đổi quan điểm này. Máy có vỏ kim loại sáng loáng, thân chỉ dày khoảng 2,54 cm nên tính di động rất cao.• BlackBerry Curve 8900 là sự lai tạp giữa thiết kế của Curve 8310 và Bold 9000. Máy sở hữu bộ khung của máy chắc chắn, kiểu dáng theo truyền thống của hãng.• “Được thiết kế theo phong cách DSLR nhưng Canon PowerShot SX40 HS có zoom quang khủng 35x (…). Là bản nâng cấp từ SX30IS ra mắt năm ngoái, phiên bản mới mặc dù hình dáng gần như không khác so với người tiền nhiệm với (…)”.• “Beetle 2012 lấy cảm hứng từ chiếc Beelte Ragster Concept, giới thiệu tại triễn lãm Detroit năm 2005. "Con bọ" mới có chiều dài 4.278 mm, rộng 1.808 mm, và cao 1.486 mm. Không gian bên trong cũng tăng lên đáng kể, đạt đến 310 lít”. 20
  21. 21. Cách diễn đạt ý kiến• Trực tiếp hoặc gián tiếp: • “Vừa sắm được chiếc laptop này là mình liền đi khoe với tất cả bạn bè”.• Nhiều ý kiến trong một câu: • “Chất lượng ảnh đáng kinh ngạc và pin dùng rất lâu nhưng ống ngắm bé quá”.• Phân biệt ý kiến với thông số kỹ thuật: • “Chiếc máy này khá nặng”. • “Chiếc máy này nặng khoảng 3kg”.• Ý nghĩa của cách diễn đạt: • Pin có thể dùng được 3 tiếng. • Pin chỉ dùng được mỗi 3 tiếng. • Pin dùng được những 3 tiếng. 21
  22. 22. Ý kiến chung cho cả tài liệu• Tạo hóa đã định ra quy luật “già là phải yếu”, cứ hễ bước qua ngưỡng 50 là chức năng các bộ phận chính trong cơ thể bị suy giảm, hệ miễn dịch cũng dần bị “xuống cấp” làm cho người cao tuổi hay mắc nhiều chứng bệnh mà thời trẻ chưa bao giờ biết đến…• Vinamilk Sure Prevent là sản phẩm dinh dưỡng đặc biệt dành cho người cao tuổi có chứa Plant Sterol… 22
  23. 23. Vấn đề ngôn ngữ• Mỉa mai: • “Chiếc xe thật tuyệt vời, mới hai ngày đã chết máy”. • “Công dụng tuyệt vời nhất của chiếc điện thoại này là chặn giấy”.• Tu từ, câu nghi vấn: • “Không biết sắp tới Canon có thành công hay không?” • “Laptop này mà tốt thì chẳng còn cái gì dở nữa!” 23
  24. 24. Vấn đề ngôn ngữ (tiếp) Bo ve• Tiếng việt không dấu: ngay, me dang om 1 thang nam tren giuong! Bố về ngay, mẹ đang ốm 1 tháng nằm trên giường! 24
  25. 25. Vấn đề ngôn ngữ (tiếp)• Ngôn ngữ xì-tin: ][(¬Cl¥ ]_µ( ][Cl¥ ])Cl¥ PvF_ (Cl/v? ††|Cl¥ /v++*†|` 3Cl† +_µ( , ¥F_µ +)µº+,††|+F_µ 3Cl+*? +_++*†|~ +<†|+ +<†|º+*(¬ ††|F_? +_º +_Cl+*(¬(†|ºF_/v+*†|µ+*(¬µº +`+<†|Cl(. 25
  26. 26. Vấn đề ngôn ngữ (tiếp)• Emoticon: Điện thoại này bền lắm :(( 26
  27. 27. ePi giải quyết bài toán phân tích ý kiến như thế nào
  28. 28. Sơ đồ hệ thống Tiền xử lý Xác định thực Phân giải đồng Tách từ Gán nhãn từ thể tham chiếu Cơ sở dữ liệu Các thuật ngữ Quan hệ giữa các thuật ngữ Phân tích ý kiến 28
  29. 29. Giải quyết bài toán phân tích ý kiến• Cách tiếp cận: Dựa trên luật.• Các bước tiến hành: • Phân tích cú pháp nông để xác định các cụm từ có quan hệ với nhau. • Xác định quan hệ của các cụm từ: • Có phải là quan hệ ý kiến không? • Có liên quan tới văn cảnh chung không? • Dùng các thuật toán thống kê đánh giá ý kiến chung của văn bản. 29
  30. 30. Xây dựng bộ dữ liệu• Xây dựng cơ sở dũ liệu cho chủ đề hẹp: • Điện thoại di động. • Laptop. • …• Cơ sở dữ liệu hiện tại: • Từ chỉ quan điểm: 479 (không có ngữ cảnh) + 7450 (có ngữ cảnh). • Khía cạnh: 1646. • Sản phẩm: 14241. • Địa danh: 3197 (của Việt Nam) + 2317 (của thế giới). • Người: 6350. 30
  31. 31. ePi ORM: Hệ thống hiện tại 31
  32. 32. ePi ORM: Hệ thống hiện tại (tiếp) 32
  33. 33. ePi Lab: Sentiment Analysis 33
  34. 34. Hướng phát triển• Phân tích ý kiến: • Bộ luật phát hiện có thể được bổ sung. • Kết hợp các cách tiếp cận khác. • Thống kê. • Học (không giám sát, giám sát hay nửa giám sát).• Dữ liệu: • Thực phẩm, đồ uống. • Người nổi tiếng. 34
  35. 35. 35

×