Technical challenge of Blog mining and analysis


Published on

CIC presenetation by Denis @ Chinese Blogger Conference 2008

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Technical challenge of Blog mining and analysis

  1. 1. Blog内容挖掘与分析的技术挑战 Technical challenge of Blog mining and analysis 余敏玮 (Denis) @ CIC Tech 中文网志年会(2008) @ 广州 CN Blogger Conference (2008) @ GuangZhou
  2. 2. 中国社交网络的规模 (CHINA SOCIAL MEDIA DOMINATES THE WORLD) 互联网用户 220 Million1 253 Million2 (Number of Internet users) 每周上网时间 博客数 74 Million5 7 Hrs2 14 Hrs1 107 Million6 (Avg. time spent online per week) Number of bloggers5,6 个人意见想法的表达5 互联网用户每周看电视的时间 (Avg.have expressedusers spend “I time Internet personal 31 hours3 56% 9 hours4 72% opinions and/or written about watching TV per week) myself online” 我可以表达线下不能表达的见解5 互联网渗透率 73%1 19%2 (Internet Penetration) say and do “Online I feel free to 32% 73% things I wouldn’t do or say offline” 参与博客讨论的宽带用户百分比5 Percentage broadband users 28% 47% commenting blog, chat room, listserv or forum Data Source: 1)The 22nd Statistical Survey Report on the Internet Development in China by CNNIC, July 2008. 2) Nielsen Netraitings, July 2008. 3) “Whichever Screen, People Are Watching”, The New York Times, July 2008. 4) China Academy of Social Sciences。 5) IAC and JWT, November 2007. 6) Boston Consulting Group, July 2008. 2
  3. 3. 博客的社会价值 (Social Value of Blog) Sample Quote: 祈福 / Pray (link) 5月12日的汶川地震让我们这一辈子都会刻骨铭 心,这也是我第一次亲身经历地震,这次的损失 惨重,但这并不可怕,只要我们有重建家园的决 心就行,让我们都为灾区人民祈福吧!! Prayer: Let’s pray for the victims that We will never forget the earthquake that everything will be recovered and rebuilt. occurred on May 12th, 2008 and even though it caused a huge amount of damage, as long as we have the resolution to rebuild the homes, then it is not so frightening. Let us pray for the people living in the earthquake area! Prayer: My heart is broken, all I can do is pray for the other victims. In the wake of the catastrophe, blogs became a platform for grieving and prayer for the victims and their families. Popular blog sites like Sina Typing keyword “pray + earthquake” on blog, Sohu blog, Blogbus all have hundreds of NetEase Blog search, yields more than thousands of entries discussing and sharing 53,000 blog articles on praying. (link) personal accounts and feelings towards the tragic event. 3 See more information about the cases, you can refer to IWOM watch Special Edition, May 2008
  4. 4. 自然语言分析技术 来自中文的挑战 (Challenges from Chinese language) 中文分词 比较 复杂的词义 乒乓球拍卖完了 乒乓球 / 拍卖 / 完了 这瓶洗发水,适合头 品牌1 比 品牌2 差 发很干的人用 乒乓球拍 / 卖完了 品牌1 不比 品牌2 的差多少 品牌1 比 品牌2 好 用了这瓶洗发水,头 品牌1 比 品牌2 好不了多少 喜欢开宝马的人 发变得很干 喜欢{开宝马的人} {喜欢开宝马}的人 • 几种分析模型 – 基于关键字分析的模型 – 基于机器学习的模型 – 基于关键字以及语法分析的模型 4
  5. 5. 自然语言分析技术 来自中文的挑战 (Challenges from Chinese language) 网络口语: 打酱油,俯卧撑… 5
  6. 6. 自然语言分析技术 • 内容归类 – 行业/品牌/产品 • 同义词,别名, 类别树 – 情感分析 • 用户表达情感的各种方式 行业 行业 品牌 1 品牌 1 产品 1 产品 1 产品 2 产品 2 品牌 2 品牌 2 产品 3 产品 3 产品 4 产品 4 6
  7. 7. 数据计算,聚合以及分析 (Data Process) 数据计算,聚合以及分析 • 数据需要从多维度进行聚合和分析 Data need be aggregated and analyzed in different angles – 每月有多少博客文章讨论每一个品牌 How many articles talk about each brand each month – 每周有多少人讨论每个品牌产品 How many people talk about each product each week – 在某一个月中谈论某一个品牌最多的10个博客是谁? What’s the top 10 people talk about a particular brand • 解决方案: OLAP多维数据仓库 (快速/灵活的数据分析支持) Solution: OLAP data cube (Fast / Flexible data analysis support) 时间维度 (年/月/日) Time Dimension ct du /P 品 ro ra /产 / B 品牌 nd ry / st 业 du 行 In 博主 Blogger 7
  8. 8. 数据计算,聚合以及分析 化妆品 博客1 运动服饰 手机 汽车 博客2 手机 笔记本 股票 博客3 笔记本 手机 对于博客:博客个人属性分析 对于品牌:博客行业关注度分析 8
  9. 9. 数据展示/可视化 挖掘更多数据的价值 Making MORE sense of the data 9
  10. 10. 总结 中文分析存在巨大挑战, 技 技术已经相当成熟 术还未非常成熟 数据来源 文本挖掘 Data Source Text Mining 数据分析 数据可视化 Data Analysis Data Visualization OLAP解决方案 多种技术可以运用, 取决于具 体的分析目标 10
  11. 11. OUR BLOGS: Company Blog: (Chinese) CEO Blog: (English) Tech Blog: OUR WEBSITE: Thank You CONTACT US: This document is for private commercial use only. Distribution to third parties and/or publication in whole or in part is strictly prohibited without expressed written consent of CIC. 本文件是针对CIC客户的相关品牌和企业的商业文件。未经CIC 的书面许可, 本文件或文件中的任何内容不得转交给第三方, 同时也不得发表本文件或文件中的任何内容。