Your SlideShare is downloading. ×
  • Like
Web使用挖掘
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Web使用挖掘

  • 995 views
Published

 

Published in Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
995
On SlideShare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
6
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • Converting browsers into buyers • Improving web site design and usability • Improving customer retention and loyalty • Increasing cross-sell by recommending items related to the ones being considered • Helping visitors to quickly find relevant information on a website • Making results of information retrieval/search more aware of the context and user interests
  • Knowledge Discovery in databases is to create a suitable target dataset for data mining
  • Web log may not be completely reliable Caching – files stored at client but not accessed from server Information pass through the POST method will not be available in a server log
  • Content preprocessing consists of converting the text, image, scripts and other files such as multimedia into forms that are useful for the web Usage mining process 数据清理: (1) 图片、视频等非用户显式请求的记录,即属性 URI 中后缀名为 gif, jpg, jpeg, ico, rm 等的记录。 (2) 网页的格式信息记录,即属性 URI 中后缀名为 css 的记录。 (3) 属性 Status 中代码显示访问错误的记录, 即属性 Status 中代码值小于 200 或大于 299 的日志记录 ( 属性 Status 中代码为 200~299 通常指示成功响应 ) 。 用户会话识别: (1) 如果 IP 地址不同则认为是不同的用户。 (2) 如果 IP 地址相同,但浏览器软件或操作系统不同,则认为是不同的用户。 (3) 如果 IP 地址相同,浏览器软件和操作系统也相同,那么根据引用信息进行进一步判断。 检查记录的属性 ReferURI ,如果 ReferURI 中记录的 URL 没有被访问过,则认为该记录为一个新的用户会话;或如果 ReferURI 为空,且该记录与上一条记录的访问时间间隔大于 10 s ,也认为该记录为一个新的用户会话。 (4) 根据前 3 条规则得到的每个用户会话可能包含了用户在不同时间的多次访问,因此,采用基于页面访问时间的方法进一步进行用户会话识别,得到用户会话集合。 路径补充: 路径补充是通过分析将日志中没有记录的信息补充完整,得到用户实际的浏览路径。本文采用基于引用的分析方法完成路径补充。
  • Ambiguity : the level at which clicksare analyzed ( URL A, B, or C as basic identifier) is very shallow, almost no meaning – Dynamic URLs: meaningless URLs 􀃎even more ambiguity – Semantic Web Usage Mining: (Oberleet al., 2003) • Scalability : Massive Web Log data that cannot fit in main memory requires techniques that are scalable (stream data mining) (Nasraouiet al.: WebKDD2003, ICDM 2003) • Handling Evolution : Usage data that changes with time – Mining & Validation in dynamic environments: largely unexplored area…except in: (Mitchell et al. 1994; Widmer, 1996; Maloof& Michalski, 2000) – In the Web usage domain:(Desikan& Srivastava, 2004; Nasraouiet al.: WebKDD2003, ICDM 2003, KDD 2005, Computer Networks 2006, CIKM 2006) • From Clicks to Concepts : few efforts exist based on laborious manual construction of concepts, website ontology or taxonomy – How to do this automatically? (Berendtet al., 2002; Oberleet al., 2003; Dai & Mobasher, 2002; Eirinakiet al., 2003) • Implementing recommender systems can be slow, costly and a bottle neck especially – for researchers who need to perform tests on a variety of websites – For website owners that cannot afford expensive or complicated solutions
  • 1 。时间阈值 Time out 来划分不同的用户会话;改进的会话识别,动态的 Time out 划分;统计学特征、滑动窗口 模式发现: 1 。 统计分析 2 。序列模式 Markov 模型 3 。关联规则 最大前向引用 (Maximal Forward Reference, 简称 MFR) Ap riori 算法 4 。分类和聚类 决策树、分类法、贝叶斯分类法

Transcript

  • 1. Web 使用挖掘
  • 2. Web 挖掘
    • Web 内容挖掘
      • 从文档内容或其描述中抽取知识的过程
      • Web 文档文本内容的挖掘
    • Web 结构挖掘
      • WWW 的组织结构和链接关系中推导知识
      • PageRank
    • Web 使用记录的挖掘
      • 从 Web 的访问记录中抽取感兴趣的模式
      • 访问模式追踪和个性化的使用记录追踪
  • 3. Web 挖掘
  • 4. Web 使用挖掘
    • Discover usage patterns from Web data to understand and better serve the needs of Web-based applications
  • 5. Web 使用挖掘的主要应用
    • 网页个性化
    • 系统改进
    • 页面修改
    • 商业智能
    • 使用特征
  • 6. Web 使用挖掘流程
    • 数据收集
      • Web 服务器日志
    • 数据预处理
      • 用户使用信息、网站结构信息
    • 模式发现
      • 关联规则、聚类等算法
    • 模式分析
  • 7.  
  • 8. 数据收集— Web 数据
    • 网站内容信息
      • 文字、图片
    • 网页结构信息
      • Html 页面结构
    • 网站结构信息
      • 网站内部结构关系
    • 用户使用信息
      • IP 、访问的页面、时间
    • 用户信息
      • 用户注册信息
  • 9. 数据收集—数据源
    • 服务器
      • 服务器日志
      • 服务器端抓包
      • 日志是不可靠的
    • 客户端
      • 脚本
      • 用户是不配合的
    • 代理服务器
      • 代理缓存
  • 10. WUM 基本概念
    • User – a single individual that is accessing file from one or more Web servers through a browser
    • Page view – page view consists of every file that contributes to the display on a user’s browser at one time
    • Click-stream – a sequential series of page view requests
  • 11. WUM 基本概念
    • User session – the click-stream of page views for a single user across the entire Web
    • Episode – any semantically meaningful subset of a user or server session
  • 12. 数据预处理
    • 使用预处理
      • 用户识别 IP and agent ?
      • 会话识别 Path and Time ?
      • 路径补充
      • 事务识别
    • 内容预处理
      • 文字、图片、多媒体的处理
    • 结构预处理
  • 13. 模式发现
    • 统计的方法
      • 最频繁访问的页面
      • 平均访问时间
    • 关联规则
      • 获得浏览子序列(最大向前序列法)
    • 聚类和分类
      • 相似访问模式的用户
      • 相似页面内容
    • 序列模式
      • 预测目标用户的访问模式
  • 14. 模式分析
    • 多维 Web Log 立方体
      • 点击流数据仓库
    • OLAP 和可视化
      • Web 访问分析
      • 用户行为分析
      • 趋势分析
  • 15.  
  • 16. WUM 和个性化的主要挑战
    • 不确定性
      • 动态 URL
    • 可伸缩性
      • Web 日志巨大
    • 动态性
      • 用户使用数据始终在变
    • 从点击到概念
      • 内容概念化、分类、网站本体
    • 实现推荐系统
  • 17. WUM 研究现状
    • 数据预处理
      • 日志本体
      • 新的 Log 格式和挖掘语言
      • Server 、 Proxy 、 Client 日志集成
      • 用户、会话识别
    • 模式发现
      • 算法的改进
      • 海量数据挖掘
  • 18. WUM 研究现状
    • 模式分析
      • 可视化
      • OLAP
      • 知识查询
    • WUM 应用领域
      • 移动互联网
      • 网络安全
      • 社交网络
      • 个性化的推荐系统