Web使用挖掘
Upcoming SlideShare
Loading in...5
×
 

Web使用挖掘

on

  • 1,010 views

 

Statistics

Views

Total Views
1,010
Views on SlideShare
1,010
Embed Views
0

Actions

Likes
0
Downloads
6
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • Converting browsers into buyers • Improving web site design and usability • Improving customer retention and loyalty • Increasing cross-sell by recommending items related to the ones being considered • Helping visitors to quickly find relevant information on a website • Making results of information retrieval/search more aware of the context and user interests
  • Knowledge Discovery in databases is to create a suitable target dataset for data mining
  • Web log may not be completely reliable Caching – files stored at client but not accessed from server Information pass through the POST method will not be available in a server log
  • Content preprocessing consists of converting the text, image, scripts and other files such as multimedia into forms that are useful for the web Usage mining process 数据清理: (1) 图片、视频等非用户显式请求的记录,即属性 URI 中后缀名为 gif, jpg, jpeg, ico, rm 等的记录。 (2) 网页的格式信息记录,即属性 URI 中后缀名为 css 的记录。 (3) 属性 Status 中代码显示访问错误的记录, 即属性 Status 中代码值小于 200 或大于 299 的日志记录 ( 属性 Status 中代码为 200~299 通常指示成功响应 ) 。 用户会话识别: (1) 如果 IP 地址不同则认为是不同的用户。 (2) 如果 IP 地址相同,但浏览器软件或操作系统不同,则认为是不同的用户。 (3) 如果 IP 地址相同,浏览器软件和操作系统也相同,那么根据引用信息进行进一步判断。 检查记录的属性 ReferURI ,如果 ReferURI 中记录的 URL 没有被访问过,则认为该记录为一个新的用户会话;或如果 ReferURI 为空,且该记录与上一条记录的访问时间间隔大于 10 s ,也认为该记录为一个新的用户会话。 (4) 根据前 3 条规则得到的每个用户会话可能包含了用户在不同时间的多次访问,因此,采用基于页面访问时间的方法进一步进行用户会话识别,得到用户会话集合。 路径补充: 路径补充是通过分析将日志中没有记录的信息补充完整,得到用户实际的浏览路径。本文采用基于引用的分析方法完成路径补充。
  • Ambiguity : the level at which clicksare analyzed ( URL A, B, or C as basic identifier) is very shallow, almost no meaning – Dynamic URLs: meaningless URLs 􀃎even more ambiguity – Semantic Web Usage Mining: (Oberleet al., 2003) • Scalability : Massive Web Log data that cannot fit in main memory requires techniques that are scalable (stream data mining) (Nasraouiet al.: WebKDD2003, ICDM 2003) • Handling Evolution : Usage data that changes with time – Mining & Validation in dynamic environments: largely unexplored area…except in: (Mitchell et al. 1994; Widmer, 1996; Maloof& Michalski, 2000) – In the Web usage domain:(Desikan& Srivastava, 2004; Nasraouiet al.: WebKDD2003, ICDM 2003, KDD 2005, Computer Networks 2006, CIKM 2006) • From Clicks to Concepts : few efforts exist based on laborious manual construction of concepts, website ontology or taxonomy – How to do this automatically? (Berendtet al., 2002; Oberleet al., 2003; Dai & Mobasher, 2002; Eirinakiet al., 2003) • Implementing recommender systems can be slow, costly and a bottle neck especially – for researchers who need to perform tests on a variety of websites – For website owners that cannot afford expensive or complicated solutions
  • 1 。时间阈值 Time out 来划分不同的用户会话;改进的会话识别,动态的 Time out 划分;统计学特征、滑动窗口 模式发现: 1 。 统计分析 2 。序列模式 Markov 模型 3 。关联规则 最大前向引用 (Maximal Forward Reference, 简称 MFR) Ap riori 算法 4 。分类和聚类 决策树、分类法、贝叶斯分类法

Web使用挖掘 Web使用挖掘 Presentation Transcript

  • Web 使用挖掘
  • Web 挖掘
    • Web 内容挖掘
      • 从文档内容或其描述中抽取知识的过程
      • Web 文档文本内容的挖掘
    • Web 结构挖掘
      • WWW 的组织结构和链接关系中推导知识
      • PageRank
    • Web 使用记录的挖掘
      • 从 Web 的访问记录中抽取感兴趣的模式
      • 访问模式追踪和个性化的使用记录追踪
  • Web 挖掘
  • Web 使用挖掘
    • Discover usage patterns from Web data to understand and better serve the needs of Web-based applications
  • Web 使用挖掘的主要应用
    • 网页个性化
    • 系统改进
    • 页面修改
    • 商业智能
    • 使用特征
  • Web 使用挖掘流程
    • 数据收集
      • Web 服务器日志
    • 数据预处理
      • 用户使用信息、网站结构信息
    • 模式发现
      • 关联规则、聚类等算法
    • 模式分析
  •  
  • 数据收集— Web 数据
    • 网站内容信息
      • 文字、图片
    • 网页结构信息
      • Html 页面结构
    • 网站结构信息
      • 网站内部结构关系
    • 用户使用信息
      • IP 、访问的页面、时间
    • 用户信息
      • 用户注册信息
  • 数据收集—数据源
    • 服务器
      • 服务器日志
      • 服务器端抓包
      • 日志是不可靠的
    • 客户端
      • 脚本
      • 用户是不配合的
    • 代理服务器
      • 代理缓存
  • WUM 基本概念
    • User – a single individual that is accessing file from one or more Web servers through a browser
    • Page view – page view consists of every file that contributes to the display on a user’s browser at one time
    • Click-stream – a sequential series of page view requests
  • WUM 基本概念
    • User session – the click-stream of page views for a single user across the entire Web
    • Episode – any semantically meaningful subset of a user or server session
  • 数据预处理
    • 使用预处理
      • 用户识别 IP and agent ?
      • 会话识别 Path and Time ?
      • 路径补充
      • 事务识别
    • 内容预处理
      • 文字、图片、多媒体的处理
    • 结构预处理
  • 模式发现
    • 统计的方法
      • 最频繁访问的页面
      • 平均访问时间
    • 关联规则
      • 获得浏览子序列(最大向前序列法)
    • 聚类和分类
      • 相似访问模式的用户
      • 相似页面内容
    • 序列模式
      • 预测目标用户的访问模式
  • 模式分析
    • 多维 Web Log 立方体
      • 点击流数据仓库
    • OLAP 和可视化
      • Web 访问分析
      • 用户行为分析
      • 趋势分析
  •  
  • WUM 和个性化的主要挑战
    • 不确定性
      • 动态 URL
    • 可伸缩性
      • Web 日志巨大
    • 动态性
      • 用户使用数据始终在变
    • 从点击到概念
      • 内容概念化、分类、网站本体
    • 实现推荐系统
  • WUM 研究现状
    • 数据预处理
      • 日志本体
      • 新的 Log 格式和挖掘语言
      • Server 、 Proxy 、 Client 日志集成
      • 用户、会话识别
    • 模式发现
      • 算法的改进
      • 海量数据挖掘
  • WUM 研究现状
    • 模式分析
      • 可视化
      • OLAP
      • 知识查询
    • WUM 应用领域
      • 移动互联网
      • 网络安全
      • 社交网络
      • 个性化的推荐系统