Web使用挖掘

1,237 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,237
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
9
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Converting browsers into buyers • Improving web site design and usability • Improving customer retention and loyalty • Increasing cross-sell by recommending items related to the ones being considered • Helping visitors to quickly find relevant information on a website • Making results of information retrieval/search more aware of the context and user interests
  • Knowledge Discovery in databases is to create a suitable target dataset for data mining
  • Web log may not be completely reliable Caching – files stored at client but not accessed from server Information pass through the POST method will not be available in a server log
  • Content preprocessing consists of converting the text, image, scripts and other files such as multimedia into forms that are useful for the web Usage mining process 数据清理: (1) 图片、视频等非用户显式请求的记录,即属性 URI 中后缀名为 gif, jpg, jpeg, ico, rm 等的记录。 (2) 网页的格式信息记录,即属性 URI 中后缀名为 css 的记录。 (3) 属性 Status 中代码显示访问错误的记录, 即属性 Status 中代码值小于 200 或大于 299 的日志记录 ( 属性 Status 中代码为 200~299 通常指示成功响应 ) 。 用户会话识别: (1) 如果 IP 地址不同则认为是不同的用户。 (2) 如果 IP 地址相同,但浏览器软件或操作系统不同,则认为是不同的用户。 (3) 如果 IP 地址相同,浏览器软件和操作系统也相同,那么根据引用信息进行进一步判断。 检查记录的属性 ReferURI ,如果 ReferURI 中记录的 URL 没有被访问过,则认为该记录为一个新的用户会话;或如果 ReferURI 为空,且该记录与上一条记录的访问时间间隔大于 10 s ,也认为该记录为一个新的用户会话。 (4) 根据前 3 条规则得到的每个用户会话可能包含了用户在不同时间的多次访问,因此,采用基于页面访问时间的方法进一步进行用户会话识别,得到用户会话集合。 路径补充: 路径补充是通过分析将日志中没有记录的信息补充完整,得到用户实际的浏览路径。本文采用基于引用的分析方法完成路径补充。
  • Ambiguity : the level at which clicksare analyzed ( URL A, B, or C as basic identifier) is very shallow, almost no meaning – Dynamic URLs: meaningless URLs 􀃎even more ambiguity – Semantic Web Usage Mining: (Oberleet al., 2003) • Scalability : Massive Web Log data that cannot fit in main memory requires techniques that are scalable (stream data mining) (Nasraouiet al.: WebKDD2003, ICDM 2003) • Handling Evolution : Usage data that changes with time – Mining & Validation in dynamic environments: largely unexplored area…except in: (Mitchell et al. 1994; Widmer, 1996; Maloof& Michalski, 2000) – In the Web usage domain:(Desikan& Srivastava, 2004; Nasraouiet al.: WebKDD2003, ICDM 2003, KDD 2005, Computer Networks 2006, CIKM 2006) • From Clicks to Concepts : few efforts exist based on laborious manual construction of concepts, website ontology or taxonomy – How to do this automatically? (Berendtet al., 2002; Oberleet al., 2003; Dai & Mobasher, 2002; Eirinakiet al., 2003) • Implementing recommender systems can be slow, costly and a bottle neck especially – for researchers who need to perform tests on a variety of websites – For website owners that cannot afford expensive or complicated solutions
  • 1 。时间阈值 Time out 来划分不同的用户会话;改进的会话识别,动态的 Time out 划分;统计学特征、滑动窗口 模式发现: 1 。 统计分析 2 。序列模式 Markov 模型 3 。关联规则 最大前向引用 (Maximal Forward Reference, 简称 MFR) Ap riori 算法 4 。分类和聚类 决策树、分类法、贝叶斯分类法
  • Web使用挖掘

    1. 1. Web 使用挖掘
    2. 2. Web 挖掘 <ul><li>Web 内容挖掘 </li></ul><ul><ul><li>从文档内容或其描述中抽取知识的过程 </li></ul></ul><ul><ul><li>Web 文档文本内容的挖掘 </li></ul></ul><ul><li>Web 结构挖掘 </li></ul><ul><ul><li>WWW 的组织结构和链接关系中推导知识 </li></ul></ul><ul><ul><li>PageRank </li></ul></ul><ul><li>Web 使用记录的挖掘 </li></ul><ul><ul><li>从 Web 的访问记录中抽取感兴趣的模式 </li></ul></ul><ul><ul><li>访问模式追踪和个性化的使用记录追踪 </li></ul></ul>
    3. 3. Web 挖掘
    4. 4. Web 使用挖掘 <ul><li>Discover usage patterns from Web data to understand and better serve the needs of Web-based applications </li></ul>
    5. 5. Web 使用挖掘的主要应用 <ul><li>网页个性化 </li></ul><ul><li>系统改进 </li></ul><ul><li>页面修改 </li></ul><ul><li>商业智能 </li></ul><ul><li>使用特征 </li></ul>
    6. 6. Web 使用挖掘流程 <ul><li>数据收集 </li></ul><ul><ul><li>Web 服务器日志 </li></ul></ul><ul><li>数据预处理 </li></ul><ul><ul><li>用户使用信息、网站结构信息 </li></ul></ul><ul><li>模式发现 </li></ul><ul><ul><li>关联规则、聚类等算法 </li></ul></ul><ul><li>模式分析 </li></ul>
    7. 8. 数据收集— Web 数据 <ul><li>网站内容信息 </li></ul><ul><ul><li>文字、图片 </li></ul></ul><ul><li>网页结构信息 </li></ul><ul><ul><li>Html 页面结构 </li></ul></ul><ul><li>网站结构信息 </li></ul><ul><ul><li>网站内部结构关系 </li></ul></ul><ul><li>用户使用信息 </li></ul><ul><ul><li>IP 、访问的页面、时间 </li></ul></ul><ul><li>用户信息 </li></ul><ul><ul><li>用户注册信息 </li></ul></ul>
    8. 9. 数据收集—数据源 <ul><li>服务器 </li></ul><ul><ul><li>服务器日志 </li></ul></ul><ul><ul><li>服务器端抓包 </li></ul></ul><ul><ul><li>日志是不可靠的 </li></ul></ul><ul><li>客户端 </li></ul><ul><ul><li>脚本 </li></ul></ul><ul><ul><li>用户是不配合的 </li></ul></ul><ul><li>代理服务器 </li></ul><ul><ul><li>代理缓存 </li></ul></ul>
    9. 10. WUM 基本概念 <ul><li>User – a single individual that is accessing file from one or more Web servers through a browser </li></ul><ul><li>Page view – page view consists of every file that contributes to the display on a user’s browser at one time </li></ul><ul><li>Click-stream – a sequential series of page view requests </li></ul>
    10. 11. WUM 基本概念 <ul><li>User session – the click-stream of page views for a single user across the entire Web </li></ul><ul><li>Episode – any semantically meaningful subset of a user or server session </li></ul>
    11. 12. 数据预处理 <ul><li>使用预处理 </li></ul><ul><ul><li>用户识别 IP and agent ? </li></ul></ul><ul><ul><li>会话识别 Path and Time ? </li></ul></ul><ul><ul><li>路径补充 </li></ul></ul><ul><ul><li>事务识别 </li></ul></ul><ul><li>内容预处理 </li></ul><ul><ul><li>文字、图片、多媒体的处理 </li></ul></ul><ul><li>结构预处理 </li></ul>
    12. 13. 模式发现 <ul><li>统计的方法 </li></ul><ul><ul><li>最频繁访问的页面 </li></ul></ul><ul><ul><li>平均访问时间 </li></ul></ul><ul><li>关联规则 </li></ul><ul><ul><li>获得浏览子序列(最大向前序列法) </li></ul></ul><ul><li>聚类和分类 </li></ul><ul><ul><li>相似访问模式的用户 </li></ul></ul><ul><ul><li>相似页面内容 </li></ul></ul><ul><li>序列模式 </li></ul><ul><ul><li>预测目标用户的访问模式 </li></ul></ul>
    13. 14. 模式分析 <ul><li>多维 Web Log 立方体 </li></ul><ul><ul><li>点击流数据仓库 </li></ul></ul><ul><li>OLAP 和可视化 </li></ul><ul><ul><li>Web 访问分析 </li></ul></ul><ul><ul><li>用户行为分析 </li></ul></ul><ul><ul><li>趋势分析 </li></ul></ul>
    14. 16. WUM 和个性化的主要挑战 <ul><li>不确定性 </li></ul><ul><ul><li>动态 URL </li></ul></ul><ul><li>可伸缩性 </li></ul><ul><ul><li>Web 日志巨大 </li></ul></ul><ul><li>动态性 </li></ul><ul><ul><li>用户使用数据始终在变 </li></ul></ul><ul><li>从点击到概念 </li></ul><ul><ul><li>内容概念化、分类、网站本体 </li></ul></ul><ul><li>实现推荐系统 </li></ul>
    15. 17. WUM 研究现状 <ul><li>数据预处理 </li></ul><ul><ul><li>日志本体 </li></ul></ul><ul><ul><li>新的 Log 格式和挖掘语言 </li></ul></ul><ul><ul><li>Server 、 Proxy 、 Client 日志集成 </li></ul></ul><ul><ul><li>用户、会话识别 </li></ul></ul><ul><li>模式发现 </li></ul><ul><ul><li>算法的改进 </li></ul></ul><ul><ul><li>海量数据挖掘 </li></ul></ul>
    16. 18. WUM 研究现状 <ul><li>模式分析 </li></ul><ul><ul><li>可视化 </li></ul></ul><ul><ul><li>OLAP </li></ul></ul><ul><ul><li>知识查询 </li></ul></ul><ul><li>WUM 应用领域 </li></ul><ul><ul><li>移动互联网 </li></ul></ul><ul><ul><li>网络安全 </li></ul></ul><ul><ul><li>社交网络 </li></ul></ul><ul><ul><li>个性化的推荐系统 </li></ul></ul>

    ×