SlideShare a Scribd company logo
1 of 18
Web 使用挖掘
Web 挖掘 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Web 挖掘
Web 使用挖掘 ,[object Object]
Web 使用挖掘的主要应用 ,[object Object],[object Object],[object Object],[object Object],[object Object]
Web 使用挖掘流程 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
 
数据收集— Web 数据 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
数据收集—数据源 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
WUM 基本概念 ,[object Object],[object Object],[object Object]
WUM 基本概念 ,[object Object],[object Object]
数据预处理 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
模式发现 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
模式分析 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
 
WUM 和个性化的主要挑战 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
WUM 研究现状 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
WUM 研究现状 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

More Related Content

Similar to Web使用挖掘

Web development introduced history and future
Web development introduced history and futureWeb development introduced history and future
Web development introduced history and futurejarryli
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍George Ang
 
空望 推荐系统@淘宝
空望 推荐系统@淘宝空望 推荐系统@淘宝
空望 推荐系统@淘宝topgeek
 
推荐系统规划
推荐系统规划推荐系统规划
推荐系统规划2005000613
 
Wad(web application detector)
Wad(web application detector)Wad(web application detector)
Wad(web application detector)lxghost
 
Google analytics代码部署补充 + SEO 搜索引擎优化
Google analytics代码部署补充 + SEO 搜索引擎优化Google analytics代码部署补充 + SEO 搜索引擎优化
Google analytics代码部署补充 + SEO 搜索引擎优化Vinny Wu
 
运营干什么
运营干什么运营干什么
运营干什么glass4pk
 
Seo流程框架
Seo流程框架Seo流程框架
Seo流程框架grey0511
 
欧赛斯搜索引擎优化Seo解决方案2012
欧赛斯搜索引擎优化Seo解决方案2012欧赛斯搜索引擎优化Seo解决方案2012
欧赛斯搜索引擎优化Seo解决方案2012qoolupeter
 
欧赛斯搜索引擎优化Seo解决方案2012
欧赛斯搜索引擎优化Seo解决方案2012欧赛斯搜索引擎优化Seo解决方案2012
欧赛斯搜索引擎优化Seo解决方案2012hpeter2002
 
SEO简介及商城SEO可行性探讨(公开版)
SEO简介及商城SEO可行性探讨(公开版)SEO简介及商城SEO可行性探讨(公开版)
SEO简介及商城SEO可行性探讨(公开版)suso zhang
 
Seo4sales20080103 網路行銷SEO
Seo4sales20080103 網路行銷SEOSeo4sales20080103 網路行銷SEO
Seo4sales20080103 網路行銷SEOHui-kang Tang
 
百度优化指南 V2
百度优化指南 V2百度优化指南 V2
百度优化指南 V2hanchengluo
 
香港六合彩
香港六合彩香港六合彩
香港六合彩zhanghe
 
優化宅的日常-數據分析篇
優化宅的日常-數據分析篇優化宅的日常-數據分析篇
優化宅的日常-數據分析篇Wanju Wang
 
特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践Leo Zhou
 
网站分析案例-汽车行业
网站分析案例-汽车行业网站分析案例-汽车行业
网站分析案例-汽车行业ricky yang
 
網站企劃10年工作流程改變(HP8)
網站企劃10年工作流程改變(HP8)網站企劃10年工作流程改變(HP8)
網站企劃10年工作流程改變(HP8)悠識學院
 

Similar to Web使用挖掘 (20)

Web development introduced history and future
Web development introduced history and futureWeb development introduced history and future
Web development introduced history and future
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
 
空望 推荐系统@淘宝
空望 推荐系统@淘宝空望 推荐系统@淘宝
空望 推荐系统@淘宝
 
推荐系统规划
推荐系统规划推荐系统规划
推荐系统规划
 
Wad(web application detector)
Wad(web application detector)Wad(web application detector)
Wad(web application detector)
 
Google analytics代码部署补充 + SEO 搜索引擎优化
Google analytics代码部署补充 + SEO 搜索引擎优化Google analytics代码部署补充 + SEO 搜索引擎优化
Google analytics代码部署补充 + SEO 搜索引擎优化
 
运营干什么
运营干什么运营干什么
运营干什么
 
Seo流程框架
Seo流程框架Seo流程框架
Seo流程框架
 
欧赛斯搜索引擎优化Seo解决方案2012
欧赛斯搜索引擎优化Seo解决方案2012欧赛斯搜索引擎优化Seo解决方案2012
欧赛斯搜索引擎优化Seo解决方案2012
 
欧赛斯搜索引擎优化Seo解决方案2012
欧赛斯搜索引擎优化Seo解决方案2012欧赛斯搜索引擎优化Seo解决方案2012
欧赛斯搜索引擎优化Seo解决方案2012
 
SEO简介及商城SEO可行性探讨(公开版)
SEO简介及商城SEO可行性探讨(公开版)SEO简介及商城SEO可行性探讨(公开版)
SEO简介及商城SEO可行性探讨(公开版)
 
Seo4sales20080103 網路行銷SEO
Seo4sales20080103 網路行銷SEOSeo4sales20080103 網路行銷SEO
Seo4sales20080103 網路行銷SEO
 
2.SEO各影响因素详解
2.SEO各影响因素详解2.SEO各影响因素详解
2.SEO各影响因素详解
 
百度优化指南 V2
百度优化指南 V2百度优化指南 V2
百度优化指南 V2
 
香港六合彩
香港六合彩香港六合彩
香港六合彩
 
優化宅的日常-數據分析篇
優化宅的日常-數據分析篇優化宅的日常-數據分析篇
優化宅的日常-數據分析篇
 
特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践特卖场景下的大数据平台和机器学习实践
特卖场景下的大数据平台和机器学习实践
 
网站分析案例-汽车行业
网站分析案例-汽车行业网站分析案例-汽车行业
网站分析案例-汽车行业
 
網站企劃10年工作流程改變(HP8)
網站企劃10年工作流程改變(HP8)網站企劃10年工作流程改變(HP8)
網站企劃10年工作流程改變(HP8)
 
080926
080926080926
080926
 

Web使用挖掘

Editor's Notes

  1. Converting browsers into buyers • Improving web site design and usability • Improving customer retention and loyalty • Increasing cross-sell by recommending items related to the ones being considered • Helping visitors to quickly find relevant information on a website • Making results of information retrieval/search more aware of the context and user interests
  2. Knowledge Discovery in databases is to create a suitable target dataset for data mining
  3. Web log may not be completely reliable Caching – files stored at client but not accessed from server Information pass through the POST method will not be available in a server log
  4. Content preprocessing consists of converting the text, image, scripts and other files such as multimedia into forms that are useful for the web Usage mining process 数据清理: (1) 图片、视频等非用户显式请求的记录,即属性 URI 中后缀名为 gif, jpg, jpeg, ico, rm 等的记录。 (2) 网页的格式信息记录,即属性 URI 中后缀名为 css 的记录。 (3) 属性 Status 中代码显示访问错误的记录, 即属性 Status 中代码值小于 200 或大于 299 的日志记录 ( 属性 Status 中代码为 200~299 通常指示成功响应 ) 。 用户会话识别: (1) 如果 IP 地址不同则认为是不同的用户。 (2) 如果 IP 地址相同,但浏览器软件或操作系统不同,则认为是不同的用户。 (3) 如果 IP 地址相同,浏览器软件和操作系统也相同,那么根据引用信息进行进一步判断。 检查记录的属性 ReferURI ,如果 ReferURI 中记录的 URL 没有被访问过,则认为该记录为一个新的用户会话;或如果 ReferURI 为空,且该记录与上一条记录的访问时间间隔大于 10 s ,也认为该记录为一个新的用户会话。 (4) 根据前 3 条规则得到的每个用户会话可能包含了用户在不同时间的多次访问,因此,采用基于页面访问时间的方法进一步进行用户会话识别,得到用户会话集合。 路径补充: 路径补充是通过分析将日志中没有记录的信息补充完整,得到用户实际的浏览路径。本文采用基于引用的分析方法完成路径补充。
  5. Ambiguity : the level at which clicksare analyzed ( URL A, B, or C as basic identifier) is very shallow, almost no meaning – Dynamic URLs: meaningless URLs 􀃎even more ambiguity – Semantic Web Usage Mining: (Oberleet al., 2003) • Scalability : Massive Web Log data that cannot fit in main memory requires techniques that are scalable (stream data mining) (Nasraouiet al.: WebKDD2003, ICDM 2003) • Handling Evolution : Usage data that changes with time – Mining & Validation in dynamic environments: largely unexplored area…except in: (Mitchell et al. 1994; Widmer, 1996; Maloof& Michalski, 2000) – In the Web usage domain:(Desikan& Srivastava, 2004; Nasraouiet al.: WebKDD2003, ICDM 2003, KDD 2005, Computer Networks 2006, CIKM 2006) • From Clicks to Concepts : few efforts exist based on laborious manual construction of concepts, website ontology or taxonomy – How to do this automatically? (Berendtet al., 2002; Oberleet al., 2003; Dai & Mobasher, 2002; Eirinakiet al., 2003) • Implementing recommender systems can be slow, costly and a bottle neck especially – for researchers who need to perform tests on a variety of websites – For website owners that cannot afford expensive or complicated solutions
  6. 1 。时间阈值 Time out 来划分不同的用户会话;改进的会话识别,动态的 Time out 划分;统计学特征、滑动窗口 模式发现: 1 。 统计分析 2 。序列模式 Markov 模型 3 。关联规则 最大前向引用 (Maximal Forward Reference, 简称 MFR) Ap riori 算法 4 。分类和聚类 决策树、分类法、贝叶斯分类法