Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
基于用户轨迹数据的
热点区域分析
2016.6.26
第3小组
问题描述
随着智能机的发展,人员的地理位置数据更易收集,发生爆炸式增
长。
针对这些庞大的时空数据的挖掘工作有利于人们出行,比如:热点
景区,餐厅、商超推荐,出租车载客地点推荐等。
本文主要工作为挖掘热点区域。
数据描述
微软亚洲研究院GeoLife GPS轨迹数据
用户:178位
时间:2007年4月至2011年10月
距离:1292951公里
轨迹:17621段
数据密度:每1~5秒或每5~10米上报
字段: 39.980137,116.34511...
工具
• Python
• Sklearn
• RapidMiner
建模过程
• 停留点(Stay Point)
移动对象具有随机性,需要提取轨迹中的停留点作为轨迹的特征。
P={pm, pm+1, ... , pn} , ∀𝑚<𝑖≤𝑛 , 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑝𝑚,𝑝𝑖) ≤ 𝐷threh, 𝑝𝑛.𝑇−𝑝𝑚.𝑇...
演示
停留点的分布情况
DBSCAN
• Density-based spatial clustering of applications with noise
• DBSCAN是一种最常用的基于密度的聚类算法,目的在于过滤低密
度区域,发现稠密度样本点。相比K-me...
输入:
Eps:半径
MinPts:给定点在Eps领域内成为核心对象的最小领域点数
D:数据集合输出:分簇集合
方法:
repeat
判断输入点是否为核心对象
找出核心对象的E领域中的所有直接密度可达点
until 所有输入点都判断完毕
rep...
距离度量
• C = sin(MLatA)*sin(MLatB)*cos(MLonA-MLonB) +
cos(MLatA)*cos(MLatB)
• Distance = R*Arccos(C)*Pi/180
模型评估结果
• 没有label数据,无法做precision,recall, F-measure。
• 通过散点图观察
• 轮廓系数(Silhouette Coefficient),结合了凝聚度(Cohesion)和分离
度(Separati...
总结
• 由于使用全局参数Eps,DBSCAN对密度不均匀的数据效果不好
• DBSCAN可以发现任意形状的簇
• 没有label的聚类算法评估困难
参考
• Yu Zheng, Lizhu Zhang, Xing Xie, Wei-Ying Ma. Mining Interesting
Locations and Travel Sequences from GPS Trajectories...
Q&A
THX
基于用户轨迹数据的热点区域分析
基于用户轨迹数据的热点区域分析
基于用户轨迹数据的热点区域分析
基于用户轨迹数据的热点区域分析
Upcoming SlideShare
Loading in …5
×

基于用户轨迹数据的热点区域分析

627 views

Published on

基于用户轨迹数据的热点区域分析

Published in: Data & Analytics
  • Be the first to comment

基于用户轨迹数据的热点区域分析

  1. 1. 基于用户轨迹数据的 热点区域分析 2016.6.26 第3小组
  2. 2. 问题描述 随着智能机的发展,人员的地理位置数据更易收集,发生爆炸式增 长。 针对这些庞大的时空数据的挖掘工作有利于人们出行,比如:热点 景区,餐厅、商超推荐,出租车载客地点推荐等。 本文主要工作为挖掘热点区域。
  3. 3. 数据描述 微软亚洲研究院GeoLife GPS轨迹数据 用户:178位 时间:2007年4月至2011年10月 距离:1292951公里 轨迹:17621段 数据密度:每1~5秒或每5~10米上报 字段: 39.980137,116.345113, 347,2008-10-26,16:09:35 (纬度,经度,海拔,日期,时间)
  4. 4. 工具 • Python • Sklearn • RapidMiner
  5. 5. 建模过程 • 停留点(Stay Point) 移动对象具有随机性,需要提取轨迹中的停留点作为轨迹的特征。 P={pm, pm+1, ... , pn} , ∀𝑚<𝑖≤𝑛 , 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑝𝑚,𝑝𝑖) ≤ 𝐷threh, 𝑝𝑛.𝑇−𝑝𝑚.𝑇 ≥ 𝑇threh S=(Lat, Lngt, arvT, levT), 𝑠.𝐿𝑎𝑡= 𝑝𝑖.𝐿𝑎𝑡/|𝑃|, 𝑠.𝐿𝑛𝑔𝑡= 𝑝𝑖.𝐿𝑛𝑔𝑡/|𝑃|, 𝑠.𝑎𝑟𝑣𝑇 = 𝑝𝑚.𝑇, 𝑠.𝑙𝑒𝑣𝑇 = 𝑝𝑛.𝑇 p4 p3 p5 p6 p7 A Stay Point S p1 p2 Latitude, Longitude, Time p1: Lat1, Lngt1, T1 p2: Lat2, Lngt2, T2 ………... pn: Latn, Lngtn, Tn
  6. 6. 演示
  7. 7. 停留点的分布情况
  8. 8. DBSCAN • Density-based spatial clustering of applications with noise • DBSCAN是一种最常用的基于密度的聚类算法,目的在于过滤低密 度区域,发现稠密度样本点。相比K-means,不需要用户预先指 定聚类的个数,可以发现任意形状的聚类簇。 (K-means 不能发现 非凸形状的簇)
  9. 9. 输入: Eps:半径 MinPts:给定点在Eps领域内成为核心对象的最小领域点数 D:数据集合输出:分簇集合 方法: repeat 判断输入点是否为核心对象 找出核心对象的E领域中的所有直接密度可达点 until 所有输入点都判断完毕 repeat 针对所有核心对象的E领域所有直接密度可达点找到最大密度相连对象合,中间涉及 到一些密度可达对象的合并。 until 所有核心对象的E领域都遍历完毕
  10. 10. 距离度量 • C = sin(MLatA)*sin(MLatB)*cos(MLonA-MLonB) + cos(MLatA)*cos(MLatB) • Distance = R*Arccos(C)*Pi/180
  11. 11. 模型评估结果 • 没有label数据,无法做precision,recall, F-measure。 • 通过散点图观察 • 轮廓系数(Silhouette Coefficient),结合了凝聚度(Cohesion)和分离 度(Separation),[-1,+1],越大越好。
  12. 12. 总结 • 由于使用全局参数Eps,DBSCAN对密度不均匀的数据效果不好 • DBSCAN可以发现任意形状的簇 • 没有label的聚类算法评估困难
  13. 13. 参考 • Yu Zheng, Lizhu Zhang, Xing Xie, Wei-Ying Ma. Mining Interesting Locations and Travel Sequences from GPS Trajectories. • 张明月. 基于出租车轨迹的载客点与热点区域推荐. • 唐志博,姜小荣,陈伟. 基于dbscan算法的geolife人员位置分析.
  14. 14. Q&A THX

×