SlideShare a Scribd company logo
1 of 49
Download to read offline
⻋车联⽹网时空数据挖掘及洞洞察
侯志伟
北北京⻋车⽹网互联科技有限公司
2017 / 05 / 20
2
⻋车联⽹网时空数据的产⽣生
挖掘和洞洞察才是⼤大数据时代的稀缺资源
拥有数据只是万⾥里里⻓长征的第⼀一步
3
开源的⻋车联⽹网时空数据
2011
T-Drive trajectory data
sample
10,357 taxis
one-week
15 million trips
2015
Taxi Trajectory Prediction
Taxi Trip Time Prediction
442 taxis
one-year
2015
Driver Telematics Analysis
200 driver
50,000 trips
"telematics fingerprint"
NewYork Taxi
Yellow/Green/Uber
1.3 billion trips
To be continued
20152016
交通线路路通达时间预测
10000+ taxis
one-month
2016
供需预测
某⼆二线城市⼀一个⽉月订单
2 billion trips
4
⻋车⽹网坐拥巨⼤大的数据⾦金金矿
统计数据截⽌止⾄至2016年年4⽉月
总量量
数据条⽬目 条577亿 条6500万
每⽇日增量量
段总⾏行行程数 段3.2亿 50万
累计⾥里里程 km51.8亿 km982万
⾏行行驶时⻓长 h1.2亿 h16.9万
数据尺⼨寸 TB150 GB160
事件识别
Crash Detection
⾏行行为评价
Driving Behavior
⽤用户画像
Persona
业务应⽤用
6
技术架构
监
控
调
度
管
理理
HDFS分布式⽂文件系统共享资源池
数据清洗 数据过滤 数据校准
模型构建特征⼯工程 模型校验 可视化
业务系统层
数据治理理层
分析建模层
流数据处理理平台
Storm
Spark streaming
`
多租户数据挖掘平台
Spark Hive H2O R/
Python/SCALA
深度学习平台
Deep Water
TensorFlow/MXNet/Caffe
原始数据层
⾏行行为评价
Driving Behavior
事件识别
Crash Detection
⽤用户画像
Persona
7
原始数据采集
后装
OBD
TBOX
……
APP
iOS
Android
平台对接
电商
CRM
……
公共接⼝口
天⽓气
交通
……
前装
⻋车机
TBOX
……
static void Main(string[]
args)
{
Console.WriteLine(“Hello
world!");
}
加速度
速度
通话状态
屏幕状态
⻋车况数据
诊断数据
APP使⽤用情况
GPS位置
⽤用户基本信息
⻋车辆基本情况
多源的数据采集
8
数据治理理
发明专利利-《⼀一种GPS数据⾼高压缩⽐比低失真率压缩算法》
发明专利利-《⼀一种针对失真GPS数据的识别修正算法》
GPS数据偏移
GPS数据修复
● GPS反应的虚假事件
实际事件
过滤前容易易产⽣生虚假事件
虚假事件被过滤
数据过滤 数据校准
三轴加速度传感器器校准前
校准后
数据清洗
发明专利利-《⻋车载加速传感器器的三轴⾃自校准⽅方法及装置》
事件识别
Crash Detection
⾏行行为评价
Driving Behavior
⽤用户画像
Persona
10
事件概览
⼿手机
出⾏行行⽅方式改变
放置⽅方式变化
屏幕点亮/关闭
通话开始/结束
OBD
剩余油量量
异动报警
低电提醒
故障警报
11
碰撞案例例分析
-0.4
0
0.4
0
12.5
25
37.5
50
1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115
GPS速度 加速度
① ⻋车辆以45公⾥里里/⼩小时的速度⾏行行驶
② 刹⻋车,⻋车辆减速⾄至停⻋车(地图位置为⼗十字路路⼝口)
③ 约50s后,在速度为0时产⽣生⼀一明显加速度
④ ⻋车辆熄⽕火,50分钟后再次启动(图中未显示)
⑤ ⻋车辆停⽌止(地图位置为4S店),之后3天未移动
50s左右
2 3
1
5
4
⻋车辆遇红灯后停⻋车,50s后被后⻋车追尾,送⾄至4S店维修
12
真实环境测试
13
碰撞事件分析报告
14
加油事件
发明专利利-《⼀一种基于⻋车载诊断系统数据的油耗测算⽅方法和装置》、《⼀一种基于汽⻋车OBD数据预测某次⾏行行程百公⾥里里油耗的⽅方》、《⼀一种基于汽⻋车OBD数据计算汽⻋车加油周期内百公⾥里里油耗的⽅方法》
多次加油事件聚点分析全国加油站分布图
15
三急事件
上海海某区域急加事件热⼒力力图 上海海某区域急减事件热⼒力力图
16
停⻋车等待事件
⾮非急刹⻋车直线停启事件聚点得到全国信号交叉⼝口分布图(上海海为例例)
17
基于固定⽹网格划分的空间索引
geohash空间索引
18
geohash索引示例例
➢ 建模中采⽤用从6到9的
编码⻓长度
➢ 考虑到数据分布的稀
疏性
编码
⻓长度
Lat
位
数
Lng
位数
Lat误差 Lng误差 km误差
1 2 3 ±23 ±23 ±2500
2 5 5 ± 2.8 ±5.6 ±630
3 7 8 ± 0.70 ± 0.7 ±78
4 10 10 ± 0.087 ± 0.18 ±20
5 12 13 ± 0.022 ± 0.022 ±2.4
6 15 15 ± 0.0027 ± 0.0055 ±0.61
7 17 18 ±0.00068 ±0.00068 ±0.076
8 20 20 ±0.000086 ±0.000172 ±0.019
9 22 23 ±0.000021 ±0.000021 ±0.005
19
基于空间索引的多元⽹网格数据分析
➢ 有空间属性的危险事件识别
路路⼝口密
度⾼高
短暂加
速后急
刹⻋车
抢灯未成
功⾏行行为
路路⼝口/多路路⼝口区域
⽤用户在本⽹网格短
暂加速后急刹⻋车
抢灯未成功⾏行行为
➢ e.g. 典型的抢灯未成功⾏行行为
20
基于空间索引的多元⽹网格数据分析
➢ 多元⽹网格数据的主成分分析和分类
➢ e.g. 基于多元⽹网格数据进⾏行行监督分类,得到⻛风险地图
Algorithm
past
now
future
GLM
SVM
CNN
RNN
LSTM
MAPE
21
⻛风险地图
⽤用户画像
Persona
⾏行行为评价
Driving Behavior
事件识别
Crash Detection
23
⽤用户特征分类
1 ⾏行行为点聚点及其属性特征
⾏行行程起⽌止点聚点
聚点属性特征分析
2 ⽤用⻋车习惯特征
⽤用户⽤用⻋车的规律律度、⽤用⻋车频率、
是否通勤勤⽤用⻋车,主要路路线等特征
3 特殊⽤用户标记
针对特点⽐比较明显的⽤用户进⾏行行标记
识别营运⻋车辆、狂热⾃自驾游⻋车辆
24
聚点及其属性特征
● ⽤用标号的序列列定义⽤用户的⾏行行为,⽅方便便建模
原始⾏行行程统计数据
● 让点有标号,同时⼆二维降为⼀一维,降低计算复杂度
点索引的优势:
某⽤用户全部⾏行行程起⽌止点分布
25
聚点及其属性特征
● 设备启动的延时性
● ⻋车辆轨迹的连续性
● ⾏行行为点聚点的精确位置
聚点算法
发明专利利-《基于⻋车联⽹网数据的⽤用户驻留留点的聚类及聚点的属性分析⽅方法》
聚点属性特征
● 时间维度特征
● 空间维度特征
● Apriori的频繁项集特征
⾏行行为点作为终点时的分布
⾏行行为点作为起点时的分布
26
⽤用⻋车习惯特征 – ⽤用户喜好判断
发明专利利-《⼀一种基于⻋车联⽹网数据的⽤用户出⾏行行喜好分析⽅方法 》
住宅区
商业区
住宅区
加油站
商城
某⽤用户4⽉月份⾏行行程起⽌止点分布和迁徙
27
⽤用⻋车习惯特征 – 出⾏行行规律律度分析
将历史轨迹数字化转换
空间索引:聚点编号
时间索引:将时间以较⼩小的间隔离散化
20160509 0 0 0 0 0 0 0 0
20160510 0 0 0 0 0 0 0 0
20160511 0 0 0 0 0 0 0 0
20160512 0 0 0 0 0 0
20160513 0 0 0 0 0 0 0 0
20160514 0 0 0 0 0 0 0 0
20160515 0 0 0 0 0 0
MON A B B A
TUE A B B A
WED A B B A
THU A B B C C A
FRI A B B F
SAT F D D F
SUN F A A C C A
⎡ ⎤
⎢ ⎥
⎢ ⎥
⎢ ⎥
⎢ ⎥
⎢ ⎥
⎢ ⎥
⎢ ⎥
⎢ ⎥
⎢ ⎥
⎣ ⎦
规律律度计算
以天为单位,考察⽤用户轨迹序列列的相似度
具有相同属性的点的本身的相似度更更⾼高
以⽉月为时间窗⼝口,显示最终规律律度
28
特殊⽤用户标记 – 营运性⻋车辆识别
营运性⻋车辆⽐比例例最⾼高的⻋车型 营运性⻋车辆数量量最多的⻋车型
别克GL8
景逸X3
⻨麦柯斯
别克GL8
捷达
桑塔纳
低频访
问地点
每⽇日聚
点种类
有家但
⽆无公司
常去交
通枢纽
⽇日均开
⻋车时⻓长
路路边停
⻋车次数
营运性⻋车辆指数评价模型特征选取 某GL8⾏行行程起⽌止点分布和迁徙(2017.3)
某GL8⾏行行程起⽌止点分布和迁徙(2017.3)
29
⽤用户画像分析平台
30
⽤用户群体画像 – 位置分布
其他
0.2147
北北京
0.0247
河南
0.0273
⼭山⻄西
0.0293
重庆
0.0295
河北北
0.0584
浙江
0.0889 江苏
0.0908
⼴广东
0.0992
⼭山东
0.1294
上海海
0.2077
● ⻓长三⻆角,⽤用户规模庞⼤大
● 覆盖⼤大陆全部地区
via leaflet
31
⽤用户群体画像 – 城市迁徙
● 东、⻄西城区吸收其他区⼯工作者⽐比例例最多
● 怀柔、顺义的⽤用户多在本区⼯工作
各区住宅和⼯工作同区的⽤用户⽐比例例
0%
23%
45%
68%
90%
昌平区 ⼤大兴区 房⼭山区 海海淀区 ⽯石景⼭山区 通州区
via networkD3
32
⽤用户群体画像 – ⻋车型分布
凯越
福克斯
科鲁兹
朗逸
明锐
速腾
英朗
POLO
⻓长安CS75
宝来
2500 5000
● OBD⽀支持⻋车型众多
● 9-12万的美系⻋车是主体
via plotly
⾏行行为评价
Driving Behavior
⽤用户画像
Persona
事件识别
Crash Detection
34
UBI⻋车险
初阶UBI
● 按⾥里里程付费的⻋车险
● PAYD, Pay As You Drive
● 在上年年出险次数基础上,添加
⾥里里程或时⻓长等特征来确定保费
的阶段
中阶UBI
● 按驾驶习惯付费的⻋车险
● PHYD, Pay How You Drive
● 在初阶UBI的基础上,基于⼤大数据
添加驾驶⾏行行为等特征的阶段,例例如
⾏行行程中的速度、加速度等
⾼高阶UBI
● 按⻛风险付费的⻋车险
● 在中阶UBI基础上添加时空数据,例例
如:天⽓气信息、区域复杂度、违章系
数等特征来定保费的阶段
挑选可能的特征 有效的⻛风险特征搜集数据 筛选特征精算分析
继续加⼊入新的特征
计算终极事故评定⻛风险系数 精准定价
UBI技术模型
Usage Based Insurance
User Behavior Insurance
35
评分的六⼤大特征
度量量 出⾏行行时段和驾驶时⻓长带来的 ⻛风险
时⻓长、时段
⽤用⾏行行为习惯(规律律度)、道路路熟悉程度
度量量 个⼈人⽤用⻋车习惯的 ⻛风险
安全(危险)操作、(⾮非)⼿手持通话
度量量 因⼿手机造成的分⼼心驾驶的 ⻛风险
基于路路⽹网信息图层、事件图层、空间危险事件图层得到⻛风险地图
以及有空间属性的危险事件识别
度量量 ⾏行行程经过的⻛风险区的累积 有空间属性的极端危险⾏行行为 ⻛风险
平均速度、相对速度、道路路限速
度量量 不不同交通状况下的速度 ⻛风险
三急事件、轨迹曲率半径、
速度(⻆角度)变化平稳性、
速度的切向(法向)分量量平稳性
度量量 ⾏行行程中加速、减速、转弯的 ⻛风险
专注度(限APP⽤用户)
空间
时间
速度
平稳性
特征解耦
⾏行行为评价
画像
发明专利利-《⼀一种基于⻋车联⽹网数据的驾驶⾏行行为评价⽅方法》
36
时间特征
数据来源:DfT data from 2010 - 2012 (over 500,000 RTA casualties)
⼀一天中相对事故⻛风险
交通流量量很低
00:00 02:00 04:00 06:00 08:00 10:00 12:00 14:00 16:00 18:00 20:00 22:00 24:00
早⾼高峰 晚⾼高峰
1.25
3.75
5
2.5
周⼀一⾄至周四
周五
周六
周⽇日
特⼤大
交通
40% 疲劳驾驶
⼀一般
20% 疲劳驾驶
数据来源:交通部⻔门统计结果
疲劳驾驶是⾼高速公路路事故最⼤大起因
时段:不不同时段的道路路交通流量量和⼈人的精神状态
时⻓长:疲劳驾驶⾏行行为极度危险
37
速度特征
速度更更快 = 事故更更多?
相对速度更更能刻画发⽣生事故的⻛风险
数据来源:FLOOW
道路路规划限速
基于历史数据的
道路路限速
道路路规划最佳速度
(道路路流量量最⼤大时)
基于历史数据的
道路路平均速度
复杂速度特征
相对速度
通过路路段索引 & ⽹网格索引,计算相对速度
0.0 2.5 5.0 7.5 速度评分
⼗十分位数
事故率
0.10
0.05
相对速度绝对速度
38
平稳性特征
0
25
50
75
100
6:16
6:18
6:20
6:22
6:24
6:26
6:28
6:30
6:32
0
25
50
75
100
7:40
7:42
7:44
7:46
7:48
7:50
7:52
7:54
7:56
0
30
60
90
120
17:2917:3317:3717:4117:4517:4917:5317:5718:0118:0518:0918:1318:1718:2118:2518:2918:33
0
30
60
90
120
0:00
0:04
0:08
0:12
0:16
0:20
0:24
0:28
0:32
0:36
0:40
0:44
0:48
0:52
0:56
平稳性差的司机(⾼高速公路路)平稳性好的司机(⾼高速公路路)
平稳性好的司机(市区道路路) 平稳性差的司机(市区道路路)
实验研究表明,驾驶平稳性在⼀一定
程度上能预测事故的发⽣生
39
空间特征
基于⻛风险地图的⻛风险累积 有空间属性的危险事件
➢信号交叉⼝口抢灯⾏行行为
➢并线⾼高发区急转⾏行行为
➢空间⽹网格内⻋车流量量较⾼高时的掉头⾏行行为
40
专注度特征(限APP⽤用户)
项⽬目 相对危险度
⼿手机通话 1.3-9.0
拨打/接听电话 2.8
写短信 23.2
数据来源: Young & Salmon Safety Science 50 (2012)
根据研究,不不同的⾏行行为危险度不不同
23:24:30 23:24:35 23:24:5523:24:5023:24:4523:24:40
10s左右
速度 加速度 y轴加速度X轴加速度 z轴加速度
1 2
3
通过APP识别⼿手机操作
⻋车辆发⽣生急减速
速度快速下降
因通话影响驾驶⾏行行为
⼿手机操作 ⼿手机通话
专注度评价
⼿手持 ⾮非⼿手持安全操作 危险操作
41
画像特征
以上三位⽤用户的⻛风险⼀一样么?
男
上班族
通勤勤⽤用⻋车
常在市区且位置固定
偏爱餐饮场所
A B
男
职业不不明
⾮非通勤勤⽤用⻋车
常在⾮非市区且位置不不固定
偏爱⾃自驾越野 偏爱交通枢纽
男
营运⻋车辆
⾮非通勤勤⽤用⻋车
常在市区且位置不不固定
C
规律律度得分:90
平均道路路熟悉度得分:88
规律律度得分:50
平均道路路熟悉度得分:50
规律律度得分:60
平均道路路熟悉度得分:66
➢基于规律律度、⽤用户喜好、特殊⽤用户识别等计算,度量量⽤用户⽤用⻋车习惯的⻛风险
42
特征之外
⾏行行为评价
六⼤大特征
客户需求 硬件基础
简单⾼高效 / 复杂精确 的全维度定制化UBI模型⽀支持
Take away messages
拥有数据只是万⾥里里⻓长征的第⼀一步,挖掘和洞洞察才是⼤大数据时代的稀缺资源
⻋车联⽹网时空数据挖掘洞洞察之道:时空索引 和 并⾏行行计算
44
分布式计算与SparkR的爬坑经验
知乎回答:https://www.zhihu.com/question/30465910
答案当然是可以的。
● SparkR本身会有R Function Name Conflicts(函数名称冲突)的问题,冲突的
函数应加上包名前缀区分使⽤用。例例如base::table;
● 在调⽤用CRAN包⾥里里的函数时的话,为了了让map出去的函数命令都是闭包的,需要
在开始进⾏行行类似于broadcast(⼴广播)的操作,同时集群的每台机器器安装相应的r包;
关于我们
46
⻋车⽹网互联
北北京
⼴广州
上海海
扬州
⿊黑河
http://carsmart.cn
点击官⽹网了了解更更多
荣之联成员企业
⼗十年年⻋车联⽹网⾏行行业经验
数⼗十项发明技术专利利
47
遍布全球的客户
中运紫微
⽴立⾜足今天,放眼未来
20072008200920102011201220132014201520162017
车联网时空数据挖掘及洞察

More Related Content

Similar to 车联网时空数据挖掘及洞察

大数据时代下的汽车营销加成
大数据时代下的汽车营销加成大数据时代下的汽车营销加成
大数据时代下的汽车营销加成Yan Liu
 
3 a forum 2016 陆金所前端进化论 微服务之路(public)
3 a forum 2016 陆金所前端进化论 微服务之路(public)3 a forum 2016 陆金所前端进化论 微服务之路(public)
3 a forum 2016 陆金所前端进化论 微服务之路(public)Ufo Qiao
 
服務型智慧政府推動計畫 v9
服務型智慧政府推動計畫 v9服務型智慧政府推動計畫 v9
服務型智慧政府推動計畫 v9Audrey Tang
 
GB-T-32960-2016 新能源标准解读,中国要求,强制标准,不错的PPT
GB-T-32960-2016 新能源标准解读,中国要求,强制标准,不错的PPTGB-T-32960-2016 新能源标准解读,中国要求,强制标准,不错的PPT
GB-T-32960-2016 新能源标准解读,中国要求,强制标准,不错的PPTpatrickwang85
 
0628_鄭祖睿.pdf
0628_鄭祖睿.pdf0628_鄭祖睿.pdf
0628_鄭祖睿.pdfssuserfb4ed2
 
混合云安全创新实践应用
混合云安全创新实践应用混合云安全创新实践应用
混合云安全创新实践应用Hardway Hou
 
道客 --维基交通的世界观
道客 --维基交通的世界观道客 --维基交通的世界观
道客 --维基交通的世界观Jason King
 
Chinese Chemical Presenatation(中译文)(p10有批注)
Chinese Chemical Presenatation(中译文)(p10有批注)Chinese Chemical Presenatation(中译文)(p10有批注)
Chinese Chemical Presenatation(中译文)(p10有批注)Lora Cecere
 
清潔機器人產業分析報告
清潔機器人產業分析報告清潔機器人產業分析報告
清潔機器人產業分析報告少文 吳
 
7 business options for a smart IOT service ( 7 種智能物聯網的商業模式)
7 business options for a smart IOT service  ( 7 種智能物聯網的商業模式)7 business options for a smart IOT service  ( 7 種智能物聯網的商業模式)
7 business options for a smart IOT service ( 7 種智能物聯網的商業模式)August Lin
 
大数据下的大表Join计算和优化
大数据下的大表Join计算和优化大数据下的大表Join计算和优化
大数据下的大表Join计算和优化huhai463127310
 

Similar to 车联网时空数据挖掘及洞察 (11)

大数据时代下的汽车营销加成
大数据时代下的汽车营销加成大数据时代下的汽车营销加成
大数据时代下的汽车营销加成
 
3 a forum 2016 陆金所前端进化论 微服务之路(public)
3 a forum 2016 陆金所前端进化论 微服务之路(public)3 a forum 2016 陆金所前端进化论 微服务之路(public)
3 a forum 2016 陆金所前端进化论 微服务之路(public)
 
服務型智慧政府推動計畫 v9
服務型智慧政府推動計畫 v9服務型智慧政府推動計畫 v9
服務型智慧政府推動計畫 v9
 
GB-T-32960-2016 新能源标准解读,中国要求,强制标准,不错的PPT
GB-T-32960-2016 新能源标准解读,中国要求,强制标准,不错的PPTGB-T-32960-2016 新能源标准解读,中国要求,强制标准,不错的PPT
GB-T-32960-2016 新能源标准解读,中国要求,强制标准,不错的PPT
 
0628_鄭祖睿.pdf
0628_鄭祖睿.pdf0628_鄭祖睿.pdf
0628_鄭祖睿.pdf
 
混合云安全创新实践应用
混合云安全创新实践应用混合云安全创新实践应用
混合云安全创新实践应用
 
道客 --维基交通的世界观
道客 --维基交通的世界观道客 --维基交通的世界观
道客 --维基交通的世界观
 
Chinese Chemical Presenatation(中译文)(p10有批注)
Chinese Chemical Presenatation(中译文)(p10有批注)Chinese Chemical Presenatation(中译文)(p10有批注)
Chinese Chemical Presenatation(中译文)(p10有批注)
 
清潔機器人產業分析報告
清潔機器人產業分析報告清潔機器人產業分析報告
清潔機器人產業分析報告
 
7 business options for a smart IOT service ( 7 種智能物聯網的商業模式)
7 business options for a smart IOT service  ( 7 種智能物聯網的商業模式)7 business options for a smart IOT service  ( 7 種智能物聯網的商業模式)
7 business options for a smart IOT service ( 7 種智能物聯網的商業模式)
 
大数据下的大表Join计算和优化
大数据下的大表Join计算和优化大数据下的大表Join计算和优化
大数据下的大表Join计算和优化
 

车联网时空数据挖掘及洞察