20131029 хохлов

Яндекс.Пробки:
анализ GPS-треков и
прогнозирование
дорожной ситуации
Михаил Хохлов
разработчик

Способ получения данных

20 км/ч

3

35 км/ч

15 км/ч

Привязка треков
Локальные методы
Быстрые и эффективные при высоком качестве данных

Глобальные методы
Дают высокую точность при оффлайновой обработке

Статистические методы
Позволяют адекватно учитывать погрешность измерений

5

ST-matching

Вероятность
наблюдения

перехода

пространственный (spatial)
анализ

6

скорости

временной (temporal)
анализ


7


8


9


10


11

Данные о проездах
120

100

км/ч

80

60

40

20

0

0

1

2

3
часы

12

4

5

6

Данные о проездах
120

100

км/ч

80

60

40

20

0

0

1

2

3
часы

13

4

5

6

Итерационное сглаживание
100
90
80
70

км/ч

60
50
40
30
20
10
0
1.5

1.6

1.7

1.8

1.9
часы

14

2

2.1

2.2

2.3

Чего бы хотелось
100
90
80
70

км/ч

60
50
40
30
20
10
0
1.5

1.6

1.7

1.8

1.9
часы

15

2

2.1

2.2

2.3

Медианный фильтр
100
90
80
70

км/ч

60
50
40
30
20
10
0
1.5

1.6

1.7

1.8

1.9
часы

16

2

2.1

2.2

2.3

Подходы к прогнозированию
Содержательное моделирование
поиск причин и следствий

Машинное обучение
поиск закономерностей

17



18



19

Дорожная ситуация (МКАД)

20

Транспортные модели

потоковые модели

имитационные модели

параметрические модели (линейные, нелинейные)
непараметрические модели
нейронные сети
...
21

Задача регрессии
Регрессия:

̂
Y =F ( X )
Может быть
параметрической:
непераметрической:

F выбирается из параметризованного семейства
не делается предположений о виде F

Авторегрессия:

̂
Y t =F (Y t−L ,…, Y t−1 )
23

Линейная регрессия
Предполагаем линейный вид:

̂
̂ ̂
Y t =β0 + ∑ X j β j
j

24

Метод наименьших квадратов
̂ =argmin ∑ ( y i −x i β )2
β
i

̂ =( X T X )−1 X T y
β

если

25

T

X X невырождена

Вычисляем ошибку

Root Mean Square Error (RMSE)

RMSE=

̂
∑ ( y i− y i )
√

2

i∈S

S = обучающей выборке или тестовой выборке

26


27


28


29

Переобучение и недообучение

30

К чему стремимся

33

k ближайших соседей

Метод k ближайших соседей

Картина пробок #1
35


36


37


Прогноз:
38

Сложность модели и ошибка

ошибка на тестовой выборке

ошибка на обучающей выборке

оптимальное число соседей

39

Декомпозиция ошибки
2

Пусть Y =f ( X )+ε , E (ε)=0,Var (ε)=σ
̂
а f ( X ) — подобранная регрессия.
Ожидаемая ошибка в точке x 0 равна
̂ ( x 0 ))2 ]=
E[(Y − f
2
̂ ( x 0 ))2 ]+ E [( E f ( x 0 )− f ( x 0 ))2 ]=
̂
̂
=
σ
+ E [(f ( x 0 )− E f
= irreducible +
bias2
+
variance
error

40

Баланс смещения и дисперсии
Для KNN регрессии

[

1
bias= f ( x 0 )−
k
variance=σ
k

41

k

∑ f ( x(i))
i=1

]

2

обычно растет с увеличением k

2

падает с увеличением k

Скользящий контроль (cross-validation)
тест

обучение

42

Критерии минимизации

Робастность (robustness)

outlier

44


least squares

45


Least absolute errors

least squares

46

Некоторые варианты критериев
Наименьшие квадраты (Least Squares)
вычислительно быстр, но подвержен влиянию выбросов

Наименьшие модули (Least Absolute Errors)
робастный, но недифференцируем в нуле, поэтому сложно
оптимизировать

Функция Хьюбера (Huber's Loss Function)
робастная и гладкая

47

Функция Хьюбера
2

x
Lδ ( x)= ,
если∣x∣≤δ
2
δ ), иначе
Lδ ( x)=δ(∣x∣−
2

48

Выбор предикторов


Проблема при увеличении размерности:
переобучение => падает точность
много коэффициентов => сложно интерпретировать

Возможное решение: выбрать подмножество предикторов,
которые сильнее всего влияют на результат.

50

Forward step-wise
на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку

51

Forward step-wise

Backward step-wise
на каждом шаге убираем предиктор с наименьшим Z-score

52

Forward step-wise

Backward step-wise

̂ )=( X T X )−1 σ 2
Var (β
̂
βj
T
−1
Z j=
, где v j это j−й диагональный элемент ( X X )
σ √v j

53

Forward step-wise

Backward step-wise

Forward stage-wise
подправляем коэффициент при переменной, которая больше всего коррелирует
с остатком

54

Негауссовы распределения

Преобразование переменных
км/ч

сек/км

56

36 км/ч

Случай 1

p=1/2
100 метров
3,6 км/ч

Случай 2

p=1/2
100 метров

время

скорость

Случай 1 10 сек

3.6 км/ч

Среднее 55 сек

57

36 км/ч
～ 20 км/ч

36 км/ч

Случай 1

p=1/2
100 метров
3,6 км/ч

Случай 2

p=1/2
100 метров

время

скорость


36 км/ч


3.6 км/ч

Среднее 55 сек

～ 20 км/ч

100 м / 55 сек ≈ 7 км/ч
58

Обобщенные линейные модели
Распределение из экспоненциального семейства

f (Y ; η)=b(Y )exp(ηT (Y )−a(η))
Функция связи

̂
̂
F ( Y )=∑ X j β j
j

59

Литература
1. Map-Matching for Low-Sampling-Rate GPS Trajectories. Yin Lou, Chengyang
Zhang, Yu Zheng, Xing Xie, Wei Wang, and Yan Huang.

2. The Elements of Statistical Learning: Data Mining, Inference, and
Prediction. Trevor Hastie, Robert Tibshirani, Jerome Friedman.
3. http://www.machinelearning.ru
4. Yandex Technologies. http://company.yandex.com/technologies/

60

Михаил Хохлов
разработчик
к. ф.-м. н.
aeol@yandex-team.ru

Спасибо

20131029 хохлов

Recommended

Recommended

More Related Content

Similar to 20131029 хохлов

Similar to 20131029 хохлов (20)

More from Yandex

More from Yandex (20)

20131029 хохлов