Presentation probki-extended-math-ed2

Михаил Хохлов
разработчик
Яндекс.Пробки:
анализ GPS-треков и
прогнозирование
дорожной ситуации

3
20 км/ч
Способ получения данных
35 км/ч 15 км/ч

5
Привязка треков

6
Локальные методы
Быстрые и эффективные при высоком качестве данных
Глобальные методы
Дают высокую точность при оффлайновой обработке
Статистические методы
Позволяют адекватно учитывать погрешность измерений

7
ST-matching
Вероятность
наблюдения
перехода
скорости
пространственный (spatial)
анализ
временной (temporal)
анализ

8

9

10

11

13
Данные о проездах
0 1 2 3 4 5 6
0
20
40
60
80
100
120
часы
км/ч

14
Данные о проездах
0 1 2 3 4 5 6
0
20
40
60
80
100
120
часы
км/ч

15
Итерационное сглаживание
1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3
0
10
20
30
40
50
60
70
80
90
100
часы
км/ч

16
Чего бы хотелось
1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3
0
10
20
30
40
50
60
70
80
90
100
часы
км/ч

17
Медианный фильтр
1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3
0
10
20
30
40
50
60
70
80
90
100
часы
км/ч

18
Медианный фильтр
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
0
10
20
30
40
50
60
часы
км/ч

19
Итерационное сглаживание
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
0
10
20
30
40
50
60
часы
км/ч

Прогнозирование

21
Дорожная ситуация (МКАД)

22
Транспортные модели
Содержательное моделирование
потоковые модели имитационные модели
Машинное обучение
параметрические модели (линейные, нелинейные)
непараметрические модели
нейронные сети
...

23
Поток от плотности

24
Поток от плотности

Машинное обучение:
линейные модели

26
Задача регрессии
Регрессия:
Может быть
параметрической: выбирается из параметризованного семейства
непераметрической: не делается предположений о виде
Авторегрессия:
̂Y =F(X)
̂Yt=F(Y t−L ,…,Yt−1)
F
F

27
Линейная регрессия
Предполагаем линейный вид: ̂Yt= ̂β0+∑
j
X j
̂βj

28
Метод наименьших квадратов
если невырождена
̂β=argmin∑
i
( yi−xi β)
2
̂β=(X
T
X)
−1
X
T
y
X
T
X

29
Переобучение и недообучение

32
К чему стремимся

Машинное обучение:
k ближайших соседей

3434
Метод k ближайших соседей
34
Картина пробок #1

3535
35

3636
36

3737
Прогноз:
37

38
Сложность модели и ошибка
ошибка на тестовой выборке
ошибка на обучающей выборке
оптимальное число соседей

39
Пусть
а — подобранная регрессия.
Ожидаемая ошибка в точке равна
Декомпозиция ошибки
Y=f (X)+ε, E(ε)=0,Var(ε)=σ2
̂f (X)
x0
E[(Y −̂f (x0))2
]=
= σ2
+E[(f (x0)−E ̂f (x0))2
]+E[(E ̂f (x0)−̂f (x0))2
]=
=irreducible
error
+ bias2
+ variance

40
Для KNN регрессии
обычно растет с увеличением k
падает с увеличением k
Баланс смещения и дисперсии
bias=
[f (x0)−
1
k
∑
i=1
k
f (x(i))
]
2
variance=σ2
k

41
Скользящий контроль (cross-validation)
обучение
тест

Критерии минимизации ошибок

43
Робастность (robustness)
outlier

44
least squares

45
Least absolute errors
least squares

46
Некоторые варианты критериев
Наименьшие квадраты (Least Squares)
вычислительно быстр, но подвержен влиянию выбросов
Наименьшие модули (Least Absolute Errors)
робастный, но недифференцируем в нуле, поэтому сложно
оптимизировать
Функция Хьюбера (Huber's Loss Function)
робастная и гладкая

47
Функция Хьюбера
Lδ(x)=
x
2
2
, если∣x∣≤δ
Lδ(x)=δ(∣x∣−δ
2
), иначе

Выбор предикторов

49
Выбор предикторов
Проблема при увеличении размерности:
переобучение => падает точность
много коэффициентов => сложно интерпретировать
Возможное решение: выбрать подмножество предикторов,
которые сильнее всего влияют на результат.

50
Выбор предикторов: эвристики
• Геометрические соседи могут включать в себя много
лишних ребер (например, в центре Москвы).
• Топологические соседи могут упустить что-то важное
(например, проспект и дублер).

51
Автоматический выбор предикторов
Forward step-wise
на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку

52
Forward step-wise
Backward step-wise
на каждом шаге убираем предиктор с наименьшим Z-score

53
Forward step-wise
Backward step-wise
Var(̂β)=(XT
X)−1
σ2
Z j=
̂βj
σ √vj
, гдеvj это j-й диагональныйэлемент(XT
X)−1

54
Forward step-wise
Backward step-wise
Forward stage-wise
подправляем коэффициент при переменной, которая больше всего коррелирует
с остатком

55
Forward step-wise
Backward step-wise
Forward stage-wise
подправляем коэффициент при переменной, которая больше всего коррелирует
с остатком
LARS

5656
LARS
56
Процедура регуляризации LARS.

Негауссовы распределения

58
Преобразование переменных
км/ч
сек/км

595959
время скорость
Случай 1 10 сек 36 км/ч
Случай 2 100 сек 3.6 км/ч
Среднее 55 сек ～ 20 км/ч
Случай 1 p=1/2
100 метров
36 км/ч
100 метров
3,6 км/ч

606060
100 м / 55 сек ≈ 7 км/ч
100 метров
36 км/ч
100 метров
3,6 км/ч
время скорость
Случай 1 10 сек 36 км/ч
Случай 2 100 сек 3.6 км/ч
Среднее 55 сек ～ 20 км/ч

626262
Оценка качества
Задача сравнить:
Разные математические модели.
Дороги с разным количеством данных.
Дороги с разной степенью загруженности.

636363

646464

656565

666666
прогноз константой
модель
недельный профиль

68
Граф дорог
Граф дорог —100Gb
История наблюдений — десятки Tb

69
Метод авторегрессии

70
Литература
1. Map-Matching for Low-Sampling-Rate GPS Trajectories. Yin Lou, Chengyang
Zhang, Yu Zheng, Xing Xie, Wei Wang, and Yan Huang.
2. The Elements of Statistical Learning: Data Mining, Inference, and
Prediction. Trevor Hastie, Robert Tibshirani, Jerome Friedman.
3. http://www.machinelearning.ru
4. Yandex Technologies. http://company.yandex.com/technologies/

Михаил Хохлов
разработчик
aeol@yandex-team.ru
Спасибо
к. ф.-м. н.

Presentation probki-extended-math-ed2

Recommended

Recommended

More Related Content

Similar to Presentation probki-extended-math-ed2

Similar to Presentation probki-extended-math-ed2 (8)

Presentation probki-extended-math-ed2