SlideShare a Scribd company logo
1 of 71
Download to read offline
Михаил Хохлов
разработчик
Яндекс.Пробки:
анализ GPS-треков и
прогнозирование
дорожной ситуации
3
20 км/ч
Способ получения данных
35 км/ч 15 км/ч
4
Треки
5
Привязка треков
6
Привязка треков
Локальные методы
Быстрые и эффективные при высоком качестве данных
Глобальные методы
Дают высокую точность при оффлайновой обработке
Статистические методы
Позволяют адекватно учитывать погрешность измерений
7
ST-matching
Вероятность
наблюдения
Вероятность
перехода
Вероятность
скорости
пространственный (spatial)
анализ
временной (temporal)
анализ
8
Привязка треков
9
Привязка треков
10
Привязка треков
11
Привязка треков
Усреднение
13
Данные о проездах
0 1 2 3 4 5 6
0
20
40
60
80
100
120
часы
км/ч
14
Данные о проездах
0 1 2 3 4 5 6
0
20
40
60
80
100
120
часы
км/ч
15
Итерационное сглаживание
1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3
0
10
20
30
40
50
60
70
80
90
100
часы
км/ч
16
Чего бы хотелось
1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3
0
10
20
30
40
50
60
70
80
90
100
часы
км/ч
17
Медианный фильтр
1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3
0
10
20
30
40
50
60
70
80
90
100
часы
км/ч
18
Медианный фильтр
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
0
10
20
30
40
50
60
часы
км/ч
19
Итерационное сглаживание
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
0
10
20
30
40
50
60
часы
км/ч
Прогнозирование
21
Дорожная ситуация (МКАД)
22
Транспортные модели
Содержательное моделирование
потоковые модели имитационные модели
Машинное обучение
параметрические модели (линейные, нелинейные)
непараметрические модели
нейронные сети
...
23
Поток от плотности
24
Поток от плотности
Машинное обучение:
линейные модели
26
Задача регрессии
Регрессия:
Может быть
параметрической: выбирается из параметризованного семейства
непераметрической: не делается предположений о виде
Авторегрессия:
̂Y =F(X)
̂Yt=F(Y t−L ,…,Yt−1)
F
F
27
Линейная регрессия
Предполагаем линейный вид: ̂Yt= ̂β0+∑
j
X j
̂βj
28
Метод наименьших квадратов
если невырождена
̂β=argmin∑
i
( yi−xi β)
2
̂β=(X
T
X)
−1
X
T
y
X
T
X
29
Переобучение и недообучение
30
Недообучение
31
Переобучение
32
К чему стремимся
Машинное обучение:
k ближайших соседей
3434
Метод k ближайших соседей
34
Картина пробок #1
3535
Метод k ближайших соседей
35
Картина пробок #2
3636
Метод k ближайших соседей
36
Картина пробок #3
3737
Прогноз:
Метод k ближайших соседей
37
38
Сложность модели и ошибка
ошибка на тестовой выборке
ошибка на обучающей выборке
оптимальное число соседей
39
Пусть
а — подобранная регрессия.
Ожидаемая ошибка в точке равна
Декомпозиция ошибки
Y=f (X)+ε, E(ε)=0,Var(ε)=σ2
̂f (X)
x0
E[(Y −̂f (x0))2
]=
= σ2
+E[(f (x0)−E ̂f (x0))2
]+E[(E ̂f (x0)−̂f (x0))2
]=
=irreducible
error
+ bias2
+ variance
40
Для KNN регрессии
обычно растет с увеличением k
падает с увеличением k
Баланс смещения и дисперсии
bias=
[f (x0)−
1
k
∑
i=1
k
f (x(i))
]
2
variance=σ2
k
41
Скользящий контроль (cross-validation)
обучение
тест
Критерии минимизации ошибок
43
Робастность (robustness)
outlier
44
Робастность (robustness)
least squares
45
Робастность (robustness)
Least absolute errors
least squares
46
Некоторые варианты критериев
Наименьшие квадраты (Least Squares)
вычислительно быстр, но подвержен влиянию выбросов
Наименьшие модули (Least Absolute Errors)
робастный, но недифференцируем в нуле, поэтому сложно
оптимизировать
Функция Хьюбера (Huber's Loss Function)
робастная и гладкая
47
Функция Хьюбера
Lδ(x)=
x
2
2
, если∣x∣≤δ
Lδ(x)=δ(∣x∣−δ
2
), иначе
Выбор предикторов
49
Выбор предикторов
Проблема при увеличении размерности:
переобучение => падает точность
много коэффициентов => сложно интерпретировать
Возможное решение: выбрать подмножество предикторов,
которые сильнее всего влияют на результат.
50
Выбор предикторов: эвристики
• Геометрические соседи могут включать в себя много
лишних ребер (например, в центре Москвы).
• Топологические соседи могут упустить что-то важное
(например, проспект и дублер).
51
Автоматический выбор предикторов
Forward step-wise
на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку
52
Forward step-wise
на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку
Backward step-wise
на каждом шаге убираем предиктор с наименьшим Z-score
Автоматический выбор предикторов
53
Forward step-wise
на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку
Backward step-wise
на каждом шаге убираем предиктор с наименьшим Z-score
Var(̂β)=(XT
X)−1
σ2
Z j=
̂βj
σ √vj
, гдеvj это j-й диагональныйэлемент(XT
X)−1
Автоматический выбор предикторов
54
Forward step-wise
на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку
Backward step-wise
на каждом шаге убираем предиктор с наименьшим Z-score
Forward stage-wise
подправляем коэффициент при переменной, которая больше всего коррелирует
с остатком
Автоматический выбор предикторов
55
Forward step-wise
на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку
Backward step-wise
на каждом шаге убираем предиктор с наименьшим Z-score
Forward stage-wise
подправляем коэффициент при переменной, которая больше всего коррелирует
с остатком
LARS
Автоматический выбор предикторов
5656
LARS
56
Процедура регуляризации LARS.
Негауссовы распределения
58
Преобразование переменных
км/ч
сек/км
595959
время скорость
Случай 1 10 сек 36 км/ч
Случай 2 100 сек 3.6 км/ч
Среднее 55 сек ~ 20 км/ч
Случай 1 p=1/2
100 метров
36 км/ч
Случай 2 p=1/2
100 метров
3,6 км/ч
606060
100 м / 55 сек ≈ 7 км/ч
Случай 1 p=1/2
100 метров
36 км/ч
Случай 2 p=1/2
100 метров
3,6 км/ч
время скорость
Случай 1 10 сек 36 км/ч
Случай 2 100 сек 3.6 км/ч
Среднее 55 сек ~ 20 км/ч
Оценка качества
626262
Оценка качества
Задача сравнить:
Разные математические модели.
Дороги с разным количеством данных.
Дороги с разной степенью загруженности.
636363
Оценка качества
646464
Оценка качества
656565
Оценка качества
666666
Оценка качества
прогноз константой
модель
недельный профиль
Реализация
68
Граф дорог
Граф дорог —100Gb
История наблюдений — десятки Tb
69
Метод k ближайших соседей
Метод авторегрессии
70
Литература
1. Map-Matching for Low-Sampling-Rate GPS Trajectories. Yin Lou, Chengyang
Zhang, Yu Zheng, Xing Xie, Wei Wang, and Yan Huang.
2. The Elements of Statistical Learning: Data Mining, Inference, and
Prediction. Trevor Hastie, Robert Tibshirani, Jerome Friedman.
3. http://www.machinelearning.ru
4. Yandex Technologies. http://company.yandex.com/technologies/
Михаил Хохлов
разработчик
aeol@yandex-team.ru
Спасибо
к. ф.-м. н.

More Related Content

Similar to Presentation probki-extended-math-ed2

20131029 хохлов
20131029 хохлов20131029 хохлов
20131029 хохловYandex
 
Михаил Хохлов - Яндекс.Пробки (анализ GPS-треков и прогнозирование дорожной...
Михаил Хохлов - 	 Яндекс.Пробки (анализ GPS-треков и прогнозирование дорожной...Михаил Хохлов - 	 Яндекс.Пробки (анализ GPS-треков и прогнозирование дорожной...
Михаил Хохлов - Яндекс.Пробки (анализ GPS-треков и прогнозирование дорожной...Yandex
 
слайды кур раб планетар тмм
слайды кур раб планетар тммслайды кур раб планетар тмм
слайды кур раб планетар тммstudent_kai
 
Михаил Хохлов «Математическая модель для прогнозирования пробок»
Михаил Хохлов «Математическая модель для прогнозирования пробок» Михаил Хохлов «Математическая модель для прогнозирования пробок»
Михаил Хохлов «Математическая модель для прогнозирования пробок» Yandex
 
2015 Дипломная работа Калиновского Вячеслава Валентиновича "Разработка програ...
2015 Дипломная работа Калиновского Вячеслава Валентиновича "Разработка програ...2015 Дипломная работа Калиновского Вячеслава Валентиновича "Разработка програ...
2015 Дипломная работа Калиновского Вячеслава Валентиновича "Разработка програ...RF-Lab
 
Робастные методы и алгоритмы оценивания корреляционных характеристик данных н...
Робастные методы и алгоритмы оценивания корреляционных характеристик данных н...Робастные методы и алгоритмы оценивания корреляционных характеристик данных н...
Робастные методы и алгоритмы оценивания корреляционных характеристик данных н...paulsmirnov
 
2007 Никольская "Разработка программных средств для помехоустойчивого кодиров...
2007 Никольская "Разработка программных средств для помехоустойчивого кодиров...2007 Никольская "Разработка программных средств для помехоустойчивого кодиров...
2007 Никольская "Разработка программных средств для помехоустойчивого кодиров...RF-Lab
 
Сергей Горобцов: Идеологии разработки веб интерфейсов, адаптивность, Accessib...
Сергей Горобцов: Идеологии разработки веб интерфейсов, адаптивность, Accessib...Сергей Горобцов: Идеологии разработки веб интерфейсов, адаптивность, Accessib...
Сергей Горобцов: Идеологии разработки веб интерфейсов, адаптивность, Accessib...Yandex
 

Similar to Presentation probki-extended-math-ed2 (8)

20131029 хохлов
20131029 хохлов20131029 хохлов
20131029 хохлов
 
Михаил Хохлов - Яндекс.Пробки (анализ GPS-треков и прогнозирование дорожной...
Михаил Хохлов - 	 Яндекс.Пробки (анализ GPS-треков и прогнозирование дорожной...Михаил Хохлов - 	 Яндекс.Пробки (анализ GPS-треков и прогнозирование дорожной...
Михаил Хохлов - Яндекс.Пробки (анализ GPS-треков и прогнозирование дорожной...
 
слайды кур раб планетар тмм
слайды кур раб планетар тммслайды кур раб планетар тмм
слайды кур раб планетар тмм
 
Михаил Хохлов «Математическая модель для прогнозирования пробок»
Михаил Хохлов «Математическая модель для прогнозирования пробок» Михаил Хохлов «Математическая модель для прогнозирования пробок»
Михаил Хохлов «Математическая модель для прогнозирования пробок»
 
2015 Дипломная работа Калиновского Вячеслава Валентиновича "Разработка програ...
2015 Дипломная работа Калиновского Вячеслава Валентиновича "Разработка програ...2015 Дипломная работа Калиновского Вячеслава Валентиновича "Разработка програ...
2015 Дипломная работа Калиновского Вячеслава Валентиновича "Разработка програ...
 
Робастные методы и алгоритмы оценивания корреляционных характеристик данных н...
Робастные методы и алгоритмы оценивания корреляционных характеристик данных н...Робастные методы и алгоритмы оценивания корреляционных характеристик данных н...
Робастные методы и алгоритмы оценивания корреляционных характеристик данных н...
 
2007 Никольская "Разработка программных средств для помехоустойчивого кодиров...
2007 Никольская "Разработка программных средств для помехоустойчивого кодиров...2007 Никольская "Разработка программных средств для помехоустойчивого кодиров...
2007 Никольская "Разработка программных средств для помехоустойчивого кодиров...
 
Сергей Горобцов: Идеологии разработки веб интерфейсов, адаптивность, Accessib...
Сергей Горобцов: Идеологии разработки веб интерфейсов, адаптивность, Accessib...Сергей Горобцов: Идеологии разработки веб интерфейсов, адаптивность, Accessib...
Сергей Горобцов: Идеологии разработки веб интерфейсов, адаптивность, Accessib...
 

Presentation probki-extended-math-ed2