• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
20131029 хохлов
 

20131029 хохлов

on

  • 467 views

Михаил Хохлов на Я.Студенте в МГУ 29 октября

Михаил Хохлов на Я.Студенте в МГУ 29 октября
Прогнозирование Яндекс.Пробок

Statistics

Views

Total Views
467
Views on SlideShare
424
Embed Views
43

Actions

Likes
1
Downloads
1
Comments
0

3 Embeds 43

http://tech.yandex.ru 40
http://news.google.com 2
http://admin-ru.tech.yandex-team.ru 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    20131029 хохлов 20131029 хохлов Presentation Transcript

    • Яндекс.Пробки: анализ GPS-треков и прогнозирование дорожной ситуации Михаил Хохлов разработчик
    • Способ получения данных 20 км/ч 3 35 км/ч 15 км/ч
    • Треки 4
    • Привязка треков Локальные методы Быстрые и эффективные при высоком качестве данных Глобальные методы Дают высокую точность при оффлайновой обработке Статистические методы Позволяют адекватно учитывать погрешность измерений 5
    • ST-matching Вероятность наблюдения Вероятность перехода пространственный (spatial) анализ 6 Вероятность скорости временной (temporal) анализ
    • Привязка треков 7
    • Привязка треков 8
    • Привязка треков 9
    • Привязка треков 10
    • Привязка треков 11
    • Данные о проездах 120 100 км/ч 80 60 40 20 0 0 1 2 3 часы 12 4 5 6
    • Данные о проездах 120 100 км/ч 80 60 40 20 0 0 1 2 3 часы 13 4 5 6
    • Итерационное сглаживание 100 90 80 70 км/ч 60 50 40 30 20 10 0 1.5 1.6 1.7 1.8 1.9 часы 14 2 2.1 2.2 2.3
    • Чего бы хотелось 100 90 80 70 км/ч 60 50 40 30 20 10 0 1.5 1.6 1.7 1.8 1.9 часы 15 2 2.1 2.2 2.3
    • Медианный фильтр 100 90 80 70 км/ч 60 50 40 30 20 10 0 1.5 1.6 1.7 1.8 1.9 часы 16 2 2.1 2.2 2.3
    • Подходы к прогнозированию Содержательное моделирование поиск причин и следствий Машинное обучение поиск закономерностей 17
    • Подходы к прогнозированию Содержательное моделирование поиск причин и следствий Машинное обучение поиск закономерностей 18
    • Подходы к прогнозированию Содержательное моделирование поиск причин и следствий Машинное обучение поиск закономерностей 19
    • Дорожная ситуация (МКАД) 20
    • Транспортные модели Содержательное моделирование потоковые модели имитационные модели Машинное обучение параметрические модели (линейные, нелинейные) непараметрические модели нейронные сети ... 21
    • Линейные модели
    • Задача регрессии Регрессия: ̂ Y =F ( X ) Может быть параметрической: непераметрической: F выбирается из параметризованного семейства не делается предположений о виде F Авторегрессия: ̂ Y t =F (Y t−L ,…, Y t−1 ) 23
    • Линейная регрессия Предполагаем линейный вид: ̂ ̂ ̂ Y t =β0 + ∑ X j β j j 24
    • Метод наименьших квадратов ̂ =argmin ∑ ( y i −x i β )2 β i ̂ =( X T X )−1 X T y β если 25 T X X невырождена
    • Вычисляем ошибку Root Mean Square Error (RMSE) RMSE= ̂ ∑ ( y i− y i ) √ 2 i∈S S = обучающей выборке или тестовой выборке 26
    • Вычисляем ошибку 27
    • Вычисляем ошибку 28
    • Вычисляем ошибку 29
    • Переобучение и недообучение 30
    • Недообучение 31
    • Переобучение 32
    • К чему стремимся 33
    • k ближайших соседей
    • Метод k ближайших соседей Картина пробок #1 35
    • Метод k ближайших соседей Картина пробок #2 36
    • Метод k ближайших соседей Картина пробок #3 37
    • Метод k ближайших соседей Прогноз: 38
    • Сложность модели и ошибка ошибка на тестовой выборке ошибка на обучающей выборке оптимальное число соседей 39
    • Декомпозиция ошибки 2 Пусть Y =f ( X )+ε , E (ε)=0,Var (ε)=σ ̂ а f ( X ) — подобранная регрессия. Ожидаемая ошибка в точке x 0 равна ̂ ( x 0 ))2 ]= E[(Y − f 2 ̂ ( x 0 ))2 ]+ E [( E f ( x 0 )− f ( x 0 ))2 ]= ̂ ̂ = σ + E [(f ( x 0 )− E f = irreducible + bias2 + variance error 40
    • Баланс смещения и дисперсии Для KNN регрессии [ 1 bias= f ( x 0 )− k variance=σ k 41 k ∑ f ( x(i)) i=1 ] 2 обычно растет с увеличением k 2 падает с увеличением k
    • Скользящий контроль (cross-validation) тест обучение 42
    • Критерии минимизации
    • Робастность (robustness) outlier 44
    • Робастность (robustness) least squares 45
    • Робастность (robustness) Least absolute errors least squares 46
    • Некоторые варианты критериев Наименьшие квадраты (Least Squares) вычислительно быстр, но подвержен влиянию выбросов Наименьшие модули (Least Absolute Errors) робастный, но недифференцируем в нуле, поэтому сложно оптимизировать Функция Хьюбера (Huber's Loss Function) робастная и гладкая 47
    • Функция Хьюбера 2 x Lδ ( x)= , если∣x∣≤δ 2 δ ), иначе Lδ ( x)=δ(∣x∣− 2 48
    • Выбор предикторов
    • Выбор предикторов Проблема при увеличении размерности: переобучение => падает точность много коэффициентов => сложно интерпретировать Возможное решение: выбрать подмножество предикторов, которые сильнее всего влияют на результат. 50
    • Выбор предикторов Forward step-wise на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку 51
    • Выбор предикторов Forward step-wise на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку Backward step-wise на каждом шаге убираем предиктор с наименьшим Z-score 52
    • Выбор предикторов Forward step-wise на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку Backward step-wise на каждом шаге убираем предиктор с наименьшим Z-score ̂ )=( X T X )−1 σ 2 Var (β ̂ βj T −1 Z j= , где v j это j−й диагональный элемент ( X X ) σ √v j 53
    • Выбор предикторов Forward step-wise на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку Backward step-wise на каждом шаге убираем предиктор с наименьшим Z-score Forward stage-wise подправляем коэффициент при переменной, которая больше всего коррелирует с остатком 54
    • Негауссовы распределения
    • Преобразование переменных км/ч сек/км 56
    • 36 км/ч Случай 1 p=1/2 100 метров 3,6 км/ч Случай 2 p=1/2 100 метров время скорость Случай 1 10 сек Случай 2 100 сек 3.6 км/ч Среднее 55 сек 57 36 км/ч ~ 20 км/ч
    • 36 км/ч Случай 1 p=1/2 100 метров 3,6 км/ч Случай 2 p=1/2 100 метров время скорость Случай 1 10 сек 36 км/ч Случай 2 100 сек 3.6 км/ч Среднее 55 сек ~ 20 км/ч 100 м / 55 сек ≈ 7 км/ч 58
    • Обобщенные линейные модели Распределение из экспоненциального семейства f (Y ; η)=b(Y )exp(ηT (Y )−a(η)) Функция связи ̂ ̂ F ( Y )=∑ X j β j j 59
    • Литература 1. Map-Matching for Low-Sampling-Rate GPS Trajectories. Yin Lou, Chengyang Zhang, Yu Zheng, Xing Xie, Wei Wang, and Yan Huang. 2. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Trevor Hastie, Robert Tibshirani, Jerome Friedman. 3. http://www.machinelearning.ru 4. Yandex Technologies. http://company.yandex.com/technologies/ 60
    • Михаил Хохлов разработчик к. ф.-м. н. aeol@yandex-team.ru Спасибо