Your SlideShare is downloading. ×
20131029 хохлов
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

20131029 хохлов

331

Published on

Михаил Хохлов на Я.Студенте в МГУ 29 октября …

Михаил Хохлов на Я.Студенте в МГУ 29 октября
Прогнозирование Яндекс.Пробок

Published in: Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
331
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
1
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Яндекс.Пробки: анализ GPS-треков и прогнозирование дорожной ситуации Михаил Хохлов разработчик
  • 2. Способ получения данных 20 км/ч 3 35 км/ч 15 км/ч
  • 3. Треки 4
  • 4. Привязка треков Локальные методы Быстрые и эффективные при высоком качестве данных Глобальные методы Дают высокую точность при оффлайновой обработке Статистические методы Позволяют адекватно учитывать погрешность измерений 5
  • 5. ST-matching Вероятность наблюдения Вероятность перехода пространственный (spatial) анализ 6 Вероятность скорости временной (temporal) анализ
  • 6. Привязка треков 7
  • 7. Привязка треков 8
  • 8. Привязка треков 9
  • 9. Привязка треков 10
  • 10. Привязка треков 11
  • 11. Данные о проездах 120 100 км/ч 80 60 40 20 0 0 1 2 3 часы 12 4 5 6
  • 12. Данные о проездах 120 100 км/ч 80 60 40 20 0 0 1 2 3 часы 13 4 5 6
  • 13. Итерационное сглаживание 100 90 80 70 км/ч 60 50 40 30 20 10 0 1.5 1.6 1.7 1.8 1.9 часы 14 2 2.1 2.2 2.3
  • 14. Чего бы хотелось 100 90 80 70 км/ч 60 50 40 30 20 10 0 1.5 1.6 1.7 1.8 1.9 часы 15 2 2.1 2.2 2.3
  • 15. Медианный фильтр 100 90 80 70 км/ч 60 50 40 30 20 10 0 1.5 1.6 1.7 1.8 1.9 часы 16 2 2.1 2.2 2.3
  • 16. Подходы к прогнозированию Содержательное моделирование поиск причин и следствий Машинное обучение поиск закономерностей 17
  • 17. Подходы к прогнозированию Содержательное моделирование поиск причин и следствий Машинное обучение поиск закономерностей 18
  • 18. Подходы к прогнозированию Содержательное моделирование поиск причин и следствий Машинное обучение поиск закономерностей 19
  • 19. Дорожная ситуация (МКАД) 20
  • 20. Транспортные модели Содержательное моделирование потоковые модели имитационные модели Машинное обучение параметрические модели (линейные, нелинейные) непараметрические модели нейронные сети ... 21
  • 21. Линейные модели
  • 22. Задача регрессии Регрессия: ̂ Y =F ( X ) Может быть параметрической: непераметрической: F выбирается из параметризованного семейства не делается предположений о виде F Авторегрессия: ̂ Y t =F (Y t−L ,…, Y t−1 ) 23
  • 23. Линейная регрессия Предполагаем линейный вид: ̂ ̂ ̂ Y t =β0 + ∑ X j β j j 24
  • 24. Метод наименьших квадратов ̂ =argmin ∑ ( y i −x i β )2 β i ̂ =( X T X )−1 X T y β если 25 T X X невырождена
  • 25. Вычисляем ошибку Root Mean Square Error (RMSE) RMSE= ̂ ∑ ( y i− y i ) √ 2 i∈S S = обучающей выборке или тестовой выборке 26
  • 26. Вычисляем ошибку 27
  • 27. Вычисляем ошибку 28
  • 28. Вычисляем ошибку 29
  • 29. Переобучение и недообучение 30
  • 30. Недообучение 31
  • 31. Переобучение 32
  • 32. К чему стремимся 33
  • 33. k ближайших соседей
  • 34. Метод k ближайших соседей Картина пробок #1 35
  • 35. Метод k ближайших соседей Картина пробок #2 36
  • 36. Метод k ближайших соседей Картина пробок #3 37
  • 37. Метод k ближайших соседей Прогноз: 38
  • 38. Сложность модели и ошибка ошибка на тестовой выборке ошибка на обучающей выборке оптимальное число соседей 39
  • 39. Декомпозиция ошибки 2 Пусть Y =f ( X )+ε , E (ε)=0,Var (ε)=σ ̂ а f ( X ) — подобранная регрессия. Ожидаемая ошибка в точке x 0 равна ̂ ( x 0 ))2 ]= E[(Y − f 2 ̂ ( x 0 ))2 ]+ E [( E f ( x 0 )− f ( x 0 ))2 ]= ̂ ̂ = σ + E [(f ( x 0 )− E f = irreducible + bias2 + variance error 40
  • 40. Баланс смещения и дисперсии Для KNN регрессии [ 1 bias= f ( x 0 )− k variance=σ k 41 k ∑ f ( x(i)) i=1 ] 2 обычно растет с увеличением k 2 падает с увеличением k
  • 41. Скользящий контроль (cross-validation) тест обучение 42
  • 42. Критерии минимизации
  • 43. Робастность (robustness) outlier 44
  • 44. Робастность (robustness) least squares 45
  • 45. Робастность (robustness) Least absolute errors least squares 46
  • 46. Некоторые варианты критериев Наименьшие квадраты (Least Squares) вычислительно быстр, но подвержен влиянию выбросов Наименьшие модули (Least Absolute Errors) робастный, но недифференцируем в нуле, поэтому сложно оптимизировать Функция Хьюбера (Huber's Loss Function) робастная и гладкая 47
  • 47. Функция Хьюбера 2 x Lδ ( x)= , если∣x∣≤δ 2 δ ), иначе Lδ ( x)=δ(∣x∣− 2 48
  • 48. Выбор предикторов
  • 49. Выбор предикторов Проблема при увеличении размерности: переобучение => падает точность много коэффициентов => сложно интерпретировать Возможное решение: выбрать подмножество предикторов, которые сильнее всего влияют на результат. 50
  • 50. Выбор предикторов Forward step-wise на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку 51
  • 51. Выбор предикторов Forward step-wise на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку Backward step-wise на каждом шаге убираем предиктор с наименьшим Z-score 52
  • 52. Выбор предикторов Forward step-wise на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку Backward step-wise на каждом шаге убираем предиктор с наименьшим Z-score ̂ )=( X T X )−1 σ 2 Var (β ̂ βj T −1 Z j= , где v j это j−й диагональный элемент ( X X ) σ √v j 53
  • 53. Выбор предикторов Forward step-wise на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку Backward step-wise на каждом шаге убираем предиктор с наименьшим Z-score Forward stage-wise подправляем коэффициент при переменной, которая больше всего коррелирует с остатком 54
  • 54. Негауссовы распределения
  • 55. Преобразование переменных км/ч сек/км 56
  • 56. 36 км/ч Случай 1 p=1/2 100 метров 3,6 км/ч Случай 2 p=1/2 100 метров время скорость Случай 1 10 сек Случай 2 100 сек 3.6 км/ч Среднее 55 сек 57 36 км/ч ~ 20 км/ч
  • 57. 36 км/ч Случай 1 p=1/2 100 метров 3,6 км/ч Случай 2 p=1/2 100 метров время скорость Случай 1 10 сек 36 км/ч Случай 2 100 сек 3.6 км/ч Среднее 55 сек ~ 20 км/ч 100 м / 55 сек ≈ 7 км/ч 58
  • 58. Обобщенные линейные модели Распределение из экспоненциального семейства f (Y ; η)=b(Y )exp(ηT (Y )−a(η)) Функция связи ̂ ̂ F ( Y )=∑ X j β j j 59
  • 59. Литература 1. Map-Matching for Low-Sampling-Rate GPS Trajectories. Yin Lou, Chengyang Zhang, Yu Zheng, Xing Xie, Wei Wang, and Yan Huang. 2. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Trevor Hastie, Robert Tibshirani, Jerome Friedman. 3. http://www.machinelearning.ru 4. Yandex Technologies. http://company.yandex.com/technologies/ 60
  • 60. Михаил Хохлов разработчик к. ф.-м. н. aeol@yandex-team.ru Спасибо

×