20131029 хохлов

433 views

Published on

Михаил Хохлов на Я.Студенте в МГУ 29 октября
Прогнозирование Яндекс.Пробок

Published in: Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
433
On SlideShare
0
From Embeds
0
Number of Embeds
91
Actions
Shares
0
Downloads
2
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

20131029 хохлов

  1. 1. Яндекс.Пробки: анализ GPS-треков и прогнозирование дорожной ситуации Михаил Хохлов разработчик
  2. 2. Способ получения данных 20 км/ч 3 35 км/ч 15 км/ч
  3. 3. Треки 4
  4. 4. Привязка треков Локальные методы Быстрые и эффективные при высоком качестве данных Глобальные методы Дают высокую точность при оффлайновой обработке Статистические методы Позволяют адекватно учитывать погрешность измерений 5
  5. 5. ST-matching Вероятность наблюдения Вероятность перехода пространственный (spatial) анализ 6 Вероятность скорости временной (temporal) анализ
  6. 6. Привязка треков 7
  7. 7. Привязка треков 8
  8. 8. Привязка треков 9
  9. 9. Привязка треков 10
  10. 10. Привязка треков 11
  11. 11. Данные о проездах 120 100 км/ч 80 60 40 20 0 0 1 2 3 часы 12 4 5 6
  12. 12. Данные о проездах 120 100 км/ч 80 60 40 20 0 0 1 2 3 часы 13 4 5 6
  13. 13. Итерационное сглаживание 100 90 80 70 км/ч 60 50 40 30 20 10 0 1.5 1.6 1.7 1.8 1.9 часы 14 2 2.1 2.2 2.3
  14. 14. Чего бы хотелось 100 90 80 70 км/ч 60 50 40 30 20 10 0 1.5 1.6 1.7 1.8 1.9 часы 15 2 2.1 2.2 2.3
  15. 15. Медианный фильтр 100 90 80 70 км/ч 60 50 40 30 20 10 0 1.5 1.6 1.7 1.8 1.9 часы 16 2 2.1 2.2 2.3
  16. 16. Подходы к прогнозированию Содержательное моделирование поиск причин и следствий Машинное обучение поиск закономерностей 17
  17. 17. Подходы к прогнозированию Содержательное моделирование поиск причин и следствий Машинное обучение поиск закономерностей 18
  18. 18. Подходы к прогнозированию Содержательное моделирование поиск причин и следствий Машинное обучение поиск закономерностей 19
  19. 19. Дорожная ситуация (МКАД) 20
  20. 20. Транспортные модели Содержательное моделирование потоковые модели имитационные модели Машинное обучение параметрические модели (линейные, нелинейные) непараметрические модели нейронные сети ... 21
  21. 21. Линейные модели
  22. 22. Задача регрессии Регрессия: ̂ Y =F ( X ) Может быть параметрической: непераметрической: F выбирается из параметризованного семейства не делается предположений о виде F Авторегрессия: ̂ Y t =F (Y t−L ,…, Y t−1 ) 23
  23. 23. Линейная регрессия Предполагаем линейный вид: ̂ ̂ ̂ Y t =β0 + ∑ X j β j j 24
  24. 24. Метод наименьших квадратов ̂ =argmin ∑ ( y i −x i β )2 β i ̂ =( X T X )−1 X T y β если 25 T X X невырождена
  25. 25. Вычисляем ошибку Root Mean Square Error (RMSE) RMSE= ̂ ∑ ( y i− y i ) √ 2 i∈S S = обучающей выборке или тестовой выборке 26
  26. 26. Вычисляем ошибку 27
  27. 27. Вычисляем ошибку 28
  28. 28. Вычисляем ошибку 29
  29. 29. Переобучение и недообучение 30
  30. 30. Недообучение 31
  31. 31. Переобучение 32
  32. 32. К чему стремимся 33
  33. 33. k ближайших соседей
  34. 34. Метод k ближайших соседей Картина пробок #1 35
  35. 35. Метод k ближайших соседей Картина пробок #2 36
  36. 36. Метод k ближайших соседей Картина пробок #3 37
  37. 37. Метод k ближайших соседей Прогноз: 38
  38. 38. Сложность модели и ошибка ошибка на тестовой выборке ошибка на обучающей выборке оптимальное число соседей 39
  39. 39. Декомпозиция ошибки 2 Пусть Y =f ( X )+ε , E (ε)=0,Var (ε)=σ ̂ а f ( X ) — подобранная регрессия. Ожидаемая ошибка в точке x 0 равна ̂ ( x 0 ))2 ]= E[(Y − f 2 ̂ ( x 0 ))2 ]+ E [( E f ( x 0 )− f ( x 0 ))2 ]= ̂ ̂ = σ + E [(f ( x 0 )− E f = irreducible + bias2 + variance error 40
  40. 40. Баланс смещения и дисперсии Для KNN регрессии [ 1 bias= f ( x 0 )− k variance=σ k 41 k ∑ f ( x(i)) i=1 ] 2 обычно растет с увеличением k 2 падает с увеличением k
  41. 41. Скользящий контроль (cross-validation) тест обучение 42
  42. 42. Критерии минимизации
  43. 43. Робастность (robustness) outlier 44
  44. 44. Робастность (robustness) least squares 45
  45. 45. Робастность (robustness) Least absolute errors least squares 46
  46. 46. Некоторые варианты критериев Наименьшие квадраты (Least Squares) вычислительно быстр, но подвержен влиянию выбросов Наименьшие модули (Least Absolute Errors) робастный, но недифференцируем в нуле, поэтому сложно оптимизировать Функция Хьюбера (Huber's Loss Function) робастная и гладкая 47
  47. 47. Функция Хьюбера 2 x Lδ ( x)= , если∣x∣≤δ 2 δ ), иначе Lδ ( x)=δ(∣x∣− 2 48
  48. 48. Выбор предикторов
  49. 49. Выбор предикторов Проблема при увеличении размерности: переобучение => падает точность много коэффициентов => сложно интерпретировать Возможное решение: выбрать подмножество предикторов, которые сильнее всего влияют на результат. 50
  50. 50. Выбор предикторов Forward step-wise на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку 51
  51. 51. Выбор предикторов Forward step-wise на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку Backward step-wise на каждом шаге убираем предиктор с наименьшим Z-score 52
  52. 52. Выбор предикторов Forward step-wise на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку Backward step-wise на каждом шаге убираем предиктор с наименьшим Z-score ̂ )=( X T X )−1 σ 2 Var (β ̂ βj T −1 Z j= , где v j это j−й диагональный элемент ( X X ) σ √v j 53
  53. 53. Выбор предикторов Forward step-wise на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку Backward step-wise на каждом шаге убираем предиктор с наименьшим Z-score Forward stage-wise подправляем коэффициент при переменной, которая больше всего коррелирует с остатком 54
  54. 54. Негауссовы распределения
  55. 55. Преобразование переменных км/ч сек/км 56
  56. 56. 36 км/ч Случай 1 p=1/2 100 метров 3,6 км/ч Случай 2 p=1/2 100 метров время скорость Случай 1 10 сек Случай 2 100 сек 3.6 км/ч Среднее 55 сек 57 36 км/ч ~ 20 км/ч
  57. 57. 36 км/ч Случай 1 p=1/2 100 метров 3,6 км/ч Случай 2 p=1/2 100 метров время скорость Случай 1 10 сек 36 км/ч Случай 2 100 сек 3.6 км/ч Среднее 55 сек ~ 20 км/ч 100 м / 55 сек ≈ 7 км/ч 58
  58. 58. Обобщенные линейные модели Распределение из экспоненциального семейства f (Y ; η)=b(Y )exp(ηT (Y )−a(η)) Функция связи ̂ ̂ F ( Y )=∑ X j β j j 59
  59. 59. Литература 1. Map-Matching for Low-Sampling-Rate GPS Trajectories. Yin Lou, Chengyang Zhang, Yu Zheng, Xing Xie, Wei Wang, and Yan Huang. 2. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Trevor Hastie, Robert Tibshirani, Jerome Friedman. 3. http://www.machinelearning.ru 4. Yandex Technologies. http://company.yandex.com/technologies/ 60
  60. 60. Михаил Хохлов разработчик к. ф.-м. н. aeol@yandex-team.ru Спасибо

×