5. Привязка треков
Локальные методы
Быстрые и эффективные при высоком качестве данных
Глобальные методы
Дают высокую точность при оффлайновой обработке
Статистические методы
Позволяют адекватно учитывать погрешность измерений
5
23. Задача регрессии
Регрессия:
̂
Y =F ( X )
Может быть
параметрической:
непераметрической:
F выбирается из параметризованного семейства
не делается предположений о виде F
Авторегрессия:
̂
Y t =F (Y t−L ,…, Y t−1 )
23
39. Сложность модели и ошибка
ошибка на тестовой выборке
ошибка на обучающей выборке
оптимальное число соседей
39
40. Декомпозиция ошибки
2
Пусть Y =f ( X )+ε , E (ε)=0,Var (ε)=σ
̂
а f ( X ) — подобранная регрессия.
Ожидаемая ошибка в точке x 0 равна
̂ ( x 0 ))2 ]=
E[(Y − f
2
̂ ( x 0 ))2 ]+ E [( E f ( x 0 )− f ( x 0 ))2 ]=
̂
̂
=
σ
+ E [(f ( x 0 )− E f
= irreducible +
bias2
+
variance
error
40
41. Баланс смещения и дисперсии
Для KNN регрессии
[
1
bias= f ( x 0 )−
k
variance=σ
k
41
k
∑ f ( x(i))
i=1
]
2
обычно растет с увеличением k
2
падает с увеличением k
47. Некоторые варианты критериев
Наименьшие квадраты (Least Squares)
вычислительно быстр, но подвержен влиянию выбросов
Наименьшие модули (Least Absolute Errors)
робастный, но недифференцируем в нуле, поэтому сложно
оптимизировать
Функция Хьюбера (Huber's Loss Function)
робастная и гладкая
47
50. Выбор предикторов
Проблема при увеличении размерности:
переобучение => падает точность
много коэффициентов => сложно интерпретировать
Возможное решение: выбрать подмножество предикторов,
которые сильнее всего влияют на результат.
50
52. Выбор предикторов
Forward step-wise
на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку
Backward step-wise
на каждом шаге убираем предиктор с наименьшим Z-score
52
53. Выбор предикторов
Forward step-wise
на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку
Backward step-wise
на каждом шаге убираем предиктор с наименьшим Z-score
̂ )=( X T X )−1 σ 2
Var (β
̂
βj
T
−1
Z j=
, где v j это j−й диагональный элемент ( X X )
σ √v j
53
54. Выбор предикторов
Forward step-wise
на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку
Backward step-wise
на каждом шаге убираем предиктор с наименьшим Z-score
Forward stage-wise
подправляем коэффициент при переменной, которая больше всего коррелирует
с остатком
54
57. 36 км/ч
Случай 1
p=1/2
100 метров
3,6 км/ч
Случай 2
p=1/2
100 метров
время
скорость
Случай 1 10 сек
Случай 2 100 сек
3.6 км/ч
Среднее 55 сек
57
36 км/ч
~ 20 км/ч
58. 36 км/ч
Случай 1
p=1/2
100 метров
3,6 км/ч
Случай 2
p=1/2
100 метров
время
скорость
Случай 1 10 сек
36 км/ч
Случай 2 100 сек
3.6 км/ч
Среднее 55 сек
~ 20 км/ч
100 м / 55 сек ≈ 7 км/ч
58
60. Литература
1. Map-Matching for Low-Sampling-Rate GPS Trajectories. Yin Lou, Chengyang
Zhang, Yu Zheng, Xing Xie, Wei Wang, and Yan Huang.
2. The Elements of Statistical Learning: Data Mining, Inference, and
Prediction. Trevor Hastie, Robert Tibshirani, Jerome Friedman.
3. http://www.machinelearning.ru
4. Yandex Technologies. http://company.yandex.com/technologies/
60