6. 6
Привязка треков
Локальные методы
Быстрые и эффективные при высоком качестве данных
Глобальные методы
Дают высокую точность при оффлайновой обработке
Статистические методы
Позволяют адекватно учитывать погрешность измерений
40. 40
Для KNN регрессии
обычно растет с увеличением k
падает с увеличением k
Баланс смещения и дисперсии
bias=
[f (x0)−
1
k
∑
i=1
k
f (x(i))
]
2
variance=σ2
k
46. 46
Некоторые варианты критериев
Наименьшие квадраты (Least Squares)
вычислительно быстр, но подвержен влиянию выбросов
Наименьшие модули (Least Absolute Errors)
робастный, но недифференцируем в нуле, поэтому сложно
оптимизировать
Функция Хьюбера (Huber's Loss Function)
робастная и гладкая
49. 49
Выбор предикторов
Проблема при увеличении размерности:
переобучение => падает точность
много коэффициентов => сложно интерпретировать
Возможное решение: выбрать подмножество предикторов,
которые сильнее всего влияют на результат.
50. 50
Выбор предикторов: эвристики
• Геометрические соседи могут включать в себя много
лишних ребер (например, в центре Москвы).
• Топологические соседи могут упустить что-то важное
(например, проспект и дублер).
52. 52
Forward step-wise
на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку
Backward step-wise
на каждом шаге убираем предиктор с наименьшим Z-score
Автоматический выбор предикторов
53. 53
Forward step-wise
на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку
Backward step-wise
на каждом шаге убираем предиктор с наименьшим Z-score
Var(̂β)=(XT
X)−1
σ2
Z j=
̂βj
σ √vj
, гдеvj это j-й диагональныйэлемент(XT
X)−1
Автоматический выбор предикторов
54. 54
Forward step-wise
на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку
Backward step-wise
на каждом шаге убираем предиктор с наименьшим Z-score
Forward stage-wise
подправляем коэффициент при переменной, которая больше всего коррелирует
с остатком
Автоматический выбор предикторов
55. 55
Forward step-wise
на каждом шаге добавляем предиктор, который сильнее уменьшает ошибку
Backward step-wise
на каждом шаге убираем предиктор с наименьшим Z-score
Forward stage-wise
подправляем коэффициент при переменной, которая больше всего коррелирует
с остатком
LARS
Автоматический выбор предикторов
59. 595959
время скорость
Случай 1 10 сек 36 км/ч
Случай 2 100 сек 3.6 км/ч
Среднее 55 сек ~ 20 км/ч
Случай 1 p=1/2
100 метров
36 км/ч
Случай 2 p=1/2
100 метров
3,6 км/ч
60. 606060
100 м / 55 сек ≈ 7 км/ч
Случай 1 p=1/2
100 метров
36 км/ч
Случай 2 p=1/2
100 метров
3,6 км/ч
время скорость
Случай 1 10 сек 36 км/ч
Случай 2 100 сек 3.6 км/ч
Среднее 55 сек ~ 20 км/ч
70. 70
Литература
1. Map-Matching for Low-Sampling-Rate GPS Trajectories. Yin Lou, Chengyang
Zhang, Yu Zheng, Xing Xie, Wei Wang, and Yan Huang.
2. The Elements of Statistical Learning: Data Mining, Inference, and
Prediction. Trevor Hastie, Robert Tibshirani, Jerome Friedman.
3. http://www.machinelearning.ru
4. Yandex Technologies. http://company.yandex.com/technologies/