4. ЗАДАНИЕ 1 – ПРЕДСКАЗАНИЕ ВЫПЛАТ ПО
АВАРИЯМ
ИСХОДНЫЕ ДАННЫЕ:
МОДЕЛЬ АВТО, НОМЕР, СУММА ШТРАФОВ, РАЗМЕР
ВЫПЛАТ
КРИТЕРИИ ОЦЕНКИ:
ТОЧНОСТЬ ПРЕДСКАЗАНИЯ НА ПРОВЕРОЧНОМ
НАБОРЕ ДАННЫХ
МАКСИМИЗАЦИЯ ЗНАЧЕНИЯ ПОКАЗАТЕЛЯ AUC
ПЛАВНОСТЬ ГРАФИКА ROC
5. ЗАДАНИЕ 1 – ПРЕДСКАЗАНИЕ ВЫПЛАТ ПО
АВАРИЯМ, МОДЕЛЬ И ROC
6. ЗАДАНИЕ 2 – ТОВАРЫ ПО ПОИСКОВЫМ
ЗАПРОСАМ
ИСХОДНЫЕ ДАННЫЕ:
ПОИСКОВЫЙ ЗАПРОС,
ЗАГОЛОВОК ТОВАРА,
ОПИСАНИЕ ТОВАРА,
КОЛИЧЕСТВО КЛИКОВ
КРИТЕРИИ ОЦЕНКИ:
ТОЧНОСТЬ ПРЕДСКАЗАНИЯ КОЛИЧЕСТВА КЛИКОВ
7. ЗАДАНИЕ 2 – ТОВАРЫ ПО ПОИСКОВЫМ
ЗАПРОСАМ, ФИЧИ
ФИЧИ:
LENGTH OF LONGEST COMMON SUBSEQUENCE, КОЭФФИЦИЕНТ ЖАККАРА, ДЛИНА ЗАПРОСА, ДЛИНА ЗАГОЛОВКА,
КОЛИЧЕСТВО СЛОВ В ЗАПРОСЕ, КОЛИЧЕСТВО ПЕРЕСЕЧЕНИЙ СЛОВ В ЗАПРОСЕ И ЗАГОЛОВКЕ, ВЕРОЯТНОСТЬ
ПОПАДАНИЯ В КАЖДУЮ ИЗ 100 ТЕМ ПО ОПИСАНИЮ И ЗАГОЛОВКУ - LATENT DIRICHLET ALLOCATION.
100 ТЕМ:
ФОРМИРОВАЛИСЬ ИЗ ЗАГОЛОВКОВ И ОПИСАНИЙ НА ОСНОВЕ МЕРЫ БЛИЗОСТИ «EDIT DISTANCE (LCS)»
8. ЗАДАНИЕ 2 – ТОВАРЫ ПО ПОИСКОВЫМ
ЗАПРОСАМ, ПРИМЕР ТЕМTOPIC 0
ЗВУК
ВЕС
НАУШНИК
РЕГУЛИРУЕМ
ИЗМЕРЕН
КАБЕЛ
КУКОЛК
ДИНАМИК
МИКРОФОН
ASUS
TOPIC 1
МЯГК
МАЛЫШ
ДЕТСК
РЕБЕНК
ПОЛОТЕНЦ
ЦВЕТ
ПОДГУЗНИК
ВПИТЫВА
БЛАГОДАР
СПЕЦИАЛЬН
TOPIC 3
ФЗ
ОБЛОЖК
УЧЕТ
ТВЕРД
PROFF
ПЕРЕПЛЕТ
СТРАНИЦ
НАЛОГОВ
БУХГАЛТЕРСК
BIRDS
TOPIC 4
ГОРОД
ПУТЕВОДИТЕЛ
ПУТЕШЕСТВ
ИНФОРМАЦ
САМ
МЕСТ
ИНТЕРЕСН
ПОДРОБН
ДОСТОПРИМЕЧАТЕЛЬН
СТРАН
TOPIC 19
БЛЮД
ПРИГОТОВЛЕН
ПРОДУКТ
ГОТОВ
РЕЦЕПТ
ВКУСН
ПРИГОТОВ
МЯС
РЫБ
9. ЗАДАНИЕ 2 – ТОВАРЫ ПО ПОИСКОВЫМ
ЗАПРОСАМ, МОДЕЛЬ
10. ЗАДАНИЕ 3 – ПРОГНОЗИРОВАНИЕ
СПРОСА НА ТОВАРЫ
ИСХОДНЫЕ ДАННЫЕ:
ПО ИСТОРИИ ЗА 5 НЕДЕЛЬ ПРЕДСКАЗАТЬ СКОЛЬКО
БУДЕТ КУПЛЕНО ТОВАРОВ ЧЕРЕЗ НЕДЕЛЮ ЗА НЕДЕЛЮ
КРИТЕРИИ ОЦЕНКИ:
ПЕРВЫЙ ПРИОРИТЕТ — ЗНАЧЕНИЕ ПОКАЗАТЕЛЯ RMSE;
ВТОРОЙ ПРИОРИТЕТ — КАЧЕСТВО ОБОСНОВАНИЯ И
РЕАЛИЗАЦИИ МОДЕЛИ
ГИПОТЕЗА: ТОВАРЫ В ОДНОМ КАТАЛОГЕ ИМЕЮТ
ОДИНАКОВЫЕ ТРЕНДЫ - НЕ ПОДТВЕРДИЛАСЬ НА ЛИНЕЙНОЙ
РЕГРЕССИИ С РЕГУЛЯРИЗАЦИЕЙ.
ИСПОЛЬЗОВАНИЕ ДАННЫХ О ПОКАЗАХ – СОМНИТЕЛЬНО. НА
ОСНОВЕ ЛИНЕЙНОЙ МОДЕЛИ ПОКАЗЫ НЕ БЫЛИ ЗНАЧИМЫ.
НЕТ НЕОБХОДИМОСТИ ИСПОЛЬЗОВАТЬ ВСЕ 5 ЧИСЕЛ
ПОКАЗОВ, МОЖНО ОБЪЕДИНИТЬ В ОДИН ПОКАЗАТЕЛЬ
«СРЕДНЯЯ КОНВЕРСИЯ» - ОДНА ИЗ ФИЧЕЙ.
ЕДИНАЯ МОДЕЛЬ ДЛЯ ВСЕХ ДАННЫХ - НИЗКАЯ ТОЧНОСТЬ.
ГИПОТЕЗА – КЛАСТЕРИЗИРОВАТЬ ДАННЫЕ ПО ХАРАКТЕРУ
ТРЕНДА. ВОПРОС – КАК ПОЛУЧИТЬ ТРЕНД?
11. ЗАДАНИЕ 3 – ПРОГНОЗИРОВАНИЕ
СПРОСА НА ТОВАРЫ, РЕЗУЛЬТАТ
РЕЗУЛЬТАТ – КЛАСТЕРЫ ТРЕНДОВ.
ДЛЯ КАЖДОГОСВОЯ МОДЕЛЬ НА ОСНОВЕ
ЛИНЕЙНОЙ РЕГРЕССИИ С РЕГУЛЯРИЗАЦИЕЙ L2.
ПОДБОР КОЭФФИЦИЕНТОВ С ПОМОЩЬЮ GRID
SEARCH.
0,77
0,84
0,93
0,83 0,85
0,93
0,73
0,46
0,89
0,83
0,89 0,87
0,90
0,79
0,70
0,21
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
R2
12. ЗАДАНИЕ 3 – ПРОГНОЗИРОВАНИЕ
СПРОСА НА ТОВАРЫ, МОДЕЛЬ