SlideShare a Scribd company logo
1 of 43
Download to read offline
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Вводное занятие
Царьков Сергей Валерьевич
ООО «Аналитические технологии»
Кружок по анализу данных
12 октября 2013
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 1 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
План
1 О кружке
2 Знакомство с Kaggle
Общие сведения о Kaggle
Соревнования
3 Предлагаемые задачи
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
4 Некоторые рекомендуемые инструменты
5 Полезные ресурсы
Электронные ресурсы
Литература
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 2 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Организатор
BaseGroup Labs – профессиональный поставщик программных
продуктов и решений в области анализа данных.
Специализируется на разработке систем для глубокого анализа
данных, охватывающих вопросы сбора, консолидации, очистки
данных, построения моделей и визуализации.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 3 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Организация работы кружка
Соревнование по решению задач анализа данных (с
помощью Kaggle)
Очные обсуждения решаемых задач
Обсуждения через электронную почту
Обсуждения в электронном классе научного кружка:
https://studentsbasegroup.wikispaces.com/
Выступления с докладами
Оценка результатов и подведение итогов
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 4 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Общие сведения
Соревнования
Платформа для предсказательного моделирования
Kaggle (www.kaggle.com) - это платформа, позволяющая
людям с данными и задачами взаимодействовать с людьми,
которые умеют решать их задачи по их данным.
Задачи Данные Участники
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 5 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Общие сведения
Соревнования
Алгоритм работы с Kaggle
1 Зарегистрироваться в Kaggle (имена команд/участников
научного кружка должны начинаться с префикса «BG_»)
2 Выбрать соревнование
3 Скачать данные выбранного соревнования
4 Построить модель
5 Загрузить результат работы модели в Kaggle в заданном
формате
6 Дождаться подведения итогов соревнования
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 6 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Общие сведения
Соревнования
Типы соревнований (1)
Featured. Публичное соревнование со значительным
денежным призом, заключающееся в решении
коммерческой задачи.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 7 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Общие сведения
Соревнования
Типы соревнований (1)
Featured. Публичное соревнование со значительным
денежным призом, заключающееся в решении
коммерческой задачи.
Recruitment. Публичное соревнование, где спонсор
конкурса подбирает потенциальных кандидатов на
должность исследователя-аналитика. Доступно только
индивидуальное участие, групповое — запрещено.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 7 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Общие сведения
Соревнования
Типы соревнований (1)
Featured. Публичное соревнование со значительным
денежным призом, заключающееся в решении
коммерческой задачи.
Recruitment. Публичное соревнование, где спонсор
конкурса подбирает потенциальных кандидатов на
должность исследователя-аналитика. Доступно только
индивидуальное участие, групповое — запрещено.
Kaggle Prospect. Публичное соревнование, в котором
целью является не построение модели, а интерпретация и
визуализация данных. В большинстве случаев
пользователям разрешено голосовать и комментировать
работы других участников. Эти отзывы учитываются в
процессе оценивания работ.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 7 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Общие сведения
Соревнования
Типы соревнований (2)
Research. Публичное соревнование с целью проведения
исследования или ради общественного блага.
Вознаграждения: денежные призы / приглашения на
конференции / публикации в рецензируемых журналах.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 8 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Общие сведения
Соревнования
Типы соревнований (2)
Research. Публичное соревнование с целью проведения
исследования или ради общественного блага.
Вознаграждения: денежные призы / приглашения на
конференции / публикации в рецензируемых журналах.
Getting Started. Публичное соревнование без денежных
призов для людей, которые не уверены в своих силах.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 8 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Общие сведения
Соревнования
Типы соревнований (2)
Research. Публичное соревнование с целью проведения
исследования или ради общественного блага.
Вознаграждения: денежные призы / приглашения на
конференции / публикации в рецензируемых журналах.
Getting Started. Публичное соревнование без денежных
призов для людей, которые не уверены в своих силах.
Подробнее: http://www.kaggle.com/wiki/KaggleMemberFAQ
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 8 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Общие сведения
Соревнования
Атрибуты соревнования
Дата начала конкурса.
Дата окончания конкурса.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 9 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Общие сведения
Соревнования
Атрибуты соревнования
Дата начала конкурса.
Дата окончания конкурса.
Описание (Description).
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 9 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Общие сведения
Соревнования
Атрибуты соревнования
Дата начала конкурса.
Дата окончания конкурса.
Описание (Description).
Критерии качества (Evaluation).
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 9 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Общие сведения
Соревнования
Атрибуты соревнования
Дата начала конкурса.
Дата окончания конкурса.
Описание (Description).
Критерии качества (Evaluation).
Правила (Rules).
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 9 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Общие сведения
Соревнования
Атрибуты соревнования
Дата начала конкурса.
Дата окончания конкурса.
Описание (Description).
Критерии качества (Evaluation).
Правила (Rules).
Призы (Prizes) (если есть).
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 9 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Общие сведения
Соревнования
Атрибуты соревнования
Дата начала конкурса.
Дата окончания конкурса.
Описание (Description).
Критерии качества (Evaluation).
Правила (Rules).
Призы (Prizes) (если есть).
В зависимости от сроков проведения, соревнования могут
быть активными или завершенными.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 9 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
1 Facebook Recruiting III - Keyword Extraction
2 Personalize Expedia Hotel Searches - ICDM 2013
3 Personalized Web Search Challenge
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 10 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
Facebook Recruiting III - Keyword Extraction
Определение ключевых слов и тегов для миллиона текстовых
запросов.
Тип конкурса Recruitment
Дата окончания 20.12.2013
Участие Индивидуальное
Критерий качества F1-мера
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 11 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
Данные
Прилагаемые файлы с данными:
Train.zip (2.19 GB);
Test.zip (725.10 MB);
SampleSubmission.csv (78.72 MB).
Имя поля Описание
Id Уникальный идентификатор для каждого вопроса
Title Заголовок вопроса
Body Текст вопроса
Tags Теги, связанные с вопросом
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 12 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
Матрица классифкации
Фактически
Модель Положительно Отрицательно
Положительно ntp nfp
Отрицательно nfn ntn
ntp — верно классифицированные положительные примеры
(истинно положительные случаи);
ntn — верно классифицированные отрицательные примеры
(истинно отрицательные случаи);
nfn — ошибочно классифицированные положительные
примеры (ошибка I рода, «ложный пропуск»);
nfp — ошибочно классифицированные отрицательные
примеры (ошибка II рода, «ложная тревога»).
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 13 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
Точность и полнота
Пусть задана выборка Xm = (x1, . . . , xm) с соответствующими
ответами (y1, . . . , ym), yi ∈ {−1, +1}. Тогда для некоторого
классификатора a(x) можно определить два критерия качества:
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 14 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
Точность и полнота
Пусть задана выборка Xm = (x1, . . . , xm) с соответствующими
ответами (y1, . . . , ym), yi ∈ {−1, +1}. Тогда для некоторого
классификатора a(x) можно определить два критерия качества:
1 Точность (Precision):
P =
m
i=1[a(xi ) = +1][yi = +1]
m
i=1[a(xi ) = +1]
=
ntp
ntp + nfp
.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 14 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
Точность и полнота
Пусть задана выборка Xm = (x1, . . . , xm) с соответствующими
ответами (y1, . . . , ym), yi ∈ {−1, +1}. Тогда для некоторого
классификатора a(x) можно определить два критерия качества:
1 Точность (Precision):
P =
m
i=1[a(xi ) = +1][yi = +1]
m
i=1[a(xi ) = +1]
=
ntp
ntp + nfp
.
2 Полнота (Recall):
R =
m
i=1[a(xi ) = +1][yi = +1]
m
i=1[yi = +1]
=
ntp
ntp + nfn
.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 14 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
F1-мера
F1-мера — это среднее гармоническое точности и полноты:
F1 =
2PR
P + R
.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 15 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
F1-мера
F1-мера — это среднее гармоническое точности и полноты:
F1 =
2PR
P + R
.
Упражнение
Коэффициент Дайса (Dice coeffient) для двух множеств — это
мера их пересечения, поделенная на их объем (так, чтобы
результат лежал в диапазоне от нуля до единицы).
Dice(X, Y ) =
2|X ∩ Y |
|X| ∪ |Y |
.
Покажите, что F1-мера равна коэффициенту Дайса для
множеств найденных и ключевых слов.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 15 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
Personalize Expedia Hotel Searches - ICDM 2013
Ранжирование отелей для максимизации продаж
Тип конкурса Featured
Дата окончания 4.11.2013
Участие Индивидуальное или групповое
Критерий качества NDCG@38
Приз Kaggle $25000
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 16 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
Данные
Прилагаемые файлы с данными:
Train.csv — обучающее множество примеров.
Test.csv — тестовое множество примеров. Содержит те же
поля, что и в обучающем множестве кроме position,
click_bool, gross_bookings_usd, nor booking_bool.
testOrderBenchmark.zip, testOrderBenchmark.zip и
randomBenchmark.zip — примеры работы моделей и
выходных файлов.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 17 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
Релевантность страниц отелей
5 — пользователь оплатил номер в отеле
1 — пользователь кликнул на просмотр подробной
информации об отеле
0 — пользователь не стал оплачивать номер в отеле и не
стал просматривать подробную информацию об отеле.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 18 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
Нормированная дисконтированная совокупная выгода
Normalized Discounted Cumulative Gain (NDCG):
NDCG =
DCG
IDCG
,
DCG =
p
i=1
2reli − 1
log2(i + 1)
,
где IDCG — это DCG, рассчитанный для идеального
ранжирования, p — количество первых документов в запросе,
reli — фактическая релевантность документа из i-ой позиции
запросу.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 19 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
Пример NDCG@6
i reli log2i 2reli −1
log2(i+1)
1 3 1 7
2 2 1.585 1.893
3 3 2 3.5
4 0 2.322 0
5 1 2.585 0.387
6 2 2.807 1.069
DCG = 13,848
i reli log2i 2reli −1
log2(i+1)
1 3 1 7
2 3 1.585 4.417
3 2 2 1.5
4 2 2.322 1.29203
5 1 2.585 0.387
6 0 2.807 0
IDCG = 14,595
NDCG = 0.949
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 20 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
Personalized Web Search Challenge
Персонализация веб-поиска
Тип конкурса Featured
Дата окончания 10.01.2014
Участие Индивидуальное или групповое
Критерий качества NDCG@10
Приз Kaggle $5000, $3000, $1000
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 21 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
Данные
Прилагаемые файлы с данными:
train.gz — обучающее множество примеров (распакованный
16GB).
test.gz — тестовое множество примеров.
random-baseline.gz — пример результата.
Данные:
Уникальных запросов: 21 073 569
Уникальных url: 70 348 426
Уникальных пользователей: 5 736 333
Сессий в обучающем множестве: 34 573 630
Сессий в тестовом множестве: 797 867
Всего записей в логе: 167 413 039
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 22 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
Релевантность документов
0 — документы без кликов или c кликами, если время до
следующего клика было строго меньше 50.
1 — документы с кликами и время до следующего клика
по другому документу от 50 до 399 (включительно).
2 — документы с кликами и время до следующего клика
по другому документу в пределах сессии выше 400, либо
документы с последним кликом во время сессии.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 23 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Facebook Recruiting III - Keyword Extraction
Personalize Expedia Hotel Searches - ICDM 2013
Personalized Web Search Challenge
Возможны и другие соревнования
Вы можете посмотреть открытые соревнования по адресу:
http://www.kaggle.com/competitions
При наличии минимум 3х команд соревнование может быть
добавлено в конкурс научного кружка.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 24 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Некоторые рекомендуемые инструменты
Deductor Academic
Weka
RapidMiner
Talend Open Studio
Готовые библиотеки: libsvm, mahout, mallet и т.д.
The Apache Lucene (много полезных классов для
обработки текста)
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 25 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Электронные ресурсы
Литература
Полезные электронные ресурсы
Форум Kaggle: http://www.kaggle.com/forums
Сайт BaseGroup Labs http://www.basegroup.ru/
MachineLearning.ru
Школа анализа данных http://shad.yandex.ru/
Академия Google http://scholar.google.com/
Страничка научного кружка
https://studentsbasegroup.wikispaces.com/
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 26 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Электронные ресурсы
Литература
Рекомендуемая литература
1 Н. Б. Паклин, В. И. Орешков. Бизнес-аналитика: от
данных к знаниям (+ СD): учеб. пособие. — 2-е изд., испр.
- СПб.: Питер, 2013. — 704 с.: ил.
2 A. Г. Дьяконов. Анализ данных, обучение по
прецедентам, логические игры, системы WEKA,
RapidMiner и MatLab (практикум на эвм кафедры
математических методов прогнозирования). —
МАКСПресс, 2010. — 278 с. скачать с MachineLearning.ru
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 27 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Электронные ресурсы
Литература
Дополнительная литература
1 К.В. Воронцов. Математические методы обучения по
прецедентам (теория обучения машин). Курс лекций.
скачать с MachineLearning.ru
2 А. Н. Ширяев. Вероятностно-статистические методы в
теории принятия решений.
3 М. А. Бабенко, М. В. Левин. Введение в теорию
алгоритмов и структур данных.
4 Н. К. Верещагин, Е. В. Щепин. Информация,
кодирование и предсказание.
5 А. Я. Червоненкис. Компьютерный анализ данных.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 28 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Электронные ресурсы
Литература
Дополнительная литература (для углубленного изучения
анализа данных)
1 Р. Рокафеллар. Выпуклый анализ. М.: Мир, 1973.
2 Б.Т. Поляк. Введение в оптимизацию. М.: Наука, 1983.
3 А.Н. Ширяев. Вероятность 1-2. 4ое издание, изд-во
МЦНМО, 2007.
4 К.В. Воронцов. Теория надёжности обучения по
прецедентам (комбинаторная теория переобучения). Курс
лекций. скачать с MachineLearning.ru
5 А. Ахо, Д. Хопкрофт, Д. Ульман. Построение и анализ
вычислительных алгоритмов. М.: Мир, 1999.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 29 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Электронные ресурсы
Литература
Дополнительная литература (для углубленного изучения
анализа данных)
6 Т. Кормен, Ч. Лейзерсон, Р. Ривест. Алгоритмы:
построение и анализ. М.: МЦНМО, 1999.
7 В.Н. Вапник, А.Я. Червоненкис. Теория распознавания
образов. Москва, Наука 1974.
8 В.Н. Вапник. Восстановление зависимостей по
эмпирическим данным. Москва, Наука 1979.
9 Алгоритмы и программы восстановления зависимостей.
Под ред. В.Н. Вапника. М, Наука 1984.
10 V.N. Vapnik. The Nature of Statistical Learning Theory.
Springer, New York 2000.
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 30 / 31
О кружке
Знакомство с Kaggle
Предлагаемые задачи
Некоторые рекомендуемые инструменты
Полезные ресурсы
Электронные ресурсы
Литература
Спасибо за внимание!
С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 31 / 31

More Related Content

Similar to Introduction

Дизайн для шести сигм (DFSS): содержание первого вебинара
Дизайн для шести сигм (DFSS): содержание первого вебинараДизайн для шести сигм (DFSS): содержание первого вебинара
Дизайн для шести сигм (DFSS): содержание первого вебинараSixSigmaOnline
 
Redistributable intro To Scrum, Russian
Redistributable intro To Scrum, RussianRedistributable intro To Scrum, Russian
Redistributable intro To Scrum, RussianAlexey Krivitsky
 
Соревнования по анализу данных: история, тактика, простые методы
Соревнования по анализу данных: история, тактика, простые методыСоревнования по анализу данных: история, тактика, простые методы
Соревнования по анализу данных: история, тактика, простые методыАлександр Дьяконов
 
поиск вместе с Google
поиск вместе с Googleпоиск вместе с Google
поиск вместе с GoogleElena Golubeva
 
Тренинг: Практическое применение краудфандинга для маркетинга и привлечения ф...
Тренинг: Практическое применение краудфандинга для маркетинга и привлечения ф...Тренинг: Практическое применение краудфандинга для маркетинга и привлечения ф...
Тренинг: Практическое применение краудфандинга для маркетинга и привлечения ф...crowdsourcing
 
Шесть сигм. Инновации. Практика. Часть 2: Дизайн для шесть сигма (DFSS)
Шесть сигм. Инновации. Практика. Часть 2: Дизайн для шесть сигма (DFSS) Шесть сигм. Инновации. Практика. Часть 2: Дизайн для шесть сигма (DFSS)
Шесть сигм. Инновации. Практика. Часть 2: Дизайн для шесть сигма (DFSS) SixSigmaOnline
 
Вебинар "Проекты зеленых поясов. Причины неудач и секреты успеха"
Вебинар "Проекты зеленых поясов. Причины неудач и секреты успеха"Вебинар "Проекты зеленых поясов. Причины неудач и секреты успеха"
Вебинар "Проекты зеленых поясов. Причины неудач и секреты успеха"SixSigmaOnline
 
Дизайн для шести сигм (DFSS): содержание второго вебинара
Дизайн для шести сигм (DFSS): содержание второго вебинара Дизайн для шести сигм (DFSS): содержание второго вебинара
Дизайн для шести сигм (DFSS): содержание второго вебинара SixSigmaOnline
 

Similar to Introduction (8)

Дизайн для шести сигм (DFSS): содержание первого вебинара
Дизайн для шести сигм (DFSS): содержание первого вебинараДизайн для шести сигм (DFSS): содержание первого вебинара
Дизайн для шести сигм (DFSS): содержание первого вебинара
 
Redistributable intro To Scrum, Russian
Redistributable intro To Scrum, RussianRedistributable intro To Scrum, Russian
Redistributable intro To Scrum, Russian
 
Соревнования по анализу данных: история, тактика, простые методы
Соревнования по анализу данных: история, тактика, простые методыСоревнования по анализу данных: история, тактика, простые методы
Соревнования по анализу данных: история, тактика, простые методы
 
поиск вместе с Google
поиск вместе с Googleпоиск вместе с Google
поиск вместе с Google
 
Тренинг: Практическое применение краудфандинга для маркетинга и привлечения ф...
Тренинг: Практическое применение краудфандинга для маркетинга и привлечения ф...Тренинг: Практическое применение краудфандинга для маркетинга и привлечения ф...
Тренинг: Практическое применение краудфандинга для маркетинга и привлечения ф...
 
Шесть сигм. Инновации. Практика. Часть 2: Дизайн для шесть сигма (DFSS)
Шесть сигм. Инновации. Практика. Часть 2: Дизайн для шесть сигма (DFSS) Шесть сигм. Инновации. Практика. Часть 2: Дизайн для шесть сигма (DFSS)
Шесть сигм. Инновации. Практика. Часть 2: Дизайн для шесть сигма (DFSS)
 
Вебинар "Проекты зеленых поясов. Причины неудач и секреты успеха"
Вебинар "Проекты зеленых поясов. Причины неудач и секреты успеха"Вебинар "Проекты зеленых поясов. Причины неудач и секреты успеха"
Вебинар "Проекты зеленых поясов. Причины неудач и секреты успеха"
 
Дизайн для шести сигм (DFSS): содержание второго вебинара
Дизайн для шести сигм (DFSS): содержание второго вебинара Дизайн для шести сигм (DFSS): содержание второго вебинара
Дизайн для шести сигм (DFSS): содержание второго вебинара
 

Introduction

  • 1. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Вводное занятие Царьков Сергей Валерьевич ООО «Аналитические технологии» Кружок по анализу данных 12 октября 2013 С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 1 / 31
  • 2. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы План 1 О кружке 2 Знакомство с Kaggle Общие сведения о Kaggle Соревнования 3 Предлагаемые задачи Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge 4 Некоторые рекомендуемые инструменты 5 Полезные ресурсы Электронные ресурсы Литература С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 2 / 31
  • 3. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Организатор BaseGroup Labs – профессиональный поставщик программных продуктов и решений в области анализа данных. Специализируется на разработке систем для глубокого анализа данных, охватывающих вопросы сбора, консолидации, очистки данных, построения моделей и визуализации. С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 3 / 31
  • 4. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Организация работы кружка Соревнование по решению задач анализа данных (с помощью Kaggle) Очные обсуждения решаемых задач Обсуждения через электронную почту Обсуждения в электронном классе научного кружка: https://studentsbasegroup.wikispaces.com/ Выступления с докладами Оценка результатов и подведение итогов С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 4 / 31
  • 5. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Общие сведения Соревнования Платформа для предсказательного моделирования Kaggle (www.kaggle.com) - это платформа, позволяющая людям с данными и задачами взаимодействовать с людьми, которые умеют решать их задачи по их данным. Задачи Данные Участники С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 5 / 31
  • 6. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Общие сведения Соревнования Алгоритм работы с Kaggle 1 Зарегистрироваться в Kaggle (имена команд/участников научного кружка должны начинаться с префикса «BG_») 2 Выбрать соревнование 3 Скачать данные выбранного соревнования 4 Построить модель 5 Загрузить результат работы модели в Kaggle в заданном формате 6 Дождаться подведения итогов соревнования С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 6 / 31
  • 7. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Общие сведения Соревнования Типы соревнований (1) Featured. Публичное соревнование со значительным денежным призом, заключающееся в решении коммерческой задачи. С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 7 / 31
  • 8. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Общие сведения Соревнования Типы соревнований (1) Featured. Публичное соревнование со значительным денежным призом, заключающееся в решении коммерческой задачи. Recruitment. Публичное соревнование, где спонсор конкурса подбирает потенциальных кандидатов на должность исследователя-аналитика. Доступно только индивидуальное участие, групповое — запрещено. С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 7 / 31
  • 9. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Общие сведения Соревнования Типы соревнований (1) Featured. Публичное соревнование со значительным денежным призом, заключающееся в решении коммерческой задачи. Recruitment. Публичное соревнование, где спонсор конкурса подбирает потенциальных кандидатов на должность исследователя-аналитика. Доступно только индивидуальное участие, групповое — запрещено. Kaggle Prospect. Публичное соревнование, в котором целью является не построение модели, а интерпретация и визуализация данных. В большинстве случаев пользователям разрешено голосовать и комментировать работы других участников. Эти отзывы учитываются в процессе оценивания работ. С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 7 / 31
  • 10. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Общие сведения Соревнования Типы соревнований (2) Research. Публичное соревнование с целью проведения исследования или ради общественного блага. Вознаграждения: денежные призы / приглашения на конференции / публикации в рецензируемых журналах. С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 8 / 31
  • 11. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Общие сведения Соревнования Типы соревнований (2) Research. Публичное соревнование с целью проведения исследования или ради общественного блага. Вознаграждения: денежные призы / приглашения на конференции / публикации в рецензируемых журналах. Getting Started. Публичное соревнование без денежных призов для людей, которые не уверены в своих силах. С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 8 / 31
  • 12. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Общие сведения Соревнования Типы соревнований (2) Research. Публичное соревнование с целью проведения исследования или ради общественного блага. Вознаграждения: денежные призы / приглашения на конференции / публикации в рецензируемых журналах. Getting Started. Публичное соревнование без денежных призов для людей, которые не уверены в своих силах. Подробнее: http://www.kaggle.com/wiki/KaggleMemberFAQ С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 8 / 31
  • 13. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Общие сведения Соревнования Атрибуты соревнования Дата начала конкурса. Дата окончания конкурса. С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 9 / 31
  • 14. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Общие сведения Соревнования Атрибуты соревнования Дата начала конкурса. Дата окончания конкурса. Описание (Description). С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 9 / 31
  • 15. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Общие сведения Соревнования Атрибуты соревнования Дата начала конкурса. Дата окончания конкурса. Описание (Description). Критерии качества (Evaluation). С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 9 / 31
  • 16. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Общие сведения Соревнования Атрибуты соревнования Дата начала конкурса. Дата окончания конкурса. Описание (Description). Критерии качества (Evaluation). Правила (Rules). С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 9 / 31
  • 17. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Общие сведения Соревнования Атрибуты соревнования Дата начала конкурса. Дата окончания конкурса. Описание (Description). Критерии качества (Evaluation). Правила (Rules). Призы (Prizes) (если есть). С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 9 / 31
  • 18. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Общие сведения Соревнования Атрибуты соревнования Дата начала конкурса. Дата окончания конкурса. Описание (Description). Критерии качества (Evaluation). Правила (Rules). Призы (Prizes) (если есть). В зависимости от сроков проведения, соревнования могут быть активными или завершенными. С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 9 / 31
  • 19. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge 1 Facebook Recruiting III - Keyword Extraction 2 Personalize Expedia Hotel Searches - ICDM 2013 3 Personalized Web Search Challenge С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 10 / 31
  • 20. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge Facebook Recruiting III - Keyword Extraction Определение ключевых слов и тегов для миллиона текстовых запросов. Тип конкурса Recruitment Дата окончания 20.12.2013 Участие Индивидуальное Критерий качества F1-мера С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 11 / 31
  • 21. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge Данные Прилагаемые файлы с данными: Train.zip (2.19 GB); Test.zip (725.10 MB); SampleSubmission.csv (78.72 MB). Имя поля Описание Id Уникальный идентификатор для каждого вопроса Title Заголовок вопроса Body Текст вопроса Tags Теги, связанные с вопросом С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 12 / 31
  • 22. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge Матрица классифкации Фактически Модель Положительно Отрицательно Положительно ntp nfp Отрицательно nfn ntn ntp — верно классифицированные положительные примеры (истинно положительные случаи); ntn — верно классифицированные отрицательные примеры (истинно отрицательные случаи); nfn — ошибочно классифицированные положительные примеры (ошибка I рода, «ложный пропуск»); nfp — ошибочно классифицированные отрицательные примеры (ошибка II рода, «ложная тревога»). С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 13 / 31
  • 23. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge Точность и полнота Пусть задана выборка Xm = (x1, . . . , xm) с соответствующими ответами (y1, . . . , ym), yi ∈ {−1, +1}. Тогда для некоторого классификатора a(x) можно определить два критерия качества: С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 14 / 31
  • 24. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge Точность и полнота Пусть задана выборка Xm = (x1, . . . , xm) с соответствующими ответами (y1, . . . , ym), yi ∈ {−1, +1}. Тогда для некоторого классификатора a(x) можно определить два критерия качества: 1 Точность (Precision): P = m i=1[a(xi ) = +1][yi = +1] m i=1[a(xi ) = +1] = ntp ntp + nfp . С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 14 / 31
  • 25. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge Точность и полнота Пусть задана выборка Xm = (x1, . . . , xm) с соответствующими ответами (y1, . . . , ym), yi ∈ {−1, +1}. Тогда для некоторого классификатора a(x) можно определить два критерия качества: 1 Точность (Precision): P = m i=1[a(xi ) = +1][yi = +1] m i=1[a(xi ) = +1] = ntp ntp + nfp . 2 Полнота (Recall): R = m i=1[a(xi ) = +1][yi = +1] m i=1[yi = +1] = ntp ntp + nfn . С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 14 / 31
  • 26. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge F1-мера F1-мера — это среднее гармоническое точности и полноты: F1 = 2PR P + R . С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 15 / 31
  • 27. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge F1-мера F1-мера — это среднее гармоническое точности и полноты: F1 = 2PR P + R . Упражнение Коэффициент Дайса (Dice coeffient) для двух множеств — это мера их пересечения, поделенная на их объем (так, чтобы результат лежал в диапазоне от нуля до единицы). Dice(X, Y ) = 2|X ∩ Y | |X| ∪ |Y | . Покажите, что F1-мера равна коэффициенту Дайса для множеств найденных и ключевых слов. С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 15 / 31
  • 28. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge Personalize Expedia Hotel Searches - ICDM 2013 Ранжирование отелей для максимизации продаж Тип конкурса Featured Дата окончания 4.11.2013 Участие Индивидуальное или групповое Критерий качества NDCG@38 Приз Kaggle $25000 С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 16 / 31
  • 29. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge Данные Прилагаемые файлы с данными: Train.csv — обучающее множество примеров. Test.csv — тестовое множество примеров. Содержит те же поля, что и в обучающем множестве кроме position, click_bool, gross_bookings_usd, nor booking_bool. testOrderBenchmark.zip, testOrderBenchmark.zip и randomBenchmark.zip — примеры работы моделей и выходных файлов. С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 17 / 31
  • 30. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge Релевантность страниц отелей 5 — пользователь оплатил номер в отеле 1 — пользователь кликнул на просмотр подробной информации об отеле 0 — пользователь не стал оплачивать номер в отеле и не стал просматривать подробную информацию об отеле. С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 18 / 31
  • 31. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge Нормированная дисконтированная совокупная выгода Normalized Discounted Cumulative Gain (NDCG): NDCG = DCG IDCG , DCG = p i=1 2reli − 1 log2(i + 1) , где IDCG — это DCG, рассчитанный для идеального ранжирования, p — количество первых документов в запросе, reli — фактическая релевантность документа из i-ой позиции запросу. С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 19 / 31
  • 32. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge Пример NDCG@6 i reli log2i 2reli −1 log2(i+1) 1 3 1 7 2 2 1.585 1.893 3 3 2 3.5 4 0 2.322 0 5 1 2.585 0.387 6 2 2.807 1.069 DCG = 13,848 i reli log2i 2reli −1 log2(i+1) 1 3 1 7 2 3 1.585 4.417 3 2 2 1.5 4 2 2.322 1.29203 5 1 2.585 0.387 6 0 2.807 0 IDCG = 14,595 NDCG = 0.949 С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 20 / 31
  • 33. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge Personalized Web Search Challenge Персонализация веб-поиска Тип конкурса Featured Дата окончания 10.01.2014 Участие Индивидуальное или групповое Критерий качества NDCG@10 Приз Kaggle $5000, $3000, $1000 С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 21 / 31
  • 34. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge Данные Прилагаемые файлы с данными: train.gz — обучающее множество примеров (распакованный 16GB). test.gz — тестовое множество примеров. random-baseline.gz — пример результата. Данные: Уникальных запросов: 21 073 569 Уникальных url: 70 348 426 Уникальных пользователей: 5 736 333 Сессий в обучающем множестве: 34 573 630 Сессий в тестовом множестве: 797 867 Всего записей в логе: 167 413 039 С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 22 / 31
  • 35. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge Релевантность документов 0 — документы без кликов или c кликами, если время до следующего клика было строго меньше 50. 1 — документы с кликами и время до следующего клика по другому документу от 50 до 399 (включительно). 2 — документы с кликами и время до следующего клика по другому документу в пределах сессии выше 400, либо документы с последним кликом во время сессии. С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 23 / 31
  • 36. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Facebook Recruiting III - Keyword Extraction Personalize Expedia Hotel Searches - ICDM 2013 Personalized Web Search Challenge Возможны и другие соревнования Вы можете посмотреть открытые соревнования по адресу: http://www.kaggle.com/competitions При наличии минимум 3х команд соревнование может быть добавлено в конкурс научного кружка. С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 24 / 31
  • 37. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Некоторые рекомендуемые инструменты Deductor Academic Weka RapidMiner Talend Open Studio Готовые библиотеки: libsvm, mahout, mallet и т.д. The Apache Lucene (много полезных классов для обработки текста) С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 25 / 31
  • 38. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Электронные ресурсы Литература Полезные электронные ресурсы Форум Kaggle: http://www.kaggle.com/forums Сайт BaseGroup Labs http://www.basegroup.ru/ MachineLearning.ru Школа анализа данных http://shad.yandex.ru/ Академия Google http://scholar.google.com/ Страничка научного кружка https://studentsbasegroup.wikispaces.com/ С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 26 / 31
  • 39. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Электронные ресурсы Литература Рекомендуемая литература 1 Н. Б. Паклин, В. И. Орешков. Бизнес-аналитика: от данных к знаниям (+ СD): учеб. пособие. — 2-е изд., испр. - СПб.: Питер, 2013. — 704 с.: ил. 2 A. Г. Дьяконов. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на эвм кафедры математических методов прогнозирования). — МАКСПресс, 2010. — 278 с. скачать с MachineLearning.ru С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 27 / 31
  • 40. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Электронные ресурсы Литература Дополнительная литература 1 К.В. Воронцов. Математические методы обучения по прецедентам (теория обучения машин). Курс лекций. скачать с MachineLearning.ru 2 А. Н. Ширяев. Вероятностно-статистические методы в теории принятия решений. 3 М. А. Бабенко, М. В. Левин. Введение в теорию алгоритмов и структур данных. 4 Н. К. Верещагин, Е. В. Щепин. Информация, кодирование и предсказание. 5 А. Я. Червоненкис. Компьютерный анализ данных. С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 28 / 31
  • 41. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Электронные ресурсы Литература Дополнительная литература (для углубленного изучения анализа данных) 1 Р. Рокафеллар. Выпуклый анализ. М.: Мир, 1973. 2 Б.Т. Поляк. Введение в оптимизацию. М.: Наука, 1983. 3 А.Н. Ширяев. Вероятность 1-2. 4ое издание, изд-во МЦНМО, 2007. 4 К.В. Воронцов. Теория надёжности обучения по прецедентам (комбинаторная теория переобучения). Курс лекций. скачать с MachineLearning.ru 5 А. Ахо, Д. Хопкрофт, Д. Ульман. Построение и анализ вычислительных алгоритмов. М.: Мир, 1999. С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 29 / 31
  • 42. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Электронные ресурсы Литература Дополнительная литература (для углубленного изучения анализа данных) 6 Т. Кормен, Ч. Лейзерсон, Р. Ривест. Алгоритмы: построение и анализ. М.: МЦНМО, 1999. 7 В.Н. Вапник, А.Я. Червоненкис. Теория распознавания образов. Москва, Наука 1974. 8 В.Н. Вапник. Восстановление зависимостей по эмпирическим данным. Москва, Наука 1979. 9 Алгоритмы и программы восстановления зависимостей. Под ред. В.Н. Вапника. М, Наука 1984. 10 V.N. Vapnik. The Nature of Statistical Learning Theory. Springer, New York 2000. С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 30 / 31
  • 43. О кружке Знакомство с Kaggle Предлагаемые задачи Некоторые рекомендуемые инструменты Полезные ресурсы Электронные ресурсы Литература Спасибо за внимание! С. В. Царьков (s.v.tsarkov@gmail.com) Вводное занятие 31 / 31