10. «How can we build computer
systems that automatically
improve with experience, and what
are the fundamental laws that
govern all learning processes?»
Tom Mitchell, CMU
9
11. «Как построить компьютерные
системы, которые
автоматически улучшаются с
накопленным опытом, и каким
законам подчинаются все
процессы обучения?»
Tom Mitchell, CMU
10
12.
13.
14.
15.
16.
17.
18. Реализации машинного обучения
TMVA http://tmva.sf.net
word2vec by Google http://code.google.com/p/word2vec
h2o by 0xdata http://0xdata.com/h2O
“The Berkeley Stack” by AMPLab
http://amplab.cs.berkeley.edu
Vorpal Wabbit by John Langford
http://github.com/JohnLangford/vowpal_wabbit
KNIME - http://knime.org
PMML - Predictive Model Markup Language
http://ibm.com/developerworks/industry/library/ind-PMML2/
scikit-learn for Python http://scikit-learn.org
17
29. 1.Получить данные
2.Выбрать пространство признаков
3.Выбрать меры оценки качества
4.Выбрать параметры классификатора
5.Обучить модель
6.Оценка качества
7.Повторить
28
Анатомия приложения
34. Конвейер исследований
Web Search
Logs, ...
Map, Reduce, Join
Matrixnet/Tensornet
Data Science
Data Acquisition
Aggregation, Transforming
Model Training/Machine Learning
Engine
Application
Search Quality
Results
35. Конвейер исследований
Web Search
Logs, ...
Map, Reduce, Join
Matrixnet/Tensornet
Data Science
Data Acquisition
Aggregation, Transforming
Model Training/Machine Learning
CERN
LHC
Filtering and Stripping
TMVA
Engine
Application
Fitting
Search Quality
Results
Publications
36. Конвейер исследований
Web Search
Logs, ...
Map, Reduce, Join
Matrixnet/Tensornet
Data Science
Data Acquisition
Aggregation, Transforming
Model Training/Machine Learning
CERN
LHC
Filtering and Stripping
TMVA
Engine
Application
Fitting
Search Quality
Results
Publications
43. From: Swami Chandrasekaran,Executive Architect
Программирование
Алгоритмы и структуры
данных
Базы данных
Статистика
Анализ данных
Машинное обучение
Компьютерная обработка
текста
Распределенные системы
Инструменты Big Data
Визуализация данных
45. Международные курсы
• Университетские программы:
–
–
–
–
–
University of Washington: CertiUcate in Data Science
UC Berkeley: Master of information and data science program
New York University: Data Science at NYU
Columbia University: Institute for Data Sciences and Engineering
University of Southern California (UCS) : Master of Science in Data Science
• Онлайн курсы обучения:
–
–
–
Coursera
edX
Udacity
• Ускоренные образовательные программы (компании):
–
–
41
ZipUan Academy (12 weeks intensive program)
Insight Data Science Fellows program ( 6 weeks post doc training)
46. Яндекс.ШАД
Восстановление функциональных закономерностей из эмпирических данных.
Алгоритмы и структуры данных поиска
Вероятностно-статистические модели и анализ данных
Выпуклый анализ и оптимизация
Машинное обучение
Анализ символьных последовательностей с точки зрения биоинформатики
Дискретный анализ и теория вероятностей
Алгоритмы и структуры данных поиска
Автоматическая обработка текстов
Машинный перевод
Параллельные и распределенные вычисления
Комбинаторика и вероятность
Анализ изображений и видео
Алгоритмы для работы с большими объемами данных
...
42
http://bit.ly/18SyiKJ
47. Яндекс.ШАД
Восстановление функциональных закономерностей из эмпирических данных.
Алгоритмы и структуры данных поиска
Вероятностно-статистические модели и анализ данных
Выпуклый анализ и оптимизация
Машинное обучение
Анализ символьных последовательностей с точки зрения биоинформатики
Дискретный анализ и теория вероятностей
Алгоритмы и структуры данных поиска
Автоматическая обработка текстов
Машинный перевод
Параллельные и распределенные вычисления
Комбинаторика и вероятность
Анализ изображений и видео
Алгоритмы для работы с большими объемами данных
...
43
http://bit.ly/18SyiKJ
58. Заключение
• Большие данные:
– скорость + размер + разнообразие
• «Секреты»:
– метапереход от статистики к модельному описанию
(инженерия данных, машинное обучение)
– алгоритмы и библиотеки построения моделей
– инфраструктура для встраивания моделей
– конвейрная обработка
• Новые подходы в естесственных и гуманитарных науках:
– инфографика
– воспроизводимые эксперименты
– журналистика данных
54