ПЛАН ДОКЛАДА
1. Каким должно быть любое образование?
2. Что такое data science?
3. Как обычно преподают/изучают data science?
4. Как получить первый опыт?
5. Коллаборация в области Data Science
2
КТО ТАКОЙ
СПЕЦИАЛИСТ?
3
ОСОБЕННОСТИ
ПРОФЕССИОНАЛЬНЫХ ЗАДАЧ
ЧЕЛОВЕКА С … ОБРАЗОВАНИЕМ
1. Средним,
профессионально-техническим
2. Средним специальным
3. Высшим
4. Послевузовским
КТО ТАКОЙ
DATA
SCIENTIST?
6
7
МНЕНИЕ UDACITY
Источник:
8 Skills You Need
to Be a Data Scientist
НАУКА О ДАННЫХ
• Big Data и параллельные вычисления
• Статистические методы
• Машинное обучение
• Data Mining
• Artificial Intelligence
• Проектирование и разработка
эффективных хранилищ данных
• ….
КАК УЧАТ
DATA
SCIENCE?
10
АКАДЕМИЧЕСКИЕ ПРОГРАММЫ
1. Школа анализа данных
(Москва, Киев, Минск, …)
2. Computer Science Center
(Санкт-Петербург)
3. Техносфера (Москва)
4. ….
11
ТРАДИЦИОННОЕ ОБЩЕЕ
1. Общее повышение уровня программирования (по ~ 48 ч.)
Основные языки: 1. Python 2. С/C++ (вплоть до 11/14).
Дополнительно: Java (open source Big Data), R (статистика).
2. Алгоритмы и структуры данных (~ 48-96 ч.)
3. Машинное обучение (~ 48-96 ч.)
4. Основы Natural Language Processing (24-48 ч).
5. Информационный поиск (information retrieval) (~48 ч.)
+ НЕЗАБЫВАЕМЫЕ НОЧИ, ПОТРАЧЕННЫЕ
НА ВЫПОЛНЕНИЕ ДОМАШНИХ ЗАДАНИЙ.
12
ПРИМЕРЫ СПЕЦКУРСОВ
1. Анализ изображений и видео (30-60 ч.)
2. Технологии хранения и обработки больших объёмов
данных (36-72 ч)
3. Обучение представлений и глубокое обучение (~48 ч.)
4. Байесовские методы (~48 ч.)
5. Графические модели (~ 48 ч.)
6. Прикладная аналитика (~24 ч.)
7. Теория игр и аукционов (~ 24 ч.)
И многое другое
13
ОБЩИЕ ТРЕНДЫ
1. Введение в Deep Learning
2. Технологии Big Data
3. Прикладные исследовательские проекты
4. Выкладка материалов занятий на GitHub и
видеозаписей лекций на YouTube.
Большинство онлайн-курсов намного
поверхностнее!
14
15
МАШИННОЕ ОБУЧЕНИЕ
CRISP DM
16
УДАЧНЫЕ ПРИМЕРЫ
ЛАБОРАТОРНЫХ ЗАДАЧ
1. Первичный анализ данных о авиарейсах в США ( http://stat-
computing.org/dataexpo/2009/the-data.html -- opendata !!!)
2. Предсказание вероятности автомобильной аварии
страховой компанией (с SAS-тренинга )
3. Предсказание цены объекта недвижимости в США по его
описанию
4. Предсказание пола по транзакциям (конкурс Сбербанка)
5. Предсказание “здоров / болен” по ЭКГ
ВАЖНА ПОНЯТНОСТЬ ПРИЗНАКОВ и «НИЗКАЯ» ТОЧКА ВХОДА!
17
САМООБРАЗОВАНИЕ
1. Технострим Mail.ru
2. Лекции Computer Science Center
3. Много видеозаписей полноценных курсов на
YouTube
4. Много видеозаписей конференций и митапов
5. Публикации в научных и научно-популярных
журналах и блогах
18
КАК
ПОПРОБОВАТЬ
НА ПРАКТИКЕ?
19
КРИТЕРИИ ВЫБОРА ЗАДАЧ
1. Мини-проект по Data Science
2. И практическая,
и научно-исследовательская актуальность
3. Публикации в реферируемых журналах
4. Нечеткая, достаточно общая поставка задач
5. Интересная предметная область
20
ЛЕКСИЧЕСКАЯ НОРМАЛИЗАЦИЯ
ТЕКСТА В СОЦИАЛЬНЫХ СЕТЯХ
21
ACL 2015
Workshop on
Noisy User-
generated Text.
Lexical
Normalization for
English Tweets
ONLINE REPUTATION
MANAGEMENT IN SOCIAL MEDIA
22
RepLab 2013.
Track for
Online
Reputation
Management
ЗАДАЧИ
• Категоризация авторов сообщений
• Influencer?
• Контекст упоминания брендов
• Выделение тем
• Кластеризация текстов
!!! ГОТОВЫХ ПРИЗНАКОВ НЕТ!!!
23
СКУЧНО
ОДНОМУ …
24
СИЛА В СООБЩЕСТВЕ!
Статистика #OpenDataScience в Slack за 1 год:
• 145K сообщений, 60+ каналов, 500+ data scientist-ов
• Наиболее обсуждаемые темы:
#deep_learning #theory_and_practice
#visualization #big_data
#python #r
#datasets #nlp
#edu_courses #devops
25
http://opendatascience.ru
СИЛА В СООБЩЕСТВЕ!
Сообщество «Тренировки ML»
• Почти 1400 человек в группе Facebook
• Регулярные встречи 1 раз в 2 недели с видеозаписью
Регулярные мероприятия по Data Science в офисах крупных IT-
компаний, с видеозаписью
• Компьютерные науки (Яндекс) it.mail.ru/
• AvitoTech ВШЭ DataTalks и МНОГИЕ ДРУГИЕ!
26
РЕЗЮМЕ
1. Системное и аналитическое мышление!
2. Необходимы фундаментальные знания
сразу в нескольких областях
3. Идеальный Data Scientist – это
• сильный инженер-программист,
• талантливый исследователь,
• толковый (бизнес-)аналитик. 27
РЕЗЮМЕ
4. Непрерывное саморазвитие
5. Возможности для получения
практического опыта
6. Возможности для получения и обмена
знаниями
28
СПАСИБО!
ВОПРОСЫ?
29
Денис Пирштук
Chief Data Scientist
d_pirshtuk@indatalabs.com
https://www.linkedin.com/in/dpirshtuk

DataTalks #6. Погружение в науку о данных

  • 2.
    ПЛАН ДОКЛАДА 1. Какимдолжно быть любое образование? 2. Что такое data science? 3. Как обычно преподают/изучают data science? 4. Как получить первый опыт? 5. Коллаборация в области Data Science 2
  • 3.
  • 4.
  • 5.
    1. Средним, профессионально-техническим 2. Среднимспециальным 3. Высшим 4. Послевузовским
  • 6.
  • 7.
  • 8.
    МНЕНИЕ UDACITY Источник: 8 SkillsYou Need to Be a Data Scientist
  • 9.
    НАУКА О ДАННЫХ •Big Data и параллельные вычисления • Статистические методы • Машинное обучение • Data Mining • Artificial Intelligence • Проектирование и разработка эффективных хранилищ данных • ….
  • 10.
  • 11.
    АКАДЕМИЧЕСКИЕ ПРОГРАММЫ 1. Школаанализа данных (Москва, Киев, Минск, …) 2. Computer Science Center (Санкт-Петербург) 3. Техносфера (Москва) 4. …. 11
  • 12.
    ТРАДИЦИОННОЕ ОБЩЕЕ 1. Общееповышение уровня программирования (по ~ 48 ч.) Основные языки: 1. Python 2. С/C++ (вплоть до 11/14). Дополнительно: Java (open source Big Data), R (статистика). 2. Алгоритмы и структуры данных (~ 48-96 ч.) 3. Машинное обучение (~ 48-96 ч.) 4. Основы Natural Language Processing (24-48 ч). 5. Информационный поиск (information retrieval) (~48 ч.) + НЕЗАБЫВАЕМЫЕ НОЧИ, ПОТРАЧЕННЫЕ НА ВЫПОЛНЕНИЕ ДОМАШНИХ ЗАДАНИЙ. 12
  • 13.
    ПРИМЕРЫ СПЕЦКУРСОВ 1. Анализизображений и видео (30-60 ч.) 2. Технологии хранения и обработки больших объёмов данных (36-72 ч) 3. Обучение представлений и глубокое обучение (~48 ч.) 4. Байесовские методы (~48 ч.) 5. Графические модели (~ 48 ч.) 6. Прикладная аналитика (~24 ч.) 7. Теория игр и аукционов (~ 24 ч.) И многое другое 13
  • 14.
    ОБЩИЕ ТРЕНДЫ 1. Введениев Deep Learning 2. Технологии Big Data 3. Прикладные исследовательские проекты 4. Выкладка материалов занятий на GitHub и видеозаписей лекций на YouTube. Большинство онлайн-курсов намного поверхностнее! 14
  • 15.
  • 16.
  • 17.
    УДАЧНЫЕ ПРИМЕРЫ ЛАБОРАТОРНЫХ ЗАДАЧ 1.Первичный анализ данных о авиарейсах в США ( http://stat- computing.org/dataexpo/2009/the-data.html -- opendata !!!) 2. Предсказание вероятности автомобильной аварии страховой компанией (с SAS-тренинга ) 3. Предсказание цены объекта недвижимости в США по его описанию 4. Предсказание пола по транзакциям (конкурс Сбербанка) 5. Предсказание “здоров / болен” по ЭКГ ВАЖНА ПОНЯТНОСТЬ ПРИЗНАКОВ и «НИЗКАЯ» ТОЧКА ВХОДА! 17
  • 18.
    САМООБРАЗОВАНИЕ 1. Технострим Mail.ru 2.Лекции Computer Science Center 3. Много видеозаписей полноценных курсов на YouTube 4. Много видеозаписей конференций и митапов 5. Публикации в научных и научно-популярных журналах и блогах 18
  • 19.
  • 20.
    КРИТЕРИИ ВЫБОРА ЗАДАЧ 1.Мини-проект по Data Science 2. И практическая, и научно-исследовательская актуальность 3. Публикации в реферируемых журналах 4. Нечеткая, достаточно общая поставка задач 5. Интересная предметная область 20
  • 21.
    ЛЕКСИЧЕСКАЯ НОРМАЛИЗАЦИЯ ТЕКСТА ВСОЦИАЛЬНЫХ СЕТЯХ 21 ACL 2015 Workshop on Noisy User- generated Text. Lexical Normalization for English Tweets
  • 22.
    ONLINE REPUTATION MANAGEMENT INSOCIAL MEDIA 22 RepLab 2013. Track for Online Reputation Management
  • 23.
    ЗАДАЧИ • Категоризация авторовсообщений • Influencer? • Контекст упоминания брендов • Выделение тем • Кластеризация текстов !!! ГОТОВЫХ ПРИЗНАКОВ НЕТ!!! 23
  • 24.
  • 25.
    СИЛА В СООБЩЕСТВЕ! Статистика#OpenDataScience в Slack за 1 год: • 145K сообщений, 60+ каналов, 500+ data scientist-ов • Наиболее обсуждаемые темы: #deep_learning #theory_and_practice #visualization #big_data #python #r #datasets #nlp #edu_courses #devops 25 http://opendatascience.ru
  • 26.
    СИЛА В СООБЩЕСТВЕ! Сообщество«Тренировки ML» • Почти 1400 человек в группе Facebook • Регулярные встречи 1 раз в 2 недели с видеозаписью Регулярные мероприятия по Data Science в офисах крупных IT- компаний, с видеозаписью • Компьютерные науки (Яндекс) it.mail.ru/ • AvitoTech ВШЭ DataTalks и МНОГИЕ ДРУГИЕ! 26
  • 27.
    РЕЗЮМЕ 1. Системное ианалитическое мышление! 2. Необходимы фундаментальные знания сразу в нескольких областях 3. Идеальный Data Scientist – это • сильный инженер-программист, • талантливый исследователь, • толковый (бизнес-)аналитик. 27
  • 28.
    РЕЗЮМЕ 4. Непрерывное саморазвитие 5.Возможности для получения практического опыта 6. Возможности для получения и обмена знаниями 28
  • 29.
    СПАСИБО! ВОПРОСЫ? 29 Денис Пирштук Chief DataScientist d_pirshtuk@indatalabs.com https://www.linkedin.com/in/dpirshtuk