SlideShare a Scribd company logo
Профессия Data Scientist
 Stolyarevska A., 2015
Столяревская А.Л.
Международный Соломонов университет
1
Содержание
 Определение термина “наука о
данных”, направление исследований
 Язык программирования R, примеры
использования
 Специалисты по науке о данных, их
подготовка
 Специализация по науке о данных
◦ Список курсов
◦ Пример обработки данных
2
Определение термина
data science
Наука о данных (data science) занимается извлечением знаний из
данных.
Эта наука использует методы и теории, взятые из многих областей
математики, статистики и информационных технологий, включая
 обработку сигналов,
 вероятностные модели,
 машинное обучение,
 статистическое обучение,
 компьютерное программирование,
 инженерию данных,
 распознавание образов и обучение,
 визуализацию,
 прогнозную аналитику,
 моделирование неопределенности,
 хранилища данных и
 высокопроизводительные вычисления.
Она также охватывает интеллектуальную обработку данных и анализ
данных.
3
История data science
4
История возникновения термина
Термин был
предложен в 1974
году Петером
Науром, датским
учёным в области
информатики, одним
из пионеров
компьютерной науки.
Тогда data science
имела название
datalogy.
Петер Наур
5
Статистика = наука о данных?
Профессор университета
штата Мичиган Джефф Ву
в лекции (1997 год) под
названием "Статистика =
наука о данных?"
характеризует статистику
как трилогию из сбора
данных, моделирования и
анализа данных, и
принятия решений.
Именно Джефф Ву
является автором
термина "наука о
данных".
6
Рост объема данных
Взлёт интереса к науке о
данных относится к
появлению парадигмы
«больших данных»,
которая фокусируется на
новых технологических
возможностях обработки
данных больших объёмов
и разнообразия, в том
числе, за счёт применения
методов,
разрабатываемых в 2000-е
годы в науке о данных.
7
Напомним единицы измерения
8
Где информация, которую мы
потеряли в потоках данных?
В мае 2010 г. были опубликованы результаты исследования
«Десятилетие цифровой Вселенной: готовы ли Вы?», в
котором оценивается общий объем цифровых данных в
мире.
Согласно отчету, в 2009 г. объем цифровых данных вырос
на 62 процента по сравнению с 2008 г. до 800 миллиардов
гигабайт или 0,8 зеттабайт.
Объем цифровых данных, созданных на начало 2010 г.
равен 1,2 зеттабайт.
К 2011 г. объем цифровых данных предполагался равным
1,8 зеттабайт.
Большая часть цифрового контента не уникальна – почти
75% всего объема цифрового мира являются копиями.
Where is the knowledge we have lost in information?
T.S. Eliot, "Choruses from 'The Rock'"
9
Прогноз роста данных
 К 2020 г. количество данных вырастет 44-кратно,
в 35 триллионов гигабайт и достигнет 35
зеттабайт.
 Точками роста данных, как прогнозируется,
будут являться все основные виды средств
массовой информации и коммуникации –ТВ,
радио, печать, интернет, мобильные сети.
 Например, в 2008 г. компанией Google
зафиксирован 1 триллион уникальных URL-
адресов в Интернете. YouTube отмечает, что
каждую минуту на сайт загружается 24 часа
нового видео.
10
Журналы, конференции
В 2002 году Комитетом по данным для науки и техники начат
выпуск журналаCODATA Data Science Journal, содержащего в
названии наименование дисциплины, а в январе 2003 года
вышел первый номерThe Journal of Data Science Колумбийского
университета.
С 2011 года O’Reilly проводит серию крупных конференций по
науке о данных - Strata; корпорация EMC начиная с 2011 года
проводит ежегодной саммит по науке о данных.
11
O’Reilly Media — американская издательская компания, основанная ТимомО’Райли в
1978 году. Публикует книги компьютерной тематики.
EMC Corporation — американская компания, одна из крупнейших в мире корпораций на
рынке продуктов, услуг и решений для хранения и управления информацией.
http://ukraine.emc.com/index.htm?fromGlobalSelector
12
Data science.
Направления исследований
 Облачные вычисления
 Базы данных и интеграция информации
 Обработка сигналов
 Обучение, обработка естественного языка и
извлечение информации
 Компьютерное зрение
 Информационный поиск
 Обнаружение знаний в социальных и
информационных сетях
 Визуализация информации
13
Распределение использования
специалистов в индустрии
14
Data scientist – одна из лучших
новых работ в США
15
Sustainability Consultant - консультант по устойчивому развитию
Рабочие инструменты
Big data instruments:
Hadoop (MapReduce) + hadoop tools
Hive, Pig
NoSQL (Hbase, MongoDB, Cassandra, Neo4J)
Database:
SQL
Programming:
Python
Java
Scala
Machine Learning:
R
Matlab
Python libraries (NumPy, SciPy, Nltk,…)
Java libraries (Mahaut)
16
Язык программирования R
Свободно распространяемый язык
программирования R является в настоящее
время наиболее популярным статистическим
программным обеспечением.
Его используют более 2 миллионов аналитиков и
статистиков по всему миру, и рост числа
пользователей продолжается.
Согласно исследованиям Dice.com и O'Reilly,
специалистам, способным работать с R, готовы
платить очень высокие зарплаты, из чего
следует, что R приживается в бизнес-среде.
17
Интересное из мира R
(9-15 февраля 2015 года)
 Каждые три месяца сайт githut.info обобщает информацию с
GitHub.com по интенсивности использования разных языков
программирования. По результатам последнего квартала 2014 г., R
оказался на 12 месте. Первые три места приходятся на JavaScript, Java
и Python.
 Согласно объявлению, сделанному Х.Уикхэмом в официальном блоге
RStudio, компания Epoch.com (система онлайн-платежей) окажет
финансовую поддержку для дальнейшей разработки пакета RMySQL.
 Т.Ша (Tarak Shah) из Калифорнийского университета в Беркли создал
пакет rcrunchbase, который позволяет делать запросы к CrunchBase -
самой крупной базе данных, содержащей профили стартап-компаний
со всего мира.
 И.Кипнис в своем блоге QuantStratTradeR привел подробный пример
использования алгоритма PELT, предназначенного для обнаружения
"точек перелома" во временных рядах.
 В Сети также появилась видеозапись презентации по Shiny, которую
Д.Ченг (Joe Cheng) из RStudio сделал в январе на одном из воркшопов
сообщества DataScience.
18
http://r-analytics.blogspot.ru/2015/02/r-9-15-2015.html#.VQGCNI6UfHU
Интересное из мира R
(27 апреля - 3 мая 2015 года)
 В блоге "Язык R в финансах и экономике" И. Езепов
опубликовал перевод страницы Google's R Style, в которой
приводятся советы по оформлению скриптов, написанных на R.
 А. Огурцов в блоге "Биостатистика и язык R" привел
подробный пример расчета оптимального объема выборок для
проведения исследований по установлению терапевтической
эквивалентности разных способов лечения.
 На сайте soc-research.info С. Дембицкий привел пример функции,
позволяющей выполнять взвешивание данных при работе с
таблицами сопряженности.
 На образовательном сайте Exponenta.ru появилось учебное пособие
"Язык R". Автор этой работы - Наиль Мусин, доцент факультета
информационных технологий Ун-та Российской академии
образования.
 Новое издание книги "Статистический анализ и визуализация данных
с помощью R", в которой обобщаются материалы данного блога,
будет опубликовано в "бумажном варианте" издательством ДМК
Пресс (Москва). Рукопись уже передана в издательство.
19
Материалы на русском языке
20
Пример. Обнаружение знаний в
социальных и информационных сетях
Компании, основанные на социальных сетях, были одними из
первых, кто распознал ценность анализа своих богатых баз
данных для понимания поведения и потребностей пользователей
и улучшения соответствующих онлайн-платформ новыми
опциями.
Компания Facebook, которая ежедневно обрабатывает более 500
терабайт данных, использует R для понимания того, как
пользователи взаимодействуют с предоставляемыми сервисами.
Разведочный анализ данных помогает Facebook лучше понять,
что их пользователи делают в течение дня, и как популярные
мемы вирусно распространяются по социальной сети.
Визуализация данных - важная часть этой работы. Facebook
поделились своим опытом создания диаграмм при помощи R в
рамках онлайн-курса по разведочному анализу данных на сайте
Udacity, и даже использовали график, построенный при помощи
R, в документе, который описывал перспективы первичного
публичного размещения акций компании.
21
Интерне́т-мем (Internet meme) - название информации или фразы, которая приобрела
популярность в интернет-среде.
Пример. Data Journalism
Анализ данных становится все более важным также для средств
массовой информации - сектора, где наличие открытых
источников информации привело к возникновению
журналистики, основанной на данных (data journalism).
The NewYorkTimes были пионерами в этой области, использовав
R для создания интерактивных приложений для предсказания
результатов выборов в Сенат и определения места рождения
человека по его диалекту.
ЖурналTime также регулярно применяет R для более наглядного
изложения материала в статьях, тематика которых варьирует от
распределения благосостояния в США до обсуждения лучших
бейсбольных питчеров.
Возможности R для быстрого прототипирования означают, что
журналисты могут в считаные часы перейти от концепции к
полноценной иллюстрации - важное обстоятельство для
быстрого анализа срочных новостей.
22
Питчер в бейсболе - это игрок, который бросает мяч с питчерской горки к дому, где его
ловит кетчер и пытается отбить бьющий.
Профессия Data Scientist
McKinsey Global Institute в 2011 году спрогнозировал спрос в
США на 440- 490 тыс. новых специалистов с «глубокими
аналитическими навыками по работе с большими данными» к
2018 году и дефицит в 50 % - 60 % в таких специалистах при
сохранении образовательных трендов, в связи с этим прогнозом
во многом был подогрет интерес к созданию учебных программ.
McKinsey отмечают, что дополнительно понадобится обучать
миллионы менеджеров базовым навыкам работы с данными.
На сегодняшний день только треть спроса на data science
специалистов может быть удовлетворена.
Ненасыщенный рынок не может предоставить компаниям
квалифицированные кадры в области data mining или
прогнозной аналитики, что ведёт к росту спроса и зарплат.
Государственные и частные вузы не справляются с процессом
подготовки специалистов по работе с данными.
http://habrahabr.ru/company/airbnb/blog/237081/
23
Требования к специалисту
24
Требования к специалисту
25
Большие данные в здравоохранении
Вакансия в Харькове, март 2015
26
Общий профиль
специалиста
Профиль специалиста по науке о
данных в меньшей степени
требует концентрации на
содержании предметных
областей, но требует более
глубоких знаний в
математической статистике,
машинном
обучении, программировании, и
в целом более высокого
образовательного уровня
(магистры, кандидаты
наук, Ph.D в сравнении
с бакалаврами и специалистами).
27
Где можно учиться?
28
http://shad.yandex.ru/ http://bi.hse.ru/
New Professions Lab, Москва
29
Что можно посещать?
30
http://knowledgestream.ru/ http://www-01.ibm.com/software/events/insight/
http://www.sas.com/en_us/events/13q3/SAS-Global-Forum-
Executive-Conference-2014/overview.html
Другие мероприятия
31
Подготовка кадров (USA)
С 2013 учебного года Университет Данди,
Оклендский университет, Университет Южной
Калифорнии запустили магистерские программы по
науке о данных, а бизнес-школа Имперского
колледжа Лондона - программу подготовки
«магистров наук по науке о данных и менеджменту»
(англ. MSc Data Science & Management).
В 2013году Вашингтонский университет,
Университет Калифорнии в Беркли и Нью-Йоркский
университет получили грант в размере $37,8 млн на
развитие науки о данных, в рамках которого в
течение пяти лет должны будут выстроены учебные
программы и созданы возможности для
академической карьеры в данной области.
32
Российский рынок data science отстает от других стран в среднем на 5 лет.
http://datareview.info/news/aleksandr-anikin-o-professii-data-scientist/
Пример. Образование
статистиков
33
Johns Hopkins University
Data Science
34
Университе́т Джо́нса Хо́пкинса
(Johns Hopkins University) -
частный исследовательский
университет, основанный 22
февраля 1876 года Джонсом
Хопкинсом в городе Балтимор,
штат Мэриленд, США.
Это событие было приурочено к
100-летнему юбилею
образованияСоединённых
Штатов и ко дню рождения
первого президента США
Джорджа Вашингтона.
35
Девиз университета:
лат.Veritas vos Liberabit,
англ.TheTruth Will SetYou Free,
рус. Истина сделает тебя свободным.
Миссия университета:
Поддержка исследований… помощь отдельным учёным, которые
продвигают различные направления науки и помогают обществу,
в котором они живут.
Целевой фонд университета составлял $ 2,99 млрд. в 2013 г.
В университете насчитывалось:
Бакалавров - 6 023;
Магистров и докторов - 14 848:
Преподавателей - 3 100.
Официальный сайт - www.jhu.edu
36
Наука о данных.
Специализация
37
Список курсов из специализации
Data Science
 The Data Scientist’s Toolbox - обзор различных инструментов
специалиста по анализу данных.
 R Programming - основы работы с языком программирования R.
 Getting and Cleaning Data - подготовка и обработка сырых входных
данных к дальнейшему анализу.
 Exploratory Data Analysis - исследовательский анализ данных и
визуализация данных с помощью языка R.
 Reproducible Research - анализ данных.
 Statistical Inference - курс по основам статистики и теории
вероятностей.
 Regression Models - регрессионный анализ.
 Practical Machine Learning - основы машинного обучения.
 Developing Data Products - разработка современных продуктов.
38
Соответствие специализации
технологическому процессу
39
Этапы анализа
1. Формирование гипотезы;
2. Сбор данных;
3. Подготовка данных (фильтрация);
4. Выбор модели;
5. Подбор параметров модели и алгоритма обучения;
6. Обучение модели (автоматический поиск остальных
параметров модели);
7. Анализ качества обучения;
если неудовлетворительно - переход на п. 5 или п. 4;
8. Анализ выявленных закономерностей:
если неудовлетворительно - переход на п. 1, 4 или 5.
40
Пример. Землетрясения
Землетрясения являются стихийными бедствиями,
которые имеют серьезные экономические,
политические и медико-санитарные последствия.
Двумя переменными, которые играют ключевую
роль в определении воздействия землетрясения,
являются магнитуда землетрясения и его глубина.
Магнитуда землетрясения является мерой
количества энергии, которую высвобождает
землетрясение .
Глубина землетрясения - мера того, насколько
глубоко под поверхностью Земли произошло
землетрясение.
41
Пример. Методы исследования
Понимание отношения магнитуды землетрясения и глубины
может помочь охарактеризовать землетрясение и потенциальный
ущерб от него.
Анализ проводится для того, чтобы определить, есть ли
достоверная связь между магнитудой землетрясения и глубиной
землетрясения.
С использованием анализа данных и методов стандартного
регрессионного анализа можно показать, что существует
значительная связь между магнитудой и глубиной, даже с
поправкой на широту и долготу, на которой эти землетрясения
происходят.
Анализ выдвигает в качестве предположения, что увеличение
магнитуды землетрясения связано с увеличением глубины.
Результаты показывают, что существует относительно мало
землетрясений, которые имеют разрушительные характеристики
при больших магнитуде и небольшой глубине.
42
Пример. Сбор, подготовка и
обработка данных
Сбор данных
Для анализа были использованы данные о всех
землетрясениях, зарегистрированных в Геологической
службе США с 24 января по 31 января 2013 г. Эти данные
были взяты с сайта data.gov 31 января 2013 г. и обработаны
с использованием языка программирования R.
Исследовательский анализ
 Поисковый анализ проводился путем анализа таблиц и
графиков наблюдаемых данных.
 Поисковый анализ был использован для (1) определения
недостающих значений, (2)проверки качества данных и
(3) определения терминов, используемых в
регрессионной модели, связывающих магнитуду и
глубину землетрясения.
43
Data science & Data scientist.
Некоторые источники
​Data Science (наука о данных) является развивающейся областью, которая была
создана для удовлетворения потребностей бизнеса и организаций.
​Что такое наука о данных?
​http://radar.oreilly.com/2010/06/what-is-data-science.html​
Специалисты по науке данных имеют большое значение, потому что наука о данных
- это будущее информационных технологий.
http://gigaom.com/2013/01/06/why-data-scientists-matter-data-science-is-the-future-
of-everything/ ​​
Зачем нанимают специалистов по науке данных?
Более важный вопрос: следует ли вашей компании нанимать специалистов по науке
данных?
Чтобы ответить на этот вопрос, компании должны сначала рассмотреть, где
специалисты по науке данных вписываются в организационную структуру, а также
определить роль этого специалиста.
Специалисты по науке данных: наиболее привлекательная работа 21 столетия.
http://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ar/1
Специалисты по науке данных: определение привлекательности.
http://www.forbes.com/sites/gilpress/2012/09/27/data-scientists-the-definition-of-sexy/​
Что такое специалист по науке данных.
http://www-01.ibm.com/software/data/infosphere/data-scientist/
44
Как говорить на языке
Data Science
О Data Science, Big Data, Machine Learning сегодня не говорит только ленивый.
В медиа и бизнес-среде часто многие понятия подменяются и появляется большое
количество клише.
В статье "How to speak Data Science" объясняется, что "в действительности" имеется в
виду, когда люди говорят о Data Science.
Далее представлен перевод перечисленных в статье терминов и фраз.
Хорошего вам настроения в этот весенний день!
"Data scientist" – среднего уровня программист, ищущий работу, где ему платили бы
столько же, сколько платят высококлассному программисту.
"Статистик" – математик, который не умеет программировать.
"Ведущий Data Scientist" (Chief Data Scientist) – бывший главный инженер.
"Data Scientist - самая привлекательная профессия 21-го века" – это утверждение
очень распространено в индустрии Data Science, однако его истинность до сих пор не
была подтверждена статистически.
"Мы измеряем всё" – "Мы не имеем абсолютно никакого представления о том, что
измерять."
"Менеджер, хорошо разбирающийся в данных" – так описывают себя менеджеры из
отделов маркетинга, продаж и кадровой службы, которые используют круговые
диаграммы в своих PowerPoint-презентациях.
45
http://blog.datacamp.com/how-to-speak-data-science/
Мнения
Самыми перспективными кандидатами на освоение новой
специальности окажутся студенты, магистранты и
аспиранты с серьезной теоретической подготовкой,
знаниями статистики, математики и способностью к
решению сложных, нетипичных задач.
При всей сложности подготовки, перспективы работы в
этой области накануне «революции больших данных»
действительно впечатляют.
Помимо высоких заработков, революционеров 21 века
ожидают захватывающие проекты и возможность
принципиально изменить многие привычные способы
производства, продаж и оказания услуг.
46
Спасибо за внимание!
47

More Related Content

Similar to Stolyarevska_data_scientist

Журналистика данных: история из цифр
Журналистика данных: история из цифрЖурналистика данных: история из цифр
Журналистика данных: история из цифр
ARTW
 
ARTW: Журналистика данных: история из цифр
ARTW: Журналистика данных: история из цифрARTW: Журналистика данных: история из цифр
ARTW: Журналистика данных: история из цифр
SPECIA
 
Big Data: вызовы и возможности
Big Data: вызовы и возможностиBig Data: вызовы и возможности
Big Data: вызовы и возможности
Stanislav Makarov
 
Data journalist
Data journalistData journalist
Data journalist
Irina Radchenko
 
нил тбд нтс_10-13
нил тбд нтс_10-13нил тбд нтс_10-13
нил тбд нтс_10-13Vladimir Krylov
 
BIG DATA: your personal information that everyone needs
BIG DATA: your personal information that everyone needsBIG DATA: your personal information that everyone needs
BIG DATA: your personal information that everyone needs
Georgy Slugin
 
Big datatech by-vkrylov
Big datatech by-vkrylovBig datatech by-vkrylov
Big datatech by-vkrylov
Vladimir Krylov
 
Дата-журналистика. Визуализация контента
Дата-журналистика. Визуализация контентаДата-журналистика. Визуализация контента
Дата-журналистика. Визуализация контента
Max Kornev
 
добриднюк. Цифровые платформы научных исследований
добриднюк. Цифровые платформы научных исследованийдобриднюк. Цифровые платформы научных исследований
добриднюк. Цифровые платформы научных исследований
Serge Dobridnjuk
 
Вы (жить) в тренде
Вы (жить) в трендеВы (жить) в тренде
Вы (жить) в тренде
Natalie Sokolova
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
Evgeniy Pavlovskiy
 
Semantic Web & электронные сми илья клинцов
Semantic Web & электронные сми   илья клинцовSemantic Web & электронные сми   илья клинцов
Semantic Web & электронные сми илья клинцовMedia Gorod
 
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)
Andzhey Arshavskiy
 
Что такое Big Data ?
Что такое Big Data ?Что такое Big Data ?
Что такое Big Data ?
Mikhail Alekseev
 
Обработка данных для построения цифровой истории в журналистике данных
Обработка данных для построения цифровой истории в журналистике данныхОбработка данных для построения цифровой истории в журналистике данных
Обработка данных для построения цифровой истории в журналистике данныхIrina Radchenko
 
Открытые данные
Открытые данныеОткрытые данные
Открытые данные
ushchent
 
Открытые данные на Drupal-слёте
Открытые данные на Drupal-слётеОткрытые данные на Drupal-слёте
Открытые данные на Drupal-слёте
zabej
 
Луценко - Big Data в рекламе
Луценко - Big Data в рекламеЛуценко - Big Data в рекламе
Луценко - Big Data в рекламе
SEO Conference
 
Analyz sostoyanoya i dinamiki mirovogo ryinka neirotehnologyi
Analyz sostoyanoya i dinamiki mirovogo ryinka neirotehnologyiAnalyz sostoyanoya i dinamiki mirovogo ryinka neirotehnologyi
Analyz sostoyanoya i dinamiki mirovogo ryinka neirotehnologyi
Shchoukine Timour
 
Тренды сегодня: Big Data
Тренды сегодня: Big DataТренды сегодня: Big Data
Тренды сегодня: Big Data
Andrey Kazakevich
 

Similar to Stolyarevska_data_scientist (20)

Журналистика данных: история из цифр
Журналистика данных: история из цифрЖурналистика данных: история из цифр
Журналистика данных: история из цифр
 
ARTW: Журналистика данных: история из цифр
ARTW: Журналистика данных: история из цифрARTW: Журналистика данных: история из цифр
ARTW: Журналистика данных: история из цифр
 
Big Data: вызовы и возможности
Big Data: вызовы и возможностиBig Data: вызовы и возможности
Big Data: вызовы и возможности
 
Data journalist
Data journalistData journalist
Data journalist
 
нил тбд нтс_10-13
нил тбд нтс_10-13нил тбд нтс_10-13
нил тбд нтс_10-13
 
BIG DATA: your personal information that everyone needs
BIG DATA: your personal information that everyone needsBIG DATA: your personal information that everyone needs
BIG DATA: your personal information that everyone needs
 
Big datatech by-vkrylov
Big datatech by-vkrylovBig datatech by-vkrylov
Big datatech by-vkrylov
 
Дата-журналистика. Визуализация контента
Дата-журналистика. Визуализация контентаДата-журналистика. Визуализация контента
Дата-журналистика. Визуализация контента
 
добриднюк. Цифровые платформы научных исследований
добриднюк. Цифровые платформы научных исследованийдобриднюк. Цифровые платформы научных исследований
добриднюк. Цифровые платформы научных исследований
 
Вы (жить) в тренде
Вы (жить) в трендеВы (жить) в тренде
Вы (жить) в тренде
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
 
Semantic Web & электронные сми илья клинцов
Semantic Web & электронные сми   илья клинцовSemantic Web & электронные сми   илья клинцов
Semantic Web & электронные сми илья клинцов
 
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)
 
Что такое Big Data ?
Что такое Big Data ?Что такое Big Data ?
Что такое Big Data ?
 
Обработка данных для построения цифровой истории в журналистике данных
Обработка данных для построения цифровой истории в журналистике данныхОбработка данных для построения цифровой истории в журналистике данных
Обработка данных для построения цифровой истории в журналистике данных
 
Открытые данные
Открытые данныеОткрытые данные
Открытые данные
 
Открытые данные на Drupal-слёте
Открытые данные на Drupal-слётеОткрытые данные на Drupal-слёте
Открытые данные на Drupal-слёте
 
Луценко - Big Data в рекламе
Луценко - Big Data в рекламеЛуценко - Big Data в рекламе
Луценко - Big Data в рекламе
 
Analyz sostoyanoya i dinamiki mirovogo ryinka neirotehnologyi
Analyz sostoyanoya i dinamiki mirovogo ryinka neirotehnologyiAnalyz sostoyanoya i dinamiki mirovogo ryinka neirotehnologyi
Analyz sostoyanoya i dinamiki mirovogo ryinka neirotehnologyi
 
Тренды сегодня: Big Data
Тренды сегодня: Big DataТренды сегодня: Big Data
Тренды сегодня: Big Data
 

More from Alla Stolyarevska

Adaptive learning and_teacher
Adaptive learning and_teacherAdaptive learning and_teacher
Adaptive learning and_teacher
Alla Stolyarevska
 
Adaptive gamifiction
Adaptive gamifictionAdaptive gamifiction
Adaptive gamifiction
Alla Stolyarevska
 
Взгляд на связь между математикой, искусством и технологиями
Взгляд на связь между математикой, искусством и технологиямиВзгляд на связь между математикой, искусством и технологиями
Взгляд на связь между математикой, искусством и технологиями
Alla Stolyarevska
 
Интеграция STEAM в процесс обучения
Интеграция STEAM в процесс обученияИнтеграция STEAM в процесс обучения
Интеграция STEAM в процесс обучения
Alla Stolyarevska
 
Stem steam-education
Stem steam-educationStem steam-education
Stem steam-education
Alla Stolyarevska
 
Уроки Ю Кай Чоу
Уроки Ю Кай ЧоуУроки Ю Кай Чоу
Уроки Ю Кай Чоу
Alla Stolyarevska
 
Gamification example
Gamification exampleGamification example
Gamification example
Alla Stolyarevska
 
_2016Столяревская
_2016Столяревская_2016Столяревская
_2016СтоляревскаяAlla Stolyarevska
 
Stolyarevska_IES
Stolyarevska_IESStolyarevska_IES
Stolyarevska_IES
Alla Stolyarevska
 

More from Alla Stolyarevska (10)

Adaptive learning and_teacher
Adaptive learning and_teacherAdaptive learning and_teacher
Adaptive learning and_teacher
 
Adaptive gamifiction
Adaptive gamifictionAdaptive gamifiction
Adaptive gamifiction
 
Взгляд на связь между математикой, искусством и технологиями
Взгляд на связь между математикой, искусством и технологиямиВзгляд на связь между математикой, искусством и технологиями
Взгляд на связь между математикой, искусством и технологиями
 
Интеграция STEAM в процесс обучения
Интеграция STEAM в процесс обученияИнтеграция STEAM в процесс обучения
Интеграция STEAM в процесс обучения
 
Stem steam-education
Stem steam-educationStem steam-education
Stem steam-education
 
Уроки Ю Кай Чоу
Уроки Ю Кай ЧоуУроки Ю Кай Чоу
Уроки Ю Кай Чоу
 
Gamification example
Gamification exampleGamification example
Gamification example
 
_2016Столяревская
_2016Столяревская_2016Столяревская
_2016Столяревская
 
Stolyarevska_gamification
Stolyarevska_gamificationStolyarevska_gamification
Stolyarevska_gamification
 
Stolyarevska_IES
Stolyarevska_IESStolyarevska_IES
Stolyarevska_IES
 

Stolyarevska_data_scientist

  • 1. Профессия Data Scientist  Stolyarevska A., 2015 Столяревская А.Л. Международный Соломонов университет 1
  • 2. Содержание  Определение термина “наука о данных”, направление исследований  Язык программирования R, примеры использования  Специалисты по науке о данных, их подготовка  Специализация по науке о данных ◦ Список курсов ◦ Пример обработки данных 2
  • 3. Определение термина data science Наука о данных (data science) занимается извлечением знаний из данных. Эта наука использует методы и теории, взятые из многих областей математики, статистики и информационных технологий, включая  обработку сигналов,  вероятностные модели,  машинное обучение,  статистическое обучение,  компьютерное программирование,  инженерию данных,  распознавание образов и обучение,  визуализацию,  прогнозную аналитику,  моделирование неопределенности,  хранилища данных и  высокопроизводительные вычисления. Она также охватывает интеллектуальную обработку данных и анализ данных. 3
  • 5. История возникновения термина Термин был предложен в 1974 году Петером Науром, датским учёным в области информатики, одним из пионеров компьютерной науки. Тогда data science имела название datalogy. Петер Наур 5
  • 6. Статистика = наука о данных? Профессор университета штата Мичиган Джефф Ву в лекции (1997 год) под названием "Статистика = наука о данных?" характеризует статистику как трилогию из сбора данных, моделирования и анализа данных, и принятия решений. Именно Джефф Ву является автором термина "наука о данных". 6
  • 7. Рост объема данных Взлёт интереса к науке о данных относится к появлению парадигмы «больших данных», которая фокусируется на новых технологических возможностях обработки данных больших объёмов и разнообразия, в том числе, за счёт применения методов, разрабатываемых в 2000-е годы в науке о данных. 7
  • 9. Где информация, которую мы потеряли в потоках данных? В мае 2010 г. были опубликованы результаты исследования «Десятилетие цифровой Вселенной: готовы ли Вы?», в котором оценивается общий объем цифровых данных в мире. Согласно отчету, в 2009 г. объем цифровых данных вырос на 62 процента по сравнению с 2008 г. до 800 миллиардов гигабайт или 0,8 зеттабайт. Объем цифровых данных, созданных на начало 2010 г. равен 1,2 зеттабайт. К 2011 г. объем цифровых данных предполагался равным 1,8 зеттабайт. Большая часть цифрового контента не уникальна – почти 75% всего объема цифрового мира являются копиями. Where is the knowledge we have lost in information? T.S. Eliot, "Choruses from 'The Rock'" 9
  • 10. Прогноз роста данных  К 2020 г. количество данных вырастет 44-кратно, в 35 триллионов гигабайт и достигнет 35 зеттабайт.  Точками роста данных, как прогнозируется, будут являться все основные виды средств массовой информации и коммуникации –ТВ, радио, печать, интернет, мобильные сети.  Например, в 2008 г. компанией Google зафиксирован 1 триллион уникальных URL- адресов в Интернете. YouTube отмечает, что каждую минуту на сайт загружается 24 часа нового видео. 10
  • 11. Журналы, конференции В 2002 году Комитетом по данным для науки и техники начат выпуск журналаCODATA Data Science Journal, содержащего в названии наименование дисциплины, а в январе 2003 года вышел первый номерThe Journal of Data Science Колумбийского университета. С 2011 года O’Reilly проводит серию крупных конференций по науке о данных - Strata; корпорация EMC начиная с 2011 года проводит ежегодной саммит по науке о данных. 11 O’Reilly Media — американская издательская компания, основанная ТимомО’Райли в 1978 году. Публикует книги компьютерной тематики. EMC Corporation — американская компания, одна из крупнейших в мире корпораций на рынке продуктов, услуг и решений для хранения и управления информацией.
  • 13. Data science. Направления исследований  Облачные вычисления  Базы данных и интеграция информации  Обработка сигналов  Обучение, обработка естественного языка и извлечение информации  Компьютерное зрение  Информационный поиск  Обнаружение знаний в социальных и информационных сетях  Визуализация информации 13
  • 15. Data scientist – одна из лучших новых работ в США 15 Sustainability Consultant - консультант по устойчивому развитию
  • 16. Рабочие инструменты Big data instruments: Hadoop (MapReduce) + hadoop tools Hive, Pig NoSQL (Hbase, MongoDB, Cassandra, Neo4J) Database: SQL Programming: Python Java Scala Machine Learning: R Matlab Python libraries (NumPy, SciPy, Nltk,…) Java libraries (Mahaut) 16
  • 17. Язык программирования R Свободно распространяемый язык программирования R является в настоящее время наиболее популярным статистическим программным обеспечением. Его используют более 2 миллионов аналитиков и статистиков по всему миру, и рост числа пользователей продолжается. Согласно исследованиям Dice.com и O'Reilly, специалистам, способным работать с R, готовы платить очень высокие зарплаты, из чего следует, что R приживается в бизнес-среде. 17
  • 18. Интересное из мира R (9-15 февраля 2015 года)  Каждые три месяца сайт githut.info обобщает информацию с GitHub.com по интенсивности использования разных языков программирования. По результатам последнего квартала 2014 г., R оказался на 12 месте. Первые три места приходятся на JavaScript, Java и Python.  Согласно объявлению, сделанному Х.Уикхэмом в официальном блоге RStudio, компания Epoch.com (система онлайн-платежей) окажет финансовую поддержку для дальнейшей разработки пакета RMySQL.  Т.Ша (Tarak Shah) из Калифорнийского университета в Беркли создал пакет rcrunchbase, который позволяет делать запросы к CrunchBase - самой крупной базе данных, содержащей профили стартап-компаний со всего мира.  И.Кипнис в своем блоге QuantStratTradeR привел подробный пример использования алгоритма PELT, предназначенного для обнаружения "точек перелома" во временных рядах.  В Сети также появилась видеозапись презентации по Shiny, которую Д.Ченг (Joe Cheng) из RStudio сделал в январе на одном из воркшопов сообщества DataScience. 18 http://r-analytics.blogspot.ru/2015/02/r-9-15-2015.html#.VQGCNI6UfHU
  • 19. Интересное из мира R (27 апреля - 3 мая 2015 года)  В блоге "Язык R в финансах и экономике" И. Езепов опубликовал перевод страницы Google's R Style, в которой приводятся советы по оформлению скриптов, написанных на R.  А. Огурцов в блоге "Биостатистика и язык R" привел подробный пример расчета оптимального объема выборок для проведения исследований по установлению терапевтической эквивалентности разных способов лечения.  На сайте soc-research.info С. Дембицкий привел пример функции, позволяющей выполнять взвешивание данных при работе с таблицами сопряженности.  На образовательном сайте Exponenta.ru появилось учебное пособие "Язык R". Автор этой работы - Наиль Мусин, доцент факультета информационных технологий Ун-та Российской академии образования.  Новое издание книги "Статистический анализ и визуализация данных с помощью R", в которой обобщаются материалы данного блога, будет опубликовано в "бумажном варианте" издательством ДМК Пресс (Москва). Рукопись уже передана в издательство. 19
  • 21. Пример. Обнаружение знаний в социальных и информационных сетях Компании, основанные на социальных сетях, были одними из первых, кто распознал ценность анализа своих богатых баз данных для понимания поведения и потребностей пользователей и улучшения соответствующих онлайн-платформ новыми опциями. Компания Facebook, которая ежедневно обрабатывает более 500 терабайт данных, использует R для понимания того, как пользователи взаимодействуют с предоставляемыми сервисами. Разведочный анализ данных помогает Facebook лучше понять, что их пользователи делают в течение дня, и как популярные мемы вирусно распространяются по социальной сети. Визуализация данных - важная часть этой работы. Facebook поделились своим опытом создания диаграмм при помощи R в рамках онлайн-курса по разведочному анализу данных на сайте Udacity, и даже использовали график, построенный при помощи R, в документе, который описывал перспективы первичного публичного размещения акций компании. 21 Интерне́т-мем (Internet meme) - название информации или фразы, которая приобрела популярность в интернет-среде.
  • 22. Пример. Data Journalism Анализ данных становится все более важным также для средств массовой информации - сектора, где наличие открытых источников информации привело к возникновению журналистики, основанной на данных (data journalism). The NewYorkTimes были пионерами в этой области, использовав R для создания интерактивных приложений для предсказания результатов выборов в Сенат и определения места рождения человека по его диалекту. ЖурналTime также регулярно применяет R для более наглядного изложения материала в статьях, тематика которых варьирует от распределения благосостояния в США до обсуждения лучших бейсбольных питчеров. Возможности R для быстрого прототипирования означают, что журналисты могут в считаные часы перейти от концепции к полноценной иллюстрации - важное обстоятельство для быстрого анализа срочных новостей. 22 Питчер в бейсболе - это игрок, который бросает мяч с питчерской горки к дому, где его ловит кетчер и пытается отбить бьющий.
  • 23. Профессия Data Scientist McKinsey Global Institute в 2011 году спрогнозировал спрос в США на 440- 490 тыс. новых специалистов с «глубокими аналитическими навыками по работе с большими данными» к 2018 году и дефицит в 50 % - 60 % в таких специалистах при сохранении образовательных трендов, в связи с этим прогнозом во многом был подогрет интерес к созданию учебных программ. McKinsey отмечают, что дополнительно понадобится обучать миллионы менеджеров базовым навыкам работы с данными. На сегодняшний день только треть спроса на data science специалистов может быть удовлетворена. Ненасыщенный рынок не может предоставить компаниям квалифицированные кадры в области data mining или прогнозной аналитики, что ведёт к росту спроса и зарплат. Государственные и частные вузы не справляются с процессом подготовки специалистов по работе с данными. http://habrahabr.ru/company/airbnb/blog/237081/ 23
  • 25. Требования к специалисту 25 Большие данные в здравоохранении
  • 27. Общий профиль специалиста Профиль специалиста по науке о данных в меньшей степени требует концентрации на содержании предметных областей, но требует более глубоких знаний в математической статистике, машинном обучении, программировании, и в целом более высокого образовательного уровня (магистры, кандидаты наук, Ph.D в сравнении с бакалаврами и специалистами). 27
  • 29. New Professions Lab, Москва 29
  • 30. Что можно посещать? 30 http://knowledgestream.ru/ http://www-01.ibm.com/software/events/insight/ http://www.sas.com/en_us/events/13q3/SAS-Global-Forum- Executive-Conference-2014/overview.html
  • 32. Подготовка кадров (USA) С 2013 учебного года Университет Данди, Оклендский университет, Университет Южной Калифорнии запустили магистерские программы по науке о данных, а бизнес-школа Имперского колледжа Лондона - программу подготовки «магистров наук по науке о данных и менеджменту» (англ. MSc Data Science & Management). В 2013году Вашингтонский университет, Университет Калифорнии в Беркли и Нью-Йоркский университет получили грант в размере $37,8 млн на развитие науки о данных, в рамках которого в течение пяти лет должны будут выстроены учебные программы и созданы возможности для академической карьеры в данной области. 32 Российский рынок data science отстает от других стран в среднем на 5 лет. http://datareview.info/news/aleksandr-anikin-o-professii-data-scientist/
  • 35. Университе́т Джо́нса Хо́пкинса (Johns Hopkins University) - частный исследовательский университет, основанный 22 февраля 1876 года Джонсом Хопкинсом в городе Балтимор, штат Мэриленд, США. Это событие было приурочено к 100-летнему юбилею образованияСоединённых Штатов и ко дню рождения первого президента США Джорджа Вашингтона. 35
  • 36. Девиз университета: лат.Veritas vos Liberabit, англ.TheTruth Will SetYou Free, рус. Истина сделает тебя свободным. Миссия университета: Поддержка исследований… помощь отдельным учёным, которые продвигают различные направления науки и помогают обществу, в котором они живут. Целевой фонд университета составлял $ 2,99 млрд. в 2013 г. В университете насчитывалось: Бакалавров - 6 023; Магистров и докторов - 14 848: Преподавателей - 3 100. Официальный сайт - www.jhu.edu 36
  • 38. Список курсов из специализации Data Science  The Data Scientist’s Toolbox - обзор различных инструментов специалиста по анализу данных.  R Programming - основы работы с языком программирования R.  Getting and Cleaning Data - подготовка и обработка сырых входных данных к дальнейшему анализу.  Exploratory Data Analysis - исследовательский анализ данных и визуализация данных с помощью языка R.  Reproducible Research - анализ данных.  Statistical Inference - курс по основам статистики и теории вероятностей.  Regression Models - регрессионный анализ.  Practical Machine Learning - основы машинного обучения.  Developing Data Products - разработка современных продуктов. 38
  • 40. Этапы анализа 1. Формирование гипотезы; 2. Сбор данных; 3. Подготовка данных (фильтрация); 4. Выбор модели; 5. Подбор параметров модели и алгоритма обучения; 6. Обучение модели (автоматический поиск остальных параметров модели); 7. Анализ качества обучения; если неудовлетворительно - переход на п. 5 или п. 4; 8. Анализ выявленных закономерностей: если неудовлетворительно - переход на п. 1, 4 или 5. 40
  • 41. Пример. Землетрясения Землетрясения являются стихийными бедствиями, которые имеют серьезные экономические, политические и медико-санитарные последствия. Двумя переменными, которые играют ключевую роль в определении воздействия землетрясения, являются магнитуда землетрясения и его глубина. Магнитуда землетрясения является мерой количества энергии, которую высвобождает землетрясение . Глубина землетрясения - мера того, насколько глубоко под поверхностью Земли произошло землетрясение. 41
  • 42. Пример. Методы исследования Понимание отношения магнитуды землетрясения и глубины может помочь охарактеризовать землетрясение и потенциальный ущерб от него. Анализ проводится для того, чтобы определить, есть ли достоверная связь между магнитудой землетрясения и глубиной землетрясения. С использованием анализа данных и методов стандартного регрессионного анализа можно показать, что существует значительная связь между магнитудой и глубиной, даже с поправкой на широту и долготу, на которой эти землетрясения происходят. Анализ выдвигает в качестве предположения, что увеличение магнитуды землетрясения связано с увеличением глубины. Результаты показывают, что существует относительно мало землетрясений, которые имеют разрушительные характеристики при больших магнитуде и небольшой глубине. 42
  • 43. Пример. Сбор, подготовка и обработка данных Сбор данных Для анализа были использованы данные о всех землетрясениях, зарегистрированных в Геологической службе США с 24 января по 31 января 2013 г. Эти данные были взяты с сайта data.gov 31 января 2013 г. и обработаны с использованием языка программирования R. Исследовательский анализ  Поисковый анализ проводился путем анализа таблиц и графиков наблюдаемых данных.  Поисковый анализ был использован для (1) определения недостающих значений, (2)проверки качества данных и (3) определения терминов, используемых в регрессионной модели, связывающих магнитуду и глубину землетрясения. 43
  • 44. Data science & Data scientist. Некоторые источники ​Data Science (наука о данных) является развивающейся областью, которая была создана для удовлетворения потребностей бизнеса и организаций. ​Что такое наука о данных? ​http://radar.oreilly.com/2010/06/what-is-data-science.html​ Специалисты по науке данных имеют большое значение, потому что наука о данных - это будущее информационных технологий. http://gigaom.com/2013/01/06/why-data-scientists-matter-data-science-is-the-future- of-everything/ ​​ Зачем нанимают специалистов по науке данных? Более важный вопрос: следует ли вашей компании нанимать специалистов по науке данных? Чтобы ответить на этот вопрос, компании должны сначала рассмотреть, где специалисты по науке данных вписываются в организационную структуру, а также определить роль этого специалиста. Специалисты по науке данных: наиболее привлекательная работа 21 столетия. http://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ar/1 Специалисты по науке данных: определение привлекательности. http://www.forbes.com/sites/gilpress/2012/09/27/data-scientists-the-definition-of-sexy/​ Что такое специалист по науке данных. http://www-01.ibm.com/software/data/infosphere/data-scientist/ 44
  • 45. Как говорить на языке Data Science О Data Science, Big Data, Machine Learning сегодня не говорит только ленивый. В медиа и бизнес-среде часто многие понятия подменяются и появляется большое количество клише. В статье "How to speak Data Science" объясняется, что "в действительности" имеется в виду, когда люди говорят о Data Science. Далее представлен перевод перечисленных в статье терминов и фраз. Хорошего вам настроения в этот весенний день! "Data scientist" – среднего уровня программист, ищущий работу, где ему платили бы столько же, сколько платят высококлассному программисту. "Статистик" – математик, который не умеет программировать. "Ведущий Data Scientist" (Chief Data Scientist) – бывший главный инженер. "Data Scientist - самая привлекательная профессия 21-го века" – это утверждение очень распространено в индустрии Data Science, однако его истинность до сих пор не была подтверждена статистически. "Мы измеряем всё" – "Мы не имеем абсолютно никакого представления о том, что измерять." "Менеджер, хорошо разбирающийся в данных" – так описывают себя менеджеры из отделов маркетинга, продаж и кадровой службы, которые используют круговые диаграммы в своих PowerPoint-презентациях. 45 http://blog.datacamp.com/how-to-speak-data-science/
  • 46. Мнения Самыми перспективными кандидатами на освоение новой специальности окажутся студенты, магистранты и аспиранты с серьезной теоретической подготовкой, знаниями статистики, математики и способностью к решению сложных, нетипичных задач. При всей сложности подготовки, перспективы работы в этой области накануне «революции больших данных» действительно впечатляют. Помимо высоких заработков, революционеров 21 века ожидают захватывающие проекты и возможность принципиально изменить многие привычные способы производства, продаж и оказания услуг. 46