SlideShare a Scribd company logo
DATA SCIENCE
Azimiddin
Rakhmatov
Консультант ОБСЕ
Руководитель
RBC Group Solutions
В этой сессии
Определимся:
– что такое Big Data
– что такое Data Science
– кто такой Data Science
– что такое известное неизвестное и неизвестное
известное
погрузимся немного во внутренности Data Science
в конце посмотрим кейсы Data Science по борьбе с
бедностью
Человек на луне – 1969 год
Компьютерная программа:
Дата: 1969
Память: 64Кб, Оперативная память: 2Кб
Fortran
Должна работать с 1 раза!
Космический корабль: Аполлон 11
Скорость: 3 500 км/
Масса: 13,5 тонны
Большое количество данных
Человек на луне
Расстояние 356 000 км
Никогда ранее не был
Должен вернутся назад!
Apollo 11, 1969
Задача: доставить на
луну и вернуть
человека с луны
64 Кб
Dragon Crew SpaceX
Задача: доставить и
вернуть человека с
орбиты
x100 Гб
Big Data это не большой объем данных
всегда
не только
Что такое Big Data?
это чушь
Это новомодный термин используемый отдельными IT поставщиками
для продвижения старомодных программ и оборудования
(с) Carlos Somohano / Основатель школы Data Science London
Что такое Big Data?
Volume
Variety
Velocity
Veracity
V…Академическийответ
Что такое Big Data?
это движущая сила к изменению способа сбора, хранения,
управления, анализа и визуализации данных
(с) Carlos Somohano / Основатель школы Data Science London
Нефть
Big Data = Нефть (не новая нефть)
Представьте что Данные это Нефть.
Big Data это добыча нефти, ее транспортировка в
мега-танкерах и трубопроводах и хранение в
огромных нефтехранилищах.
Это все про Big Data, отлично!
НО…
Вы должны очистить сырую нефть
и тут на сцене появляется Data Science
Наука (Искусство) о данных
Выявление чего мы не знаем о данных
Достижение предиктивного, действенного понимая данных
Создание дата продукта полезного для бизнеса
Предоставление релевантных бизнес сценариев из данных
Поддержка принятия управленческих и бизнес решений
Краткая история Data Science
VI д.н.э, I н.э. – Греки. Пирронизм, Скептицизм, Эмпиризм…
1974 – Peter Naur @UoC Datalogy Data Science
2001 – William S. Cleveland @CSU Data Science: An Action Plan …
2002 – Committee on Data for Science Technology (CODATA)
2003 – Journal of Data Science
2009 – Jeff Hammerbacher @ Facebook What does a Data Scientist Do?
2010 – Drew Conway @NYU The Data Science Venn Diagram
2010 – Hillary Mason Chris Wiggins @Dataists “
2010 – Mike Loukadis @O’Reilly “What is Data Science?”
2011 – DJ Patil @LinkedIn data scientist vs. data analyst
Data Science
Кто такой Data Scientist?
Утконос (Ornithorhynchus anatinus)
Data Scientist (Data Scientistium)
(с) Josh Wills 2012
Homo Data Scientistium
Скептичный,
Любознательный,
Характер нордический, выдержанный.
Знает машинное обучение, статистику, теорию
вероятностей.
Экспериментатор.
Умеет применять нестандартные хакерские
подходы в решении задач.
Умеет иметь дело с ИТ-инжинирингом данных.
Знает, как создавать продукты данных. Умеет
находить ответы на известные неизвестные.
Инструменты DS
• Java, R, Python… (bonus: Clojure, Haskell, Scala)
• Hadoop, HDFS MapReduce… (bonus: Spark, Storm)
• HBase, Pig Hive… (bonus: Shark, Impala, Cascalog)
• ETL, Webscrapers, Flume, Sqoop… (bonus: Hume)
• SQL, RDBMS, DW, OLAP…
• Knime, Weka, RapidMiner…(bonus: SciPy, NumPy, scikit-learn,
pandas)
• D3.js, Gephi, ggplot2, Tableau, Flare, Shiny… SPSS, Matlab,
SAS…
• NoSQL, Mongo DB, Couchbase, Cassandra…
• And Yes! … MS-Excel: the most used, most underrated DS tool
10 вещей обязательных для DS
1 Задавать хорошие вопросы.
– Что есть что… …
– мы не знаем? ...
– мы хотели бы знать?
2 Придумывать и проверять гипотезы путем экспериментов
3 Определять и очищать актуальные данные для бизнеса
4 Структурировать и укрощать данные
5 Изучать и исследовать данные, играть с ними. Открывать
неизведанное.
6 Модели данных и алгоритмические модели
7 Понимать взаимосвязи данных
8 Обучать машину понимать данные
9 Создавать жизненные продукты данные
10 Извлекать бизнес кейсы из данных
DIKUW
Модели данных и алгоритмические
модели
Модель данных
Алгоритмическая
модель
Y  f( X, случайные
помехи, параметры)
Y  [черный ящик]
X
У нас есть понимание мира
Мы знаем как работает наша модель данных
Линейная регрессия
Логическая регрессия
Распределения
Доверительные интервалы
Независимые переменные и их применимость к модели
У нас нет понимания мира
Мир генерирует данные в черном ящике
Data Scientist
ML & AI и нейронные сети
Случайный лес, Опорные векторы,
Неизвестное мульти вариативные распределения
Итеративы
Достоверные прогнозы
Методология DS 1
Методология DS 2
Данные как продукт
…Созданный из необработанных данных
... Результат исследования и итераций
... Машина, обучаемая на данных
... Ответы на известные неизвестные или неизвестные неизвестные
… Механизм, который предоставляет непосредственную ценность для бизнеса
… Определяет вероятностное окно будущих событий
DS Борьба с бедностью – кейс 1
Определение бедности на основе данных мобильной связи
http://www.washington.edu/news/2015/11/30/uw-researchers-estimate-
poverty-and-wealth-from-cell-phone-metadata/
Индикаторы:
По сумме оплат за телефон (те, кто покупает на 10 долларов
больше времени, обычно богаче тех, кто покупает 50 центов
времени)
Ежедневный ритм звонков - звонки в дневное рабочее время
систематически отличаются от неругулярных звонков, возможно,
потому, что они, скорее всего экономически заняты.
Степень, с которой человек может сделать больше, чем принимать
телефонные звонки. Это также отражает явление, называемое
«звонок ташладим», когда более бедный человек звонит более
состоятельному другу и быстро кладет трубку, посылая сигнал, что
ему следует перезвонить.
DS Борьба с бедностью – кейс 2
Выявление бедности:
посредством анализа спутниковых снимков ночного освещения
Имеется прямая связь между ночным
освещением и благосостоянием проживающим
в данном районе населением.
http://www.jblumenstock.com/files/papers/jbl
umenstock_2016_science.pdf
DS Борьба с бедностью
World Bank Pover-T Tests challenge
https://www.drivendata.org/competitions/50/worldbank-poverty-prediction/
Исходники в git
https://github.com/drivendataorg/pover-t-
tests/tree/9a1918856c5e6ee537caed103eb80dabefb2fe44
https://datahack.analyticsvidhya.com/contest/
all/
Посмотрите хакатоны здесь
(есть очень интересные темы):
Спасибо за время

More Related Content

Similar to Data science

А.Левенчук -- лекция о будущем (2014)
А.Левенчук -- лекция о будущем (2014)А.Левенчук -- лекция о будущем (2014)
А.Левенчук -- лекция о будущем (2014)
Anatoly Levenchuk
 
Искусственный интеллект. Революция в машинном обучении.
Искусственный интеллект. Революция в машинном обучении.Искусственный интеллект. Революция в машинном обучении.
Искусственный интеллект. Революция в машинном обучении.
Molinos
 
Взгляд на Data Science
Взгляд на Data ScienceВзгляд на Data Science
Взгляд на Data Science
Андрей Морозов
 
Выступление на Solit-2013
Выступление на Solit-2013Выступление на Solit-2013
Выступление на Solit-2013
ushchent
 
Данные в образовательной деятельности. Петряева ЕЮ
Данные в образовательной деятельности. Петряева ЕЮДанные в образовательной деятельности. Петряева ЕЮ
Данные в образовательной деятельности. Петряева ЕЮ
The Eureka Innovative Educational Network
 
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.
Anton Konushin
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Provectus
 
Сторителлинг и проективные тесты для выявления и валидации требований
Сторителлинг и проективные тесты для выявления и валидации требованийСторителлинг и проективные тесты для выявления и валидации требований
Сторителлинг и проективные тесты для выявления и валидации требований
SQALab
 
Trend review 2016
Trend review 2016Trend review 2016
Trend review 2016
Red Keds
 
А.Левенчук -- будущее науки
А.Левенчук -- будущее наукиА.Левенчук -- будущее науки
А.Левенчук -- будущее науки
Anatoly Levenchuk
 
F+ presentation public
F+ presentation publicF+ presentation public
F+ presentation public
Sergiy Gladkyy
 
BIG DATA: your personal information that everyone needs
BIG DATA: your personal information that everyone needsBIG DATA: your personal information that everyone needs
BIG DATA: your personal information that everyone needs
Georgy Slugin
 
Natural rights and AI 2019
Natural rights and AI 2019Natural rights and AI 2019
Natural rights and AI 2019
Vladislav Shershulsky
 
Нейронные сетки: покруче интернета
Нейронные сетки: покруче интернетаНейронные сетки: покруче интернета
Нейронные сетки: покруче интернета
Anatoly Levenchuk
 
ЛюдиVs Алгоритмы: Доклад Кутьина В.М. - 11 декабря 2015 г
ЛюдиVs Алгоритмы:  Доклад Кутьина В.М. - 11 декабря 2015 гЛюдиVs Алгоритмы:  Доклад Кутьина В.М. - 11 декабря 2015 г
ЛюдиVs Алгоритмы: Доклад Кутьина В.М. - 11 декабря 2015 г
Red Apple International Advertising Festival
 
Андрей Алексеев. Комплексный тест Тьюринга: робототехнические приложения
Андрей Алексеев. Комплексный тест Тьюринга: робототехнические приложенияАндрей Алексеев. Комплексный тест Тьюринга: робототехнические приложения
Андрей Алексеев. Комплексный тест Тьюринга: робототехнические приложения
Skolkovo Robotics Center
 
Искусственный интеллект: прошлое, настоящее и будущее
Искусственный интеллект: прошлое, настоящее и будущееИскусственный интеллект: прошлое, настоящее и будущее
Искусственный интеллект: прошлое, настоящее и будущее
Illia Polosukhin
 
Машинное обучение в гидрологии (Георгий Айзель, ИВП РАН)
Машинное обучение в гидрологии (Георгий Айзель, ИВП РАН)Машинное обучение в гидрологии (Георгий Айзель, ИВП РАН)
Машинное обучение в гидрологии (Георгий Айзель, ИВП РАН)
Georgy Ayzel
 
Машинное обучение в гидрологии (Г.В. Айзель)
Машинное обучение в гидрологии (Г.В. Айзель)Машинное обучение в гидрологии (Г.В. Айзель)
Машинное обучение в гидрологии (Г.В. Айзель)
Institute of Water Problems of Russian Academy of Sciences
 

Similar to Data science (20)

А.Левенчук -- лекция о будущем (2014)
А.Левенчук -- лекция о будущем (2014)А.Левенчук -- лекция о будущем (2014)
А.Левенчук -- лекция о будущем (2014)
 
Искусственный интеллект. Революция в машинном обучении.
Искусственный интеллект. Революция в машинном обучении.Искусственный интеллект. Революция в машинном обучении.
Искусственный интеллект. Революция в машинном обучении.
 
Взгляд на Data Science
Взгляд на Data ScienceВзгляд на Data Science
Взгляд на Data Science
 
Выступление на Solit-2013
Выступление на Solit-2013Выступление на Solit-2013
Выступление на Solit-2013
 
Данные в образовательной деятельности. Петряева ЕЮ
Данные в образовательной деятельности. Петряева ЕЮДанные в образовательной деятельности. Петряева ЕЮ
Данные в образовательной деятельности. Петряева ЕЮ
 
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Сторителлинг и проективные тесты для выявления и валидации требований
Сторителлинг и проективные тесты для выявления и валидации требованийСторителлинг и проективные тесты для выявления и валидации требований
Сторителлинг и проективные тесты для выявления и валидации требований
 
Trend review 2016
Trend review 2016Trend review 2016
Trend review 2016
 
Stolyarevska_data_scientist
Stolyarevska_data_scientistStolyarevska_data_scientist
Stolyarevska_data_scientist
 
А.Левенчук -- будущее науки
А.Левенчук -- будущее наукиА.Левенчук -- будущее науки
А.Левенчук -- будущее науки
 
F+ presentation public
F+ presentation publicF+ presentation public
F+ presentation public
 
BIG DATA: your personal information that everyone needs
BIG DATA: your personal information that everyone needsBIG DATA: your personal information that everyone needs
BIG DATA: your personal information that everyone needs
 
Natural rights and AI 2019
Natural rights and AI 2019Natural rights and AI 2019
Natural rights and AI 2019
 
Нейронные сетки: покруче интернета
Нейронные сетки: покруче интернетаНейронные сетки: покруче интернета
Нейронные сетки: покруче интернета
 
ЛюдиVs Алгоритмы: Доклад Кутьина В.М. - 11 декабря 2015 г
ЛюдиVs Алгоритмы:  Доклад Кутьина В.М. - 11 декабря 2015 гЛюдиVs Алгоритмы:  Доклад Кутьина В.М. - 11 декабря 2015 г
ЛюдиVs Алгоритмы: Доклад Кутьина В.М. - 11 декабря 2015 г
 
Андрей Алексеев. Комплексный тест Тьюринга: робототехнические приложения
Андрей Алексеев. Комплексный тест Тьюринга: робототехнические приложенияАндрей Алексеев. Комплексный тест Тьюринга: робототехнические приложения
Андрей Алексеев. Комплексный тест Тьюринга: робототехнические приложения
 
Искусственный интеллект: прошлое, настоящее и будущее
Искусственный интеллект: прошлое, настоящее и будущееИскусственный интеллект: прошлое, настоящее и будущее
Искусственный интеллект: прошлое, настоящее и будущее
 
Машинное обучение в гидрологии (Георгий Айзель, ИВП РАН)
Машинное обучение в гидрологии (Георгий Айзель, ИВП РАН)Машинное обучение в гидрологии (Георгий Айзель, ИВП РАН)
Машинное обучение в гидрологии (Георгий Айзель, ИВП РАН)
 
Машинное обучение в гидрологии (Г.В. Айзель)
Машинное обучение в гидрологии (Г.В. Айзель)Машинное обучение в гидрологии (Г.В. Айзель)
Машинное обучение в гидрологии (Г.В. Айзель)
 

Data science

  • 3. В этой сессии Определимся: – что такое Big Data – что такое Data Science – кто такой Data Science – что такое известное неизвестное и неизвестное известное погрузимся немного во внутренности Data Science в конце посмотрим кейсы Data Science по борьбе с бедностью
  • 4. Человек на луне – 1969 год Компьютерная программа: Дата: 1969 Память: 64Кб, Оперативная память: 2Кб Fortran Должна работать с 1 раза! Космический корабль: Аполлон 11 Скорость: 3 500 км/ Масса: 13,5 тонны Большое количество данных Человек на луне Расстояние 356 000 км Никогда ранее не был Должен вернутся назад!
  • 5. Apollo 11, 1969 Задача: доставить на луну и вернуть человека с луны 64 Кб Dragon Crew SpaceX Задача: доставить и вернуть человека с орбиты x100 Гб
  • 6. Big Data это не большой объем данных всегда не только
  • 7. Что такое Big Data? это чушь Это новомодный термин используемый отдельными IT поставщиками для продвижения старомодных программ и оборудования (с) Carlos Somohano / Основатель школы Data Science London
  • 8. Что такое Big Data? Volume Variety Velocity Veracity V…Академическийответ
  • 9. Что такое Big Data? это движущая сила к изменению способа сбора, хранения, управления, анализа и визуализации данных (с) Carlos Somohano / Основатель школы Data Science London
  • 11. Big Data = Нефть (не новая нефть) Представьте что Данные это Нефть. Big Data это добыча нефти, ее транспортировка в мега-танкерах и трубопроводах и хранение в огромных нефтехранилищах. Это все про Big Data, отлично! НО…
  • 12. Вы должны очистить сырую нефть и тут на сцене появляется Data Science
  • 13. Наука (Искусство) о данных Выявление чего мы не знаем о данных Достижение предиктивного, действенного понимая данных Создание дата продукта полезного для бизнеса Предоставление релевантных бизнес сценариев из данных Поддержка принятия управленческих и бизнес решений
  • 14. Краткая история Data Science VI д.н.э, I н.э. – Греки. Пирронизм, Скептицизм, Эмпиризм… 1974 – Peter Naur @UoC Datalogy Data Science 2001 – William S. Cleveland @CSU Data Science: An Action Plan … 2002 – Committee on Data for Science Technology (CODATA) 2003 – Journal of Data Science 2009 – Jeff Hammerbacher @ Facebook What does a Data Scientist Do? 2010 – Drew Conway @NYU The Data Science Venn Diagram 2010 – Hillary Mason Chris Wiggins @Dataists “ 2010 – Mike Loukadis @O’Reilly “What is Data Science?” 2011 – DJ Patil @LinkedIn data scientist vs. data analyst
  • 18. Data Scientist (Data Scientistium)
  • 20.
  • 21. Homo Data Scientistium Скептичный, Любознательный, Характер нордический, выдержанный. Знает машинное обучение, статистику, теорию вероятностей. Экспериментатор. Умеет применять нестандартные хакерские подходы в решении задач. Умеет иметь дело с ИТ-инжинирингом данных. Знает, как создавать продукты данных. Умеет находить ответы на известные неизвестные.
  • 22.
  • 23. Инструменты DS • Java, R, Python… (bonus: Clojure, Haskell, Scala) • Hadoop, HDFS MapReduce… (bonus: Spark, Storm) • HBase, Pig Hive… (bonus: Shark, Impala, Cascalog) • ETL, Webscrapers, Flume, Sqoop… (bonus: Hume) • SQL, RDBMS, DW, OLAP… • Knime, Weka, RapidMiner…(bonus: SciPy, NumPy, scikit-learn, pandas) • D3.js, Gephi, ggplot2, Tableau, Flare, Shiny… SPSS, Matlab, SAS… • NoSQL, Mongo DB, Couchbase, Cassandra… • And Yes! … MS-Excel: the most used, most underrated DS tool
  • 24. 10 вещей обязательных для DS 1 Задавать хорошие вопросы. – Что есть что… … – мы не знаем? ... – мы хотели бы знать? 2 Придумывать и проверять гипотезы путем экспериментов 3 Определять и очищать актуальные данные для бизнеса 4 Структурировать и укрощать данные 5 Изучать и исследовать данные, играть с ними. Открывать неизведанное. 6 Модели данных и алгоритмические модели 7 Понимать взаимосвязи данных 8 Обучать машину понимать данные 9 Создавать жизненные продукты данные 10 Извлекать бизнес кейсы из данных
  • 25. DIKUW
  • 26. Модели данных и алгоритмические модели Модель данных Алгоритмическая модель Y  f( X, случайные помехи, параметры) Y  [черный ящик] X У нас есть понимание мира Мы знаем как работает наша модель данных Линейная регрессия Логическая регрессия Распределения Доверительные интервалы Независимые переменные и их применимость к модели У нас нет понимания мира Мир генерирует данные в черном ящике Data Scientist ML & AI и нейронные сети Случайный лес, Опорные векторы, Неизвестное мульти вариативные распределения Итеративы Достоверные прогнозы
  • 29. Данные как продукт …Созданный из необработанных данных ... Результат исследования и итераций ... Машина, обучаемая на данных ... Ответы на известные неизвестные или неизвестные неизвестные … Механизм, который предоставляет непосредственную ценность для бизнеса … Определяет вероятностное окно будущих событий
  • 30. DS Борьба с бедностью – кейс 1 Определение бедности на основе данных мобильной связи http://www.washington.edu/news/2015/11/30/uw-researchers-estimate- poverty-and-wealth-from-cell-phone-metadata/ Индикаторы: По сумме оплат за телефон (те, кто покупает на 10 долларов больше времени, обычно богаче тех, кто покупает 50 центов времени) Ежедневный ритм звонков - звонки в дневное рабочее время систематически отличаются от неругулярных звонков, возможно, потому, что они, скорее всего экономически заняты. Степень, с которой человек может сделать больше, чем принимать телефонные звонки. Это также отражает явление, называемое «звонок ташладим», когда более бедный человек звонит более состоятельному другу и быстро кладет трубку, посылая сигнал, что ему следует перезвонить.
  • 31. DS Борьба с бедностью – кейс 2 Выявление бедности: посредством анализа спутниковых снимков ночного освещения Имеется прямая связь между ночным освещением и благосостоянием проживающим в данном районе населением. http://www.jblumenstock.com/files/papers/jbl umenstock_2016_science.pdf
  • 32. DS Борьба с бедностью World Bank Pover-T Tests challenge https://www.drivendata.org/competitions/50/worldbank-poverty-prediction/ Исходники в git https://github.com/drivendataorg/pover-t- tests/tree/9a1918856c5e6ee537caed103eb80dabefb2fe44 https://datahack.analyticsvidhya.com/contest/ all/ Посмотрите хакатоны здесь (есть очень интересные темы):