Ссылки в презентации:
Новейшая история России: https://russia.mail.ru/.
Как погибают американцы: http://www.bloomberg.com/graphics/dataview/how-americans-die/.
Портал открытых данных РФ: http://data.gov.ru/.
Открытые данные Минэкономразвития России: http://economy.gov.ru/wps/wcm/connect/economylib4/designElements/opendata/.
Портал открытых данных Правительства Москвы: http://data.mos.ru/.
Портал Организации Объединенных Наций: http://data.un.org/.
Портал Всемирной Организации Здравоохранения: http://www.who.int/gho/en/.
Портал Всемирного Банка: http://data.worldbank.org/.
Данные научных организаций: https://www.datacite.org/.
Amazon Public Data Sets: http://aws.amazon.com/ru/datasets/.
Google Public Data: http://www.google.com/publicdata/directory.
Quandl: https://www.quandl.com/.
Figshare: http://figshare.com/.
Google Trends: https://www.google.ru/trends/.
Google Books Ngram Viewer: https://books.google.com/ngrams/.
Import.io: https://www.import.io/.
Google Fusion Tables: https://support.google.com/fusiontables/answer/184641.
Plot.ly: https://plot.ly/.
IBM SPSS: http://www-01.ibm.com/software/ru/analytics/spss/.
R Studio: https://www.rstudio.com/.
Пособие по журналистике данных: http://ria.ru/files/book/_site/index.html.
Datadrivenjournalism.ru: http://www.datadrivenjournalism.ru/.
Datadrivenjournalism.net: http://datadrivenjournalism.net/.
School of data: http://schoolofdata.org/.
Катерина Пугачева, специалист по связям с общественностью ARTW на Specia Conf: контент-маркетинг, 29 марта 2016 года.
Зачем журналистика данных бизнесу.
Форматы, инструменты и источники данных.
Анализ данных.
Big Data - что это и с чем его "едят") Откуда взялся термин Big Data, какое содержание он в себе несет, и, есть ли будущее у тренда Big Data. Изучаем...
Adaptive learning does not make teachers out-of-date. The ways of development of adaptive technology in education are considered. The possibility of using the deep learning model in adaptive learning systems is indicated.
Ссылки в презентации:
Новейшая история России: https://russia.mail.ru/.
Как погибают американцы: http://www.bloomberg.com/graphics/dataview/how-americans-die/.
Портал открытых данных РФ: http://data.gov.ru/.
Открытые данные Минэкономразвития России: http://economy.gov.ru/wps/wcm/connect/economylib4/designElements/opendata/.
Портал открытых данных Правительства Москвы: http://data.mos.ru/.
Портал Организации Объединенных Наций: http://data.un.org/.
Портал Всемирной Организации Здравоохранения: http://www.who.int/gho/en/.
Портал Всемирного Банка: http://data.worldbank.org/.
Данные научных организаций: https://www.datacite.org/.
Amazon Public Data Sets: http://aws.amazon.com/ru/datasets/.
Google Public Data: http://www.google.com/publicdata/directory.
Quandl: https://www.quandl.com/.
Figshare: http://figshare.com/.
Google Trends: https://www.google.ru/trends/.
Google Books Ngram Viewer: https://books.google.com/ngrams/.
Import.io: https://www.import.io/.
Google Fusion Tables: https://support.google.com/fusiontables/answer/184641.
Plot.ly: https://plot.ly/.
IBM SPSS: http://www-01.ibm.com/software/ru/analytics/spss/.
R Studio: https://www.rstudio.com/.
Пособие по журналистике данных: http://ria.ru/files/book/_site/index.html.
Datadrivenjournalism.ru: http://www.datadrivenjournalism.ru/.
Datadrivenjournalism.net: http://datadrivenjournalism.net/.
School of data: http://schoolofdata.org/.
Катерина Пугачева, специалист по связям с общественностью ARTW на Specia Conf: контент-маркетинг, 29 марта 2016 года.
Зачем журналистика данных бизнесу.
Форматы, инструменты и источники данных.
Анализ данных.
Big Data - что это и с чем его "едят") Откуда взялся термин Big Data, какое содержание он в себе несет, и, есть ли будущее у тренда Big Data. Изучаем...
Adaptive learning does not make teachers out-of-date. The ways of development of adaptive technology in education are considered. The possibility of using the deep learning model in adaptive learning systems is indicated.
Презентация на XXVII Международной научно-практической конференции «Информационные технологии: наука, техника, технология, образование, здоровье» (MicroCAD-2019). 15-17 мая 2019 года, Харьков, Украина.
Американский предприниматель и гуру в области геймификации, Ю-кай Чоу, разработал структуру Octalysis (octagon+analysis), основой которой является анализ восьми основных факторов или ключевых побуждений (CD - core drive) мотивации человека выполнить некоторую работу. Тщательный разбор этих факторов и примеры их применения в качестве основных поведенческих стимулов Ю-кай Чоу осуществил в уроках по геймификации. Уроки поставлялись электронной почтой членам группы Octalysis Explorers Facebook осенью 2016 года, накануне всемирного конгресса по геймификации (GWC Conference 2016).
The document discusses using the GeoGebra mathematical software package in mathematics teaching. It presents 14 propositions about ellipses, hyperbolas, and parabolas. Students used GeoGebra's interactive features to construct the curves as loci of points and solve problems of varying complexity based on the propositions. This reinforced their understanding of concepts from the "Second-Order Curves" course material from sources like textbooks and papers.
2. Содержание
Определение термина “наука о
данных”, направление исследований
Язык программирования R, примеры
использования
Специалисты по науке о данных, их
подготовка
Специализация по науке о данных
◦ Список курсов
◦ Пример обработки данных
2
3. Определение термина
data science
Наука о данных (data science) занимается извлечением знаний из
данных.
Эта наука использует методы и теории, взятые из многих областей
математики, статистики и информационных технологий, включая
обработку сигналов,
вероятностные модели,
машинное обучение,
статистическое обучение,
компьютерное программирование,
инженерию данных,
распознавание образов и обучение,
визуализацию,
прогнозную аналитику,
моделирование неопределенности,
хранилища данных и
высокопроизводительные вычисления.
Она также охватывает интеллектуальную обработку данных и анализ
данных.
3
5. История возникновения термина
Термин был
предложен в 1974
году Петером
Науром, датским
учёным в области
информатики, одним
из пионеров
компьютерной науки.
Тогда data science
имела название
datalogy.
Петер Наур
5
6. Статистика = наука о данных?
Профессор университета
штата Мичиган Джефф Ву
в лекции (1997 год) под
названием "Статистика =
наука о данных?"
характеризует статистику
как трилогию из сбора
данных, моделирования и
анализа данных, и
принятия решений.
Именно Джефф Ву
является автором
термина "наука о
данных".
6
7. Рост объема данных
Взлёт интереса к науке о
данных относится к
появлению парадигмы
«больших данных»,
которая фокусируется на
новых технологических
возможностях обработки
данных больших объёмов
и разнообразия, в том
числе, за счёт применения
методов,
разрабатываемых в 2000-е
годы в науке о данных.
7
9. Где информация, которую мы
потеряли в потоках данных?
В мае 2010 г. были опубликованы результаты исследования
«Десятилетие цифровой Вселенной: готовы ли Вы?», в
котором оценивается общий объем цифровых данных в
мире.
Согласно отчету, в 2009 г. объем цифровых данных вырос
на 62 процента по сравнению с 2008 г. до 800 миллиардов
гигабайт или 0,8 зеттабайт.
Объем цифровых данных, созданных на начало 2010 г.
равен 1,2 зеттабайт.
К 2011 г. объем цифровых данных предполагался равным
1,8 зеттабайт.
Большая часть цифрового контента не уникальна – почти
75% всего объема цифрового мира являются копиями.
Where is the knowledge we have lost in information?
T.S. Eliot, "Choruses from 'The Rock'"
9
10. Прогноз роста данных
К 2020 г. количество данных вырастет 44-кратно,
в 35 триллионов гигабайт и достигнет 35
зеттабайт.
Точками роста данных, как прогнозируется,
будут являться все основные виды средств
массовой информации и коммуникации –ТВ,
радио, печать, интернет, мобильные сети.
Например, в 2008 г. компанией Google
зафиксирован 1 триллион уникальных URL-
адресов в Интернете. YouTube отмечает, что
каждую минуту на сайт загружается 24 часа
нового видео.
10
11. Журналы, конференции
В 2002 году Комитетом по данным для науки и техники начат
выпуск журналаCODATA Data Science Journal, содержащего в
названии наименование дисциплины, а в январе 2003 года
вышел первый номерThe Journal of Data Science Колумбийского
университета.
С 2011 года O’Reilly проводит серию крупных конференций по
науке о данных - Strata; корпорация EMC начиная с 2011 года
проводит ежегодной саммит по науке о данных.
11
O’Reilly Media — американская издательская компания, основанная ТимомО’Райли в
1978 году. Публикует книги компьютерной тематики.
EMC Corporation — американская компания, одна из крупнейших в мире корпораций на
рынке продуктов, услуг и решений для хранения и управления информацией.
13. Data science.
Направления исследований
Облачные вычисления
Базы данных и интеграция информации
Обработка сигналов
Обучение, обработка естественного языка и
извлечение информации
Компьютерное зрение
Информационный поиск
Обнаружение знаний в социальных и
информационных сетях
Визуализация информации
13
17. Язык программирования R
Свободно распространяемый язык
программирования R является в настоящее
время наиболее популярным статистическим
программным обеспечением.
Его используют более 2 миллионов аналитиков и
статистиков по всему миру, и рост числа
пользователей продолжается.
Согласно исследованиям Dice.com и O'Reilly,
специалистам, способным работать с R, готовы
платить очень высокие зарплаты, из чего
следует, что R приживается в бизнес-среде.
17
18. Интересное из мира R
(9-15 февраля 2015 года)
Каждые три месяца сайт githut.info обобщает информацию с
GitHub.com по интенсивности использования разных языков
программирования. По результатам последнего квартала 2014 г., R
оказался на 12 месте. Первые три места приходятся на JavaScript, Java
и Python.
Согласно объявлению, сделанному Х.Уикхэмом в официальном блоге
RStudio, компания Epoch.com (система онлайн-платежей) окажет
финансовую поддержку для дальнейшей разработки пакета RMySQL.
Т.Ша (Tarak Shah) из Калифорнийского университета в Беркли создал
пакет rcrunchbase, который позволяет делать запросы к CrunchBase -
самой крупной базе данных, содержащей профили стартап-компаний
со всего мира.
И.Кипнис в своем блоге QuantStratTradeR привел подробный пример
использования алгоритма PELT, предназначенного для обнаружения
"точек перелома" во временных рядах.
В Сети также появилась видеозапись презентации по Shiny, которую
Д.Ченг (Joe Cheng) из RStudio сделал в январе на одном из воркшопов
сообщества DataScience.
18
http://r-analytics.blogspot.ru/2015/02/r-9-15-2015.html#.VQGCNI6UfHU
19. Интересное из мира R
(27 апреля - 3 мая 2015 года)
В блоге "Язык R в финансах и экономике" И. Езепов
опубликовал перевод страницы Google's R Style, в которой
приводятся советы по оформлению скриптов, написанных на R.
А. Огурцов в блоге "Биостатистика и язык R" привел
подробный пример расчета оптимального объема выборок для
проведения исследований по установлению терапевтической
эквивалентности разных способов лечения.
На сайте soc-research.info С. Дембицкий привел пример функции,
позволяющей выполнять взвешивание данных при работе с
таблицами сопряженности.
На образовательном сайте Exponenta.ru появилось учебное пособие
"Язык R". Автор этой работы - Наиль Мусин, доцент факультета
информационных технологий Ун-та Российской академии
образования.
Новое издание книги "Статистический анализ и визуализация данных
с помощью R", в которой обобщаются материалы данного блога,
будет опубликовано в "бумажном варианте" издательством ДМК
Пресс (Москва). Рукопись уже передана в издательство.
19
21. Пример. Обнаружение знаний в
социальных и информационных сетях
Компании, основанные на социальных сетях, были одними из
первых, кто распознал ценность анализа своих богатых баз
данных для понимания поведения и потребностей пользователей
и улучшения соответствующих онлайн-платформ новыми
опциями.
Компания Facebook, которая ежедневно обрабатывает более 500
терабайт данных, использует R для понимания того, как
пользователи взаимодействуют с предоставляемыми сервисами.
Разведочный анализ данных помогает Facebook лучше понять,
что их пользователи делают в течение дня, и как популярные
мемы вирусно распространяются по социальной сети.
Визуализация данных - важная часть этой работы. Facebook
поделились своим опытом создания диаграмм при помощи R в
рамках онлайн-курса по разведочному анализу данных на сайте
Udacity, и даже использовали график, построенный при помощи
R, в документе, который описывал перспективы первичного
публичного размещения акций компании.
21
Интерне́т-мем (Internet meme) - название информации или фразы, которая приобрела
популярность в интернет-среде.
22. Пример. Data Journalism
Анализ данных становится все более важным также для средств
массовой информации - сектора, где наличие открытых
источников информации привело к возникновению
журналистики, основанной на данных (data journalism).
The NewYorkTimes были пионерами в этой области, использовав
R для создания интерактивных приложений для предсказания
результатов выборов в Сенат и определения места рождения
человека по его диалекту.
ЖурналTime также регулярно применяет R для более наглядного
изложения материала в статьях, тематика которых варьирует от
распределения благосостояния в США до обсуждения лучших
бейсбольных питчеров.
Возможности R для быстрого прототипирования означают, что
журналисты могут в считаные часы перейти от концепции к
полноценной иллюстрации - важное обстоятельство для
быстрого анализа срочных новостей.
22
Питчер в бейсболе - это игрок, который бросает мяч с питчерской горки к дому, где его
ловит кетчер и пытается отбить бьющий.
23. Профессия Data Scientist
McKinsey Global Institute в 2011 году спрогнозировал спрос в
США на 440- 490 тыс. новых специалистов с «глубокими
аналитическими навыками по работе с большими данными» к
2018 году и дефицит в 50 % - 60 % в таких специалистах при
сохранении образовательных трендов, в связи с этим прогнозом
во многом был подогрет интерес к созданию учебных программ.
McKinsey отмечают, что дополнительно понадобится обучать
миллионы менеджеров базовым навыкам работы с данными.
На сегодняшний день только треть спроса на data science
специалистов может быть удовлетворена.
Ненасыщенный рынок не может предоставить компаниям
квалифицированные кадры в области data mining или
прогнозной аналитики, что ведёт к росту спроса и зарплат.
Государственные и частные вузы не справляются с процессом
подготовки специалистов по работе с данными.
http://habrahabr.ru/company/airbnb/blog/237081/
23
27. Общий профиль
специалиста
Профиль специалиста по науке о
данных в меньшей степени
требует концентрации на
содержании предметных
областей, но требует более
глубоких знаний в
математической статистике,
машинном
обучении, программировании, и
в целом более высокого
образовательного уровня
(магистры, кандидаты
наук, Ph.D в сравнении
с бакалаврами и специалистами).
27
32. Подготовка кадров (USA)
С 2013 учебного года Университет Данди,
Оклендский университет, Университет Южной
Калифорнии запустили магистерские программы по
науке о данных, а бизнес-школа Имперского
колледжа Лондона - программу подготовки
«магистров наук по науке о данных и менеджменту»
(англ. MSc Data Science & Management).
В 2013году Вашингтонский университет,
Университет Калифорнии в Беркли и Нью-Йоркский
университет получили грант в размере $37,8 млн на
развитие науки о данных, в рамках которого в
течение пяти лет должны будут выстроены учебные
программы и созданы возможности для
академической карьеры в данной области.
32
Российский рынок data science отстает от других стран в среднем на 5 лет.
http://datareview.info/news/aleksandr-anikin-o-professii-data-scientist/
35. Университе́т Джо́нса Хо́пкинса
(Johns Hopkins University) -
частный исследовательский
университет, основанный 22
февраля 1876 года Джонсом
Хопкинсом в городе Балтимор,
штат Мэриленд, США.
Это событие было приурочено к
100-летнему юбилею
образованияСоединённых
Штатов и ко дню рождения
первого президента США
Джорджа Вашингтона.
35
36. Девиз университета:
лат.Veritas vos Liberabit,
англ.TheTruth Will SetYou Free,
рус. Истина сделает тебя свободным.
Миссия университета:
Поддержка исследований… помощь отдельным учёным, которые
продвигают различные направления науки и помогают обществу,
в котором они живут.
Целевой фонд университета составлял $ 2,99 млрд. в 2013 г.
В университете насчитывалось:
Бакалавров - 6 023;
Магистров и докторов - 14 848:
Преподавателей - 3 100.
Официальный сайт - www.jhu.edu
36
38. Список курсов из специализации
Data Science
The Data Scientist’s Toolbox - обзор различных инструментов
специалиста по анализу данных.
R Programming - основы работы с языком программирования R.
Getting and Cleaning Data - подготовка и обработка сырых входных
данных к дальнейшему анализу.
Exploratory Data Analysis - исследовательский анализ данных и
визуализация данных с помощью языка R.
Reproducible Research - анализ данных.
Statistical Inference - курс по основам статистики и теории
вероятностей.
Regression Models - регрессионный анализ.
Practical Machine Learning - основы машинного обучения.
Developing Data Products - разработка современных продуктов.
38
40. Этапы анализа
1. Формирование гипотезы;
2. Сбор данных;
3. Подготовка данных (фильтрация);
4. Выбор модели;
5. Подбор параметров модели и алгоритма обучения;
6. Обучение модели (автоматический поиск остальных
параметров модели);
7. Анализ качества обучения;
если неудовлетворительно - переход на п. 5 или п. 4;
8. Анализ выявленных закономерностей:
если неудовлетворительно - переход на п. 1, 4 или 5.
40
41. Пример. Землетрясения
Землетрясения являются стихийными бедствиями,
которые имеют серьезные экономические,
политические и медико-санитарные последствия.
Двумя переменными, которые играют ключевую
роль в определении воздействия землетрясения,
являются магнитуда землетрясения и его глубина.
Магнитуда землетрясения является мерой
количества энергии, которую высвобождает
землетрясение .
Глубина землетрясения - мера того, насколько
глубоко под поверхностью Земли произошло
землетрясение.
41
42. Пример. Методы исследования
Понимание отношения магнитуды землетрясения и глубины
может помочь охарактеризовать землетрясение и потенциальный
ущерб от него.
Анализ проводится для того, чтобы определить, есть ли
достоверная связь между магнитудой землетрясения и глубиной
землетрясения.
С использованием анализа данных и методов стандартного
регрессионного анализа можно показать, что существует
значительная связь между магнитудой и глубиной, даже с
поправкой на широту и долготу, на которой эти землетрясения
происходят.
Анализ выдвигает в качестве предположения, что увеличение
магнитуды землетрясения связано с увеличением глубины.
Результаты показывают, что существует относительно мало
землетрясений, которые имеют разрушительные характеристики
при больших магнитуде и небольшой глубине.
42
43. Пример. Сбор, подготовка и
обработка данных
Сбор данных
Для анализа были использованы данные о всех
землетрясениях, зарегистрированных в Геологической
службе США с 24 января по 31 января 2013 г. Эти данные
были взяты с сайта data.gov 31 января 2013 г. и обработаны
с использованием языка программирования R.
Исследовательский анализ
Поисковый анализ проводился путем анализа таблиц и
графиков наблюдаемых данных.
Поисковый анализ был использован для (1) определения
недостающих значений, (2)проверки качества данных и
(3) определения терминов, используемых в
регрессионной модели, связывающих магнитуду и
глубину землетрясения.
43
44. Data science & Data scientist.
Некоторые источники
Data Science (наука о данных) является развивающейся областью, которая была
создана для удовлетворения потребностей бизнеса и организаций.
Что такое наука о данных?
http://radar.oreilly.com/2010/06/what-is-data-science.html
Специалисты по науке данных имеют большое значение, потому что наука о данных
- это будущее информационных технологий.
http://gigaom.com/2013/01/06/why-data-scientists-matter-data-science-is-the-future-
of-everything/
Зачем нанимают специалистов по науке данных?
Более важный вопрос: следует ли вашей компании нанимать специалистов по науке
данных?
Чтобы ответить на этот вопрос, компании должны сначала рассмотреть, где
специалисты по науке данных вписываются в организационную структуру, а также
определить роль этого специалиста.
Специалисты по науке данных: наиболее привлекательная работа 21 столетия.
http://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ar/1
Специалисты по науке данных: определение привлекательности.
http://www.forbes.com/sites/gilpress/2012/09/27/data-scientists-the-definition-of-sexy/
Что такое специалист по науке данных.
http://www-01.ibm.com/software/data/infosphere/data-scientist/
44
45. Как говорить на языке
Data Science
О Data Science, Big Data, Machine Learning сегодня не говорит только ленивый.
В медиа и бизнес-среде часто многие понятия подменяются и появляется большое
количество клише.
В статье "How to speak Data Science" объясняется, что "в действительности" имеется в
виду, когда люди говорят о Data Science.
Далее представлен перевод перечисленных в статье терминов и фраз.
Хорошего вам настроения в этот весенний день!
"Data scientist" – среднего уровня программист, ищущий работу, где ему платили бы
столько же, сколько платят высококлассному программисту.
"Статистик" – математик, который не умеет программировать.
"Ведущий Data Scientist" (Chief Data Scientist) – бывший главный инженер.
"Data Scientist - самая привлекательная профессия 21-го века" – это утверждение
очень распространено в индустрии Data Science, однако его истинность до сих пор не
была подтверждена статистически.
"Мы измеряем всё" – "Мы не имеем абсолютно никакого представления о том, что
измерять."
"Менеджер, хорошо разбирающийся в данных" – так описывают себя менеджеры из
отделов маркетинга, продаж и кадровой службы, которые используют круговые
диаграммы в своих PowerPoint-презентациях.
45
http://blog.datacamp.com/how-to-speak-data-science/
46. Мнения
Самыми перспективными кандидатами на освоение новой
специальности окажутся студенты, магистранты и
аспиранты с серьезной теоретической подготовкой,
знаниями статистики, математики и способностью к
решению сложных, нетипичных задач.
При всей сложности подготовки, перспективы работы в
этой области накануне «революции больших данных»
действительно впечатляют.
Помимо высоких заработков, революционеров 21 века
ожидают захватывающие проекты и возможность
принципиально изменить многие привычные способы
производства, продаж и оказания услуг.
46