Data Science и Cognitive Science, алгоритмы и психология: четвертая промышлен...Tech Talks @NSU
25 марта 2016
Data Science и Cognitive Science, алгоритмы и психология: четвертая промышленная революция
Андрей Себрант, Яндекс
В чем состоит уникальное отличие Data Science от других наук? Почему для человечества важно, чтобы компьютер научился хорошо играть в го? Нужно ли быть носителем интеллекта, чтобы заниматься интеллектуальным трудом? Ответы на эти вопросы оказываются тесно связаны между собой, и объединяют их резко изменившиеся буквально за последние несколько лет Computer и Data Science. Из этих ответов вытекает и очень прикладное знание: каким специальностям и навыкам уже поздно и бесполезно учиться – а какие умения, наоборот, обещают успешную карьеру. Обо всем этом – с картинками и примерами – мы и поговорим.
Андрей Себрант – директор по маркетингу сервисов Яндекса, кандидат физико-математических наук, автор более 60 научных работ, бессменный главный редактор профессионального журнала «Интернет-маркетинг» с момента его создания в 2001 году, а также автор большого числа публикаций и докладов по интерактивному маркетингу. Регулярно читает лекции на эту тему студентам различных бизнес-школ Москвы. В Яндексе работает с 2004 года.
На встрече также можно будет задать свои вопросы про поступление в Школу анализа данных куратору ШАД в Новосибирске.
Solit 2013, Открытые данные. Как использовать их капитал, Медвецкий Алексейsolit
Алексей Медвецкий. Журналист. Ведёт блог Opendata.by.
«Открытые данные. Как использовать их капитал». IT секция.
Рассказ о движении за раскрытие государственных данных в мире и в Беларуси. Презентация проекта на основе открытых данных по государственным наградам Беларуси, над которым сейчас работает Алексей.
Data Science и Cognitive Science, алгоритмы и психология: четвертая промышлен...Tech Talks @NSU
25 марта 2016
Data Science и Cognitive Science, алгоритмы и психология: четвертая промышленная революция
Андрей Себрант, Яндекс
В чем состоит уникальное отличие Data Science от других наук? Почему для человечества важно, чтобы компьютер научился хорошо играть в го? Нужно ли быть носителем интеллекта, чтобы заниматься интеллектуальным трудом? Ответы на эти вопросы оказываются тесно связаны между собой, и объединяют их резко изменившиеся буквально за последние несколько лет Computer и Data Science. Из этих ответов вытекает и очень прикладное знание: каким специальностям и навыкам уже поздно и бесполезно учиться – а какие умения, наоборот, обещают успешную карьеру. Обо всем этом – с картинками и примерами – мы и поговорим.
Андрей Себрант – директор по маркетингу сервисов Яндекса, кандидат физико-математических наук, автор более 60 научных работ, бессменный главный редактор профессионального журнала «Интернет-маркетинг» с момента его создания в 2001 году, а также автор большого числа публикаций и докладов по интерактивному маркетингу. Регулярно читает лекции на эту тему студентам различных бизнес-школ Москвы. В Яндексе работает с 2004 года.
На встрече также можно будет задать свои вопросы про поступление в Школу анализа данных куратору ШАД в Новосибирске.
Solit 2013, Открытые данные. Как использовать их капитал, Медвецкий Алексейsolit
Алексей Медвецкий. Журналист. Ведёт блог Opendata.by.
«Открытые данные. Как использовать их капитал». IT секция.
Рассказ о движении за раскрытие государственных данных в мире и в Беларуси. Презентация проекта на основе открытых данных по государственным наградам Беларуси, над которым сейчас работает Алексей.
Искусственный интеллект. Революция в машинном обучении.Molinos
О дивный новый мир: революция в машинном обучении
— три источника и три составных части современных систем ИИ: стечение каких обстоятельств вызвало новую революции в машинном обучении?
— технологический рог изобилия: краткий обзор достижений последней пятилетки — конкретные проекты и решения;
— disrupt, disrupt, disrupt: как внедрение новых технологий машинного обучения изменит мир бизнеса?
Спикер: Сергей Марков.
ООО «АктивБизнесКоллекшн» (группа Сбербанк), директор по ИТ. Специалист по ИИ и машинному обучению, основатель научно-просветительского портала 22century.ru.
Конференция Серебряный Меркурий, секция Digital.
О современном состоянии дел в Data Science (в Украине и в мире). О задачах, которые решают специалисты по анализу данных и планах ЖГТУ по подготовке таких специалистов.
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.Anton Konushin
Курс "Введение в компьютерное зрение", читаемый на
ВМК МГУ имени М.В. Ломоносова в весеннем семестре 2015 года. Лектор - Конушин Антон. Лекция 1. Темы - понятие о компьютерном зрение, сложности, связь с искусственным интеллектом. История и достижения компьютерного зрения. Свет и цвет, модели цвета, цифровое изображение.
Ethics of AI. What can and should be the Artificial Intelligence legal regime. How to ensure its responsible development and use. Whether it needs rights. How it will affect our rights.
Компьютерные алгоритмы сегодня – это не просто софт, написанный программистом. Это сложная система, которая способна самообучаться (deep learning) и ряд экспертов утверждает, что этот процесс не поддается контролю со стороны человека. На сегодняшний день алгоритмы научились многому, что раньше умел только человек. Наверное, можно утверждать, что будущее уже наступило. Почти каждый день мы видим новости вроде «программа за три дня научилась играть в шахматы на уровне гроссмейстера», «компьютер научился рисовать картины в стиле Ван Гога и сочинять музыку как Моцарт», «искусственный интеллект научился писать рассказы», «на дорогах общего пользования появились беспилотные автомобили» и т.д.
В рамках дискуссии, в которой участвуют как гуманитарии, так и эксперты в области Data Science, поговорим о том, насколько человек в принципе может контролировать «самоятотельность» алгоритмов, а также о том, есть ли что-то в творчестве, чего не сможет сделать алгоритм?
Искусственный интеллект. Революция в машинном обучении.Molinos
О дивный новый мир: революция в машинном обучении
— три источника и три составных части современных систем ИИ: стечение каких обстоятельств вызвало новую революции в машинном обучении?
— технологический рог изобилия: краткий обзор достижений последней пятилетки — конкретные проекты и решения;
— disrupt, disrupt, disrupt: как внедрение новых технологий машинного обучения изменит мир бизнеса?
Спикер: Сергей Марков.
ООО «АктивБизнесКоллекшн» (группа Сбербанк), директор по ИТ. Специалист по ИИ и машинному обучению, основатель научно-просветительского портала 22century.ru.
Конференция Серебряный Меркурий, секция Digital.
О современном состоянии дел в Data Science (в Украине и в мире). О задачах, которые решают специалисты по анализу данных и планах ЖГТУ по подготовке таких специалистов.
CV2015. Лекция 1. Понятия и история компьютерного зрения. Свет и цвет.Anton Konushin
Курс "Введение в компьютерное зрение", читаемый на
ВМК МГУ имени М.В. Ломоносова в весеннем семестре 2015 года. Лектор - Конушин Антон. Лекция 1. Темы - понятие о компьютерном зрение, сложности, связь с искусственным интеллектом. История и достижения компьютерного зрения. Свет и цвет, модели цвета, цифровое изображение.
Ethics of AI. What can and should be the Artificial Intelligence legal regime. How to ensure its responsible development and use. Whether it needs rights. How it will affect our rights.
Компьютерные алгоритмы сегодня – это не просто софт, написанный программистом. Это сложная система, которая способна самообучаться (deep learning) и ряд экспертов утверждает, что этот процесс не поддается контролю со стороны человека. На сегодняшний день алгоритмы научились многому, что раньше умел только человек. Наверное, можно утверждать, что будущее уже наступило. Почти каждый день мы видим новости вроде «программа за три дня научилась играть в шахматы на уровне гроссмейстера», «компьютер научился рисовать картины в стиле Ван Гога и сочинять музыку как Моцарт», «искусственный интеллект научился писать рассказы», «на дорогах общего пользования появились беспилотные автомобили» и т.д.
В рамках дискуссии, в которой участвуют как гуманитарии, так и эксперты в области Data Science, поговорим о том, насколько человек в принципе может контролировать «самоятотельность» алгоритмов, а также о том, есть ли что-то в творчестве, чего не сможет сделать алгоритм?
3. В этой сессии
Определимся:
– что такое Big Data
– что такое Data Science
– кто такой Data Science
– что такое известное неизвестное и неизвестное
известное
погрузимся немного во внутренности Data Science
в конце посмотрим кейсы Data Science по борьбе с
бедностью
4. Человек на луне – 1969 год
Компьютерная программа:
Дата: 1969
Память: 64Кб, Оперативная память: 2Кб
Fortran
Должна работать с 1 раза!
Космический корабль: Аполлон 11
Скорость: 3 500 км/
Масса: 13,5 тонны
Большое количество данных
Человек на луне
Расстояние 356 000 км
Никогда ранее не был
Должен вернутся назад!
5. Apollo 11, 1969
Задача: доставить на
луну и вернуть
человека с луны
64 Кб
Dragon Crew SpaceX
Задача: доставить и
вернуть человека с
орбиты
x100 Гб
6. Big Data это не большой объем данных
всегда
не только
7. Что такое Big Data?
это чушь
Это новомодный термин используемый отдельными IT поставщиками
для продвижения старомодных программ и оборудования
(с) Carlos Somohano / Основатель школы Data Science London
8. Что такое Big Data?
Volume
Variety
Velocity
Veracity
V…Академическийответ
9. Что такое Big Data?
это движущая сила к изменению способа сбора, хранения,
управления, анализа и визуализации данных
(с) Carlos Somohano / Основатель школы Data Science London
11. Big Data = Нефть (не новая нефть)
Представьте что Данные это Нефть.
Big Data это добыча нефти, ее транспортировка в
мега-танкерах и трубопроводах и хранение в
огромных нефтехранилищах.
Это все про Big Data, отлично!
НО…
13. Наука (Искусство) о данных
Выявление чего мы не знаем о данных
Достижение предиктивного, действенного понимая данных
Создание дата продукта полезного для бизнеса
Предоставление релевантных бизнес сценариев из данных
Поддержка принятия управленческих и бизнес решений
14. Краткая история Data Science
VI д.н.э, I н.э. – Греки. Пирронизм, Скептицизм, Эмпиризм…
1974 – Peter Naur @UoC Datalogy Data Science
2001 – William S. Cleveland @CSU Data Science: An Action Plan …
2002 – Committee on Data for Science Technology (CODATA)
2003 – Journal of Data Science
2009 – Jeff Hammerbacher @ Facebook What does a Data Scientist Do?
2010 – Drew Conway @NYU The Data Science Venn Diagram
2010 – Hillary Mason Chris Wiggins @Dataists “
2010 – Mike Loukadis @O’Reilly “What is Data Science?”
2011 – DJ Patil @LinkedIn data scientist vs. data analyst
21. Homo Data Scientistium
Скептичный,
Любознательный,
Характер нордический, выдержанный.
Знает машинное обучение, статистику, теорию
вероятностей.
Экспериментатор.
Умеет применять нестандартные хакерские
подходы в решении задач.
Умеет иметь дело с ИТ-инжинирингом данных.
Знает, как создавать продукты данных. Умеет
находить ответы на известные неизвестные.
24. 10 вещей обязательных для DS
1 Задавать хорошие вопросы.
– Что есть что… …
– мы не знаем? ...
– мы хотели бы знать?
2 Придумывать и проверять гипотезы путем экспериментов
3 Определять и очищать актуальные данные для бизнеса
4 Структурировать и укрощать данные
5 Изучать и исследовать данные, играть с ними. Открывать
неизведанное.
6 Модели данных и алгоритмические модели
7 Понимать взаимосвязи данных
8 Обучать машину понимать данные
9 Создавать жизненные продукты данные
10 Извлекать бизнес кейсы из данных
26. Модели данных и алгоритмические
модели
Модель данных
Алгоритмическая
модель
Y f( X, случайные
помехи, параметры)
Y [черный ящик]
X
У нас есть понимание мира
Мы знаем как работает наша модель данных
Линейная регрессия
Логическая регрессия
Распределения
Доверительные интервалы
Независимые переменные и их применимость к модели
У нас нет понимания мира
Мир генерирует данные в черном ящике
Data Scientist
ML & AI и нейронные сети
Случайный лес, Опорные векторы,
Неизвестное мульти вариативные распределения
Итеративы
Достоверные прогнозы
29. Данные как продукт
…Созданный из необработанных данных
... Результат исследования и итераций
... Машина, обучаемая на данных
... Ответы на известные неизвестные или неизвестные неизвестные
… Механизм, который предоставляет непосредственную ценность для бизнеса
… Определяет вероятностное окно будущих событий
30. DS Борьба с бедностью – кейс 1
Определение бедности на основе данных мобильной связи
http://www.washington.edu/news/2015/11/30/uw-researchers-estimate-
poverty-and-wealth-from-cell-phone-metadata/
Индикаторы:
По сумме оплат за телефон (те, кто покупает на 10 долларов
больше времени, обычно богаче тех, кто покупает 50 центов
времени)
Ежедневный ритм звонков - звонки в дневное рабочее время
систематически отличаются от неругулярных звонков, возможно,
потому, что они, скорее всего экономически заняты.
Степень, с которой человек может сделать больше, чем принимать
телефонные звонки. Это также отражает явление, называемое
«звонок ташладим», когда более бедный человек звонит более
состоятельному другу и быстро кладет трубку, посылая сигнал, что
ему следует перезвонить.
31. DS Борьба с бедностью – кейс 2
Выявление бедности:
посредством анализа спутниковых снимков ночного освещения
Имеется прямая связь между ночным
освещением и благосостоянием проживающим
в данном районе населением.
http://www.jblumenstock.com/files/papers/jbl
umenstock_2016_science.pdf
32. DS Борьба с бедностью
World Bank Pover-T Tests challenge
https://www.drivendata.org/competitions/50/worldbank-poverty-prediction/
Исходники в git
https://github.com/drivendataorg/pover-t-
tests/tree/9a1918856c5e6ee537caed103eb80dabefb2fe44
https://datahack.analyticsvidhya.com/contest/
all/
Посмотрите хакатоны здесь
(есть очень интересные темы):