SlideShare a Scribd company logo
1 of 17
Download to read offline
Анализ открытых данных
Жуков Вячеслав
Сооснователь MLClass.ru, Data Scientist, Разработчик
Москва, 2015
1.  MLClass
2.  Открытые данные
3.  Работа с социальными сетями
4.  Анализ тональности текста
5.  Продвинутый анализ социальных сетей

План
Москва, 2015 2
MLClass
Москва, 2015 3
-  Обучение
-  Соревнования
-  Сообщество
Консалтинг -
Проекты -
Сотрудники -
Команда
Москва, 2015 4
Александр Крот

Основатель MLClass, Lead Data Scientist, ОАО Вымпелком (Билайн)
Станислав Семенов

Занимает 5е место в мировом рейтинге Kaggle, преподаватель ШАД
Юрий Аммосов

Советник руководителя, Аналитический центр Правительства РФ
Вячеслав Жуков

Сооснователь MLClass, MSc E-business, разработчик, Data Scientist
Александр Мищенко

Senior Software Developer
Сообщество
Москва, 2015 5
ХАКАТОНЫ	
  
Q&A	
  
КУРСЫ	
  
СОРЕВНОВАНИЯ	
   ИССЛЕДОВАНИЯ	
  
MLClASS	
  
•  data.gov.ru – много данных об объектах и контактах
•  Социальные сети – много транзакционных данных
•  Twitter
•  Вконтакте
•  Instagramm
•  Открытые API



Объединяйте разные источники данных!



Открытые данные
Москва, 2015 6
Что можно делать?

•  Визуализация статистической информации
•  Привязка постов в соц. сетях к объектам
реального мира
•  Обработка естественного языка
•  Потоковая обработка данных



Открытые данные
Москва, 2015 7
Как взять данные?

•  Создать приложение
•  Сгенерировать токены для Oauth соединения
•  Доступ через RESTfull
•  Рекомендуем использовать обертки для
популярных языков
Анализ социальных сетей
Москва, 2015 8
Ограничения и особенности

•  У всех существует лимит на количество
обращений
•  Twitter отдает только недельную историю
постов
•  Twitter имеет Streaming API для Real-Time
аналитики
Анализ социальных сетей
Москва, 2015 9
•  Анализ твитов в реальном времени
– bitly.com/1QS1N7d 

•  Пример работы с Twitter API
– http://mlclass.ru/tutorials/research-twitter-api
•  Пример работы с Instagram API
– http://mlclass.ru/tutorials/primer-ispolzovaniya-
instagram-api/

Примеры и манулы
Москва, 2015 10
Цель: определить окраску текста (позитивная/негативная)

Как это делать?
•  Тональные словари
•  Ручные правила
•  Метрика TF-IDF
•  Обучение с учителем: Bag Of Words
•  Обучение без учителя: word2vec

Похожие задачи:
•  Определение экстремизма в социальных сетях и СМИ


Анализ тональности текста (Sentiment Analysis) 
Москва, 2015 11
Word2vec – технология от Google, для обработку больших
массивов текстовой информации. Основана на Deep
Learning.


word2vec
Москва, 2015 12
Неразмеченные
тексты
Для каждого слова
вектор числовых
признаков
В качестве признаков текста – среднее значение вектора слов
Пример
Москва, 2015 13
1 http://habrahabr.ru/post/249215/ - Word2vec в примерах

Слово
 Расстояние
коффе
 0.734483
чая
 0.690234
чай
 0.688656
капучино 
 0.666638
кофн 
 0.636362
какао
 0.619801
эспрессо 
 0.599390
кофя 
 0.595211
цикорий 
 0.594247
кофэ 
 0.593993
копучино 
 0.587324
шоколад 
 0.585655
кардамоном 
 0.566781
латте 
 0.563224
Близкие слова к слову «Кофе»1
Интернет и социальные сети это – графы
со свойствами:


–  Малый диаметр графа (теория 6
рукопожатий)
–  Степенной закон распределения степеней
вершин: доля вершин степени d в графе
ведет себя как: 
–  Граф сильно разреженный - (на t вершинах
около const*t ребер)
Продвинутый анализ социальных сетей
Москва, 2015 14
Алгоритм1:
1.  Берем 1000 произвольных реальных аккаунтов
(вершины)
2.  Для каждой вершины определяем на кого она ссылается
{U1, U2….} и прибавляем к каждой из них степень +1
3.  На выходе список вершин {U1, U2…..} с оценкой
входящих степеней
4.  Ранжируем этот список, берем ТОП50



Поиск влиятельных людей за малое число запросов к API
Москва, 2015 15
1Присоединяйтесь	
  к	
  данному	
  исследованию	
  в	
  Проектах.MLClass	
  
hRp://mlclass.ru/projects/	
  
TОП50 лидеров мнений определяется очень точно
-  Ищите идею – методы решения и технологии найдутся
-  Используйте различные источники данных
-  Прототипируйте – как можно быстрей воплощайте идею в
жизнь


Заключение
Москва, 2015 16
Спасибо 

за внимание! 
Москва, 2015
szhukov@mlclass.ru

More Related Content

Similar to MLClass для #OpenDataHackathon

Антон Колошин - Формирование межрегионального Smart ЦОК ИТ
Антон Колошин - Формирование межрегионального Smart ЦОК ИТАнтон Колошин - Формирование межрегионального Smart ЦОК ИТ
Антон Колошин - Формирование межрегионального Smart ЦОК ИТIngria. Technopark St. Petersburg
 
Алексей Федоров: Количественные исследования в HR
Алексей Федоров: Количественные исследования в HRАлексей Федоров: Количественные исследования в HR
Алексей Федоров: Количественные исследования в HRIT-Доминанта
 
Программа семинара
Программа семинараПрограмма семинара
Программа семинараWitology
 
Открытые данные, открытое обучение и открытая наука (Open data, open educatio...
Открытые данные, открытое обучение и открытая наука (Open data, open educatio...Открытые данные, открытое обучение и открытая наука (Open data, open educatio...
Открытые данные, открытое обучение и открытая наука (Open data, open educatio...Irina Radchenko
 
Ekb 1.2 sorkin
Ekb 1.2 sorkinEkb 1.2 sorkin
Ekb 1.2 sorkinRostelecom
 
сколково брошюра Smm_для инноваторов 21042014
сколково брошюра Smm_для инноваторов 21042014сколково брошюра Smm_для инноваторов 21042014
сколково брошюра Smm_для инноваторов 21042014The Skolkovo Foundation
 
Trend review 2016
Trend review 2016Trend review 2016
Trend review 2016Red Keds
 
Программа форума
Программа форумаПрограмма форума
Программа форумаtfmailru
 
мобильная реклама вконтакте. mobile developer & business day belarus 2014
мобильная реклама вконтакте. mobile developer & business day belarus 2014мобильная реклама вконтакте. mobile developer & business day belarus 2014
мобильная реклама вконтакте. mobile developer & business day belarus 2014Elena Voynova
 
Social Media Analytics: Технологии исследования будущего
Social Media Analytics: Технологии исследования будущегоSocial Media Analytics: Технологии исследования будущего
Social Media Analytics: Технологии исследования будущегоСветлана Крылова
 
Презентация проекта "Умные сети"
Презентация проекта "Умные сети"Презентация проекта "Умные сети"
Презентация проекта "Умные сети"Умные сети
 
ИКГ 08 Заключение
ИКГ 08 ЗаключениеИКГ 08 Заключение
ИКГ 08 ЗаключениеDenis Korolev
 
Умные сети
Умные сетиУмные сети
Умные сетиal420
 
Аудитория ВКонтакте 2014
Аудитория ВКонтакте 2014Аудитория ВКонтакте 2014
Аудитория ВКонтакте 2014Sergey Shmakov
 
Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социа...
Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социа...Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социа...
Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социа...Yandex
 

Similar to MLClass для #OpenDataHackathon (20)

Антон Колошин - Формирование межрегионального Smart ЦОК ИТ
Антон Колошин - Формирование межрегионального Smart ЦОК ИТАнтон Колошин - Формирование межрегионального Smart ЦОК ИТ
Антон Колошин - Формирование межрегионального Smart ЦОК ИТ
 
SMM monitoring
SMM monitoring SMM monitoring
SMM monitoring
 
НКО Лаб. Методы и технологии продвижения деятельности НКО. Поведение сотрудни...
НКО Лаб. Методы и технологии продвижения деятельности НКО. Поведение сотрудни...НКО Лаб. Методы и технологии продвижения деятельности НКО. Поведение сотрудни...
НКО Лаб. Методы и технологии продвижения деятельности НКО. Поведение сотрудни...
 
НКО Лаб. Методы и технологии продвижения деятельности НКО. Социальные сети – ...
НКО Лаб. Методы и технологии продвижения деятельности НКО. Социальные сети – ...НКО Лаб. Методы и технологии продвижения деятельности НКО. Социальные сети – ...
НКО Лаб. Методы и технологии продвижения деятельности НКО. Социальные сети – ...
 
Алексей Федоров: Количественные исследования в HR
Алексей Федоров: Количественные исследования в HRАлексей Федоров: Количественные исследования в HR
Алексей Федоров: Количественные исследования в HR
 
Программа семинара
Программа семинараПрограмма семинара
Программа семинара
 
Открытые данные, открытое обучение и открытая наука (Open data, open educatio...
Открытые данные, открытое обучение и открытая наука (Open data, open educatio...Открытые данные, открытое обучение и открытая наука (Open data, open educatio...
Открытые данные, открытое обучение и открытая наука (Open data, open educatio...
 
Ekb 1.2 sorkin
Ekb 1.2 sorkinEkb 1.2 sorkin
Ekb 1.2 sorkin
 
сколково брошюра Smm_для инноваторов 21042014
сколково брошюра Smm_для инноваторов 21042014сколково брошюра Smm_для инноваторов 21042014
сколково брошюра Smm_для инноваторов 21042014
 
Trend review 2016
Trend review 2016Trend review 2016
Trend review 2016
 
3clika
3clika3clika
3clika
 
Программа форума
Программа форумаПрограмма форума
Программа форума
 
мобильная реклама вконтакте. mobile developer & business day belarus 2014
мобильная реклама вконтакте. mobile developer & business day belarus 2014мобильная реклама вконтакте. mobile developer & business day belarus 2014
мобильная реклама вконтакте. mobile developer & business day belarus 2014
 
Social Media Analytics: Технологии исследования будущего
Social Media Analytics: Технологии исследования будущегоSocial Media Analytics: Технологии исследования будущего
Social Media Analytics: Технологии исследования будущего
 
Презентация проекта "Умные сети"
Презентация проекта "Умные сети"Презентация проекта "Умные сети"
Презентация проекта "Умные сети"
 
ИКГ 08 Заключение
ИКГ 08 ЗаключениеИКГ 08 Заключение
ИКГ 08 Заключение
 
Умные сети
Умные сетиУмные сети
Умные сети
 
Аудитория ВКонтакте 2014
Аудитория ВКонтакте 2014Аудитория ВКонтакте 2014
Аудитория ВКонтакте 2014
 
Government Human Design Center
Government Human Design Center Government Human Design Center
Government Human Design Center
 
Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социа...
Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социа...Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социа...
Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социа...
 

MLClass для #OpenDataHackathon

  • 1. Анализ открытых данных Жуков Вячеслав Сооснователь MLClass.ru, Data Scientist, Разработчик Москва, 2015
  • 2. 1.  MLClass 2.  Открытые данные 3.  Работа с социальными сетями 4.  Анализ тональности текста 5.  Продвинутый анализ социальных сетей План Москва, 2015 2
  • 3. MLClass Москва, 2015 3 -  Обучение -  Соревнования -  Сообщество Консалтинг - Проекты - Сотрудники -
  • 4. Команда Москва, 2015 4 Александр Крот Основатель MLClass, Lead Data Scientist, ОАО Вымпелком (Билайн) Станислав Семенов Занимает 5е место в мировом рейтинге Kaggle, преподаватель ШАД Юрий Аммосов Советник руководителя, Аналитический центр Правительства РФ Вячеслав Жуков Сооснователь MLClass, MSc E-business, разработчик, Data Scientist Александр Мищенко Senior Software Developer
  • 5. Сообщество Москва, 2015 5 ХАКАТОНЫ   Q&A   КУРСЫ   СОРЕВНОВАНИЯ   ИССЛЕДОВАНИЯ   MLClASS  
  • 6. •  data.gov.ru – много данных об объектах и контактах •  Социальные сети – много транзакционных данных •  Twitter •  Вконтакте •  Instagramm •  Открытые API Объединяйте разные источники данных! Открытые данные Москва, 2015 6
  • 7. Что можно делать? •  Визуализация статистической информации •  Привязка постов в соц. сетях к объектам реального мира •  Обработка естественного языка •  Потоковая обработка данных Открытые данные Москва, 2015 7
  • 8. Как взять данные? •  Создать приложение •  Сгенерировать токены для Oauth соединения •  Доступ через RESTfull •  Рекомендуем использовать обертки для популярных языков Анализ социальных сетей Москва, 2015 8
  • 9. Ограничения и особенности •  У всех существует лимит на количество обращений •  Twitter отдает только недельную историю постов •  Twitter имеет Streaming API для Real-Time аналитики Анализ социальных сетей Москва, 2015 9
  • 10. •  Анализ твитов в реальном времени – bitly.com/1QS1N7d •  Пример работы с Twitter API – http://mlclass.ru/tutorials/research-twitter-api •  Пример работы с Instagram API – http://mlclass.ru/tutorials/primer-ispolzovaniya- instagram-api/ Примеры и манулы Москва, 2015 10
  • 11. Цель: определить окраску текста (позитивная/негативная) Как это делать? •  Тональные словари •  Ручные правила •  Метрика TF-IDF •  Обучение с учителем: Bag Of Words •  Обучение без учителя: word2vec Похожие задачи: •  Определение экстремизма в социальных сетях и СМИ Анализ тональности текста (Sentiment Analysis) Москва, 2015 11
  • 12. Word2vec – технология от Google, для обработку больших массивов текстовой информации. Основана на Deep Learning. word2vec Москва, 2015 12 Неразмеченные тексты Для каждого слова вектор числовых признаков В качестве признаков текста – среднее значение вектора слов
  • 13. Пример Москва, 2015 13 1 http://habrahabr.ru/post/249215/ - Word2vec в примерах Слово Расстояние коффе 0.734483 чая 0.690234 чай 0.688656 капучино 0.666638 кофн 0.636362 какао 0.619801 эспрессо 0.599390 кофя 0.595211 цикорий 0.594247 кофэ 0.593993 копучино 0.587324 шоколад 0.585655 кардамоном 0.566781 латте 0.563224 Близкие слова к слову «Кофе»1
  • 14. Интернет и социальные сети это – графы со свойствами: –  Малый диаметр графа (теория 6 рукопожатий) –  Степенной закон распределения степеней вершин: доля вершин степени d в графе ведет себя как: –  Граф сильно разреженный - (на t вершинах около const*t ребер) Продвинутый анализ социальных сетей Москва, 2015 14
  • 15. Алгоритм1: 1.  Берем 1000 произвольных реальных аккаунтов (вершины) 2.  Для каждой вершины определяем на кого она ссылается {U1, U2….} и прибавляем к каждой из них степень +1 3.  На выходе список вершин {U1, U2…..} с оценкой входящих степеней 4.  Ранжируем этот список, берем ТОП50 Поиск влиятельных людей за малое число запросов к API Москва, 2015 15 1Присоединяйтесь  к  данному  исследованию  в  Проектах.MLClass   hRp://mlclass.ru/projects/   TОП50 лидеров мнений определяется очень точно
  • 16. -  Ищите идею – методы решения и технологии найдутся -  Используйте различные источники данных -  Прототипируйте – как можно быстрей воплощайте идею в жизнь Заключение Москва, 2015 16
  • 17. Спасибо 
 за внимание! Москва, 2015 szhukov@mlclass.ru