2. 1. MLClass
2. Открытые данные
3. Работа с социальными сетями
4. Анализ тональности текста
5. Продвинутый анализ социальных сетей
План
Москва, 2015 2
3. MLClass
Москва, 2015 3
- Обучение
- Соревнования
- Сообщество
Консалтинг -
Проекты -
Сотрудники -
4. Команда
Москва, 2015 4
Александр Крот
Основатель MLClass, Lead Data Scientist, ОАО Вымпелком (Билайн)
Станислав Семенов
Занимает 5е место в мировом рейтинге Kaggle, преподаватель ШАД
Юрий Аммосов
Советник руководителя, Аналитический центр Правительства РФ
Вячеслав Жуков
Сооснователь MLClass, MSc E-business, разработчик, Data Scientist
Александр Мищенко
Senior Software Developer
6. • data.gov.ru – много данных об объектах и контактах
• Социальные сети – много транзакционных данных
• Twitter
• Вконтакте
• Instagramm
• Открытые API
Объединяйте разные источники данных!
Открытые данные
Москва, 2015 6
7. Что можно делать?
• Визуализация статистической информации
• Привязка постов в соц. сетях к объектам
реального мира
• Обработка естественного языка
• Потоковая обработка данных
Открытые данные
Москва, 2015 7
8. Как взять данные?
• Создать приложение
• Сгенерировать токены для Oauth соединения
• Доступ через RESTfull
• Рекомендуем использовать обертки для
популярных языков
Анализ социальных сетей
Москва, 2015 8
9. Ограничения и особенности
• У всех существует лимит на количество
обращений
• Twitter отдает только недельную историю
постов
• Twitter имеет Streaming API для Real-Time
аналитики
Анализ социальных сетей
Москва, 2015 9
10. • Анализ твитов в реальном времени
– bitly.com/1QS1N7d
• Пример работы с Twitter API
– http://mlclass.ru/tutorials/research-twitter-api
• Пример работы с Instagram API
– http://mlclass.ru/tutorials/primer-ispolzovaniya-
instagram-api/
Примеры и манулы
Москва, 2015 10
11. Цель: определить окраску текста (позитивная/негативная)
Как это делать?
• Тональные словари
• Ручные правила
• Метрика TF-IDF
• Обучение с учителем: Bag Of Words
• Обучение без учителя: word2vec
Похожие задачи:
• Определение экстремизма в социальных сетях и СМИ
Анализ тональности текста (Sentiment Analysis)
Москва, 2015 11
12. Word2vec – технология от Google, для обработку больших
массивов текстовой информации. Основана на Deep
Learning.
word2vec
Москва, 2015 12
Неразмеченные
тексты
Для каждого слова
вектор числовых
признаков
В качестве признаков текста – среднее значение вектора слов
13. Пример
Москва, 2015 13
1 http://habrahabr.ru/post/249215/ - Word2vec в примерах
Слово
Расстояние
коффе
0.734483
чая
0.690234
чай
0.688656
капучино
0.666638
кофн
0.636362
какао
0.619801
эспрессо
0.599390
кофя
0.595211
цикорий
0.594247
кофэ
0.593993
копучино
0.587324
шоколад
0.585655
кардамоном
0.566781
латте
0.563224
Близкие слова к слову «Кофе»1
14. Интернет и социальные сети это – графы
со свойствами:
– Малый диаметр графа (теория 6
рукопожатий)
– Степенной закон распределения степеней
вершин: доля вершин степени d в графе
ведет себя как:
– Граф сильно разреженный - (на t вершинах
около const*t ребер)
Продвинутый анализ социальных сетей
Москва, 2015 14
15. Алгоритм1:
1. Берем 1000 произвольных реальных аккаунтов
(вершины)
2. Для каждой вершины определяем на кого она ссылается
{U1, U2….} и прибавляем к каждой из них степень +1
3. На выходе список вершин {U1, U2…..} с оценкой
входящих степеней
4. Ранжируем этот список, берем ТОП50
Поиск влиятельных людей за малое число запросов к API
Москва, 2015 15
1Присоединяйтесь
к
данному
исследованию
в
Проектах.MLClass
hRp://mlclass.ru/projects/
TОП50 лидеров мнений определяется очень точно
16. - Ищите идею – методы решения и технологии найдутся
- Используйте различные источники данных
- Прототипируйте – как можно быстрей воплощайте идею в
жизнь
Заключение
Москва, 2015 16