SlideShare a Scribd company logo
http://br-analytics.ru
Вы (жить) в тренде
Выявление главных сюжетов и зарождающихся трендов
в миллиардных социопотоках
100
1,000
10,000
100,000
1,000,000
10,000,000
100,000,000
1,000,000,000
1990 2000 2010 2020
Изменение потоков информации за последние 20 лет2
Тысячи
статей
Десятки тысяч
документов
Миллионы
мнений
Миллиарды
сообщений
• Статьи (СМИ)
Factiva, Lexus-Nexus, Медиалогия
• Документы (онлайн-СМИ, блоги)
Google, Яндекс.Блоги и т.д.
• Мнения (соцсети-общение)
Brand Analytics, DataSift, Gnip
• Сообщения и открытые данные
(люди и системы) — ?
График на иллюстрации логарифмический,
в реальной пропорции кривой не видно,
она превращается в «вертикальный взлет»
Потоки превратились в океан информации3
• Как в океане информации найти
главное течение, свой Гольфстрим?
• Как распознать зарождение
информационного цунами?
• Кто является основными объектами
интереса в инфополе?
• Как узнать «погоду» на завтра?
• Как построить тысячу сегментов
аудитории и понять молодежь?
Человечество генерит в сутки 30+ миллиардов
сообщений, из которых порядка 10% – публичных
Решение: тренд-системы4
Эти и многие другие вопросы и задачи помогают решать современные
технологии анализа высокоскоростных потоков социо-данных:
• Что сейчас: какие тренды и сюжеты являются основными в динамическом
информационном поле индустрии, региона, страны и мира; какие
структуры и персоны являются объектами внимания медиа и общества.
• Что новое: оперативное выявление новых трендов и сущностей.
• Что будет: прогностика — «вероятностный» мониторинг: выборы,
развитие социума, влияние новых технологий и пр.
Тренд-системы Nooshere Technologies5
«Андерсен»
(основные сюжеты и объекты)
«Визит»
(зарождающиеся тренды)
«Янус»
(прогностика)
СМИ,
PR/маркетинг и др.
Информационные агентства,
Ситуационные центры,
Инвест-фонды и др.
Вовремя знать главное
по своей тематике
Выявление сигналов
социума на начальной
фазе роста
Основные игроки рынка,
Госструктуры
Влиять на будущее, зная
наиболее оптимальное место
приложения усилий
Проект Целевая аудитория Зачем
Тренд-системы Nooshere Technologies6
Сегодня Завтра Послезавтра t
«Андерсен» «Визит» «Янус»
«Андерсен»: Оперативное выявление информационных трендов7
«Андерсен» – технологии8
Платформа
потоков
данных
5-10 тысяч
сообщений в
секунду
Тематическая
выборка
поисковый запрос,
язык, география
Кластеризация
Word2Vec
с учетом семантической
смежности или
ассоциативности
VIO
выделение важных
объектов
Объединение
сюжетов
в кластеры по
объектам
«Визит»: Выявление зарождающихся трендов9
Знать о проблемах и возможностях в числе первых 5% !
Примеры:
1. Неожиданная встреча Путина и Тиллерсона.
Результат: Факт встречи сыграл резко на бирже против $
(защитный актив) - раз всё хорошо (встреча), значит
можно оставаться и наращивать российские бумаги и
рубль.
2. Инцидент с United Airlines - избиение пассажира и
реакция в соцсетях.
Результат: Потеря капитализации $600 млн.
Узнать до того, как
стало трендом
На рисунке: Зарождение информационного тренда о встрече
Путина и Тиллерсона
«Визит» – технологии10
Платформа
потоков
данных
5-10 тысяч
сообщений в
секунду
Темати-
ческая
выборка
1/5/15/60
минут
Очистка
данных,
лемматизация
/стемминг
Расчет
частоты,
сравнение
с базой
ЧМС
(частотка на
миллион слов)
Выявление
тренд-
слов,
формирование
кластеров
вокруг Т-слов
Лингво-
модули:
кластеризация,
классификации,
NER
VIO
Пост-
обработка:
группировка,
отправка
сигналов и
отчетов
«Янус»: Вероятностное будущее11
Взгляд назад – там застывшее прошлое, легко
алгоритмизируемое. Широкое использование методов
машинного обучения – это "продолжение прошлого в будущее".
Работает, но не всегда, а ошибки – катастрофичны: Lehman Br.,
Nokia, Yahoo...
Взгляд вперед – варианты развития.
Конечные, например выборы, можно использовать локально:
Победа Трампа = рост золота, снижение песо.
Индустриальные (глобальные): Tesla, бумажная пресса, чат-боты.
Изменения "настроений" можно и нужно фиксировать постоянно
и в ДИНАМИКЕ:
• Дни, недели, месяцы;
• Миллионы людей: пол, возраст, гео, тональность,
влиятельность, виральность и т.д.;
• Миллиарды мнений и высказываний;
• Выявление болевых точек и точек роста;
• Формирование вероятностных стратегий. Всех возможных;
• Динамическая перестройка вероятностей.
На рисунке: Динамика изменения предпочтений по
кандидатам на пост президента Франции, измеряемое на
основе анализа потока сообщений французской аудитории
социальных сетей. 20+ млн сообщений, 3+ млн авторов.
Подводные камни12
В реализации технологий – множество «подводных камней»:
• Бот-сети. Выявление и пополнение базы. Использование задействования — как сигнал интереса.
• Кластеризация текстовых документов не только на основе сходства,
но и на основе семантической смежности или ассоциативности.
Например,
• В Лондоне передумали объявлять России новую холодную войну
• Борис Джонсон: Запад не находится в состоянии новой холодной войны с РФ
• В британском МИД заявили, что Запад не хочет новой холодной войны с Россией
Все три примера являются одной новостью, тем не менее, лексика используется разная.
• Высокоскоростная лингвистика – использование только статистических методов
не дает достаточной точности результатов.
• Высокие стоимости реализации, поскольку запредельные скорости потоков данных.
Для примера несколько цифр:
• Стоимость платформ сбора – Apple купила TopSy за $200 млн, а Twitter Gnip за $230 млн.
• Стоимость высокоскоростной лингвистики – IBM купила AlchemyAPI за $100 млн
• Стоимость аналитических систем – Salesforces купила Radian6 за $380 млн, HP Autonomy за $12 млрд
Спасибо за внимание!
http://br-analytics.ru | тел.: +7 (495) 105-95-01

More Related Content

Similar to Вы (жить) в тренде

Люди, которые попадают в Сети. Сети, в которые попадают Люди
Люди, которые попадают в Сети. Сети, в которые попадают ЛюдиЛюди, которые попадают в Сети. Сети, в которые попадают Люди
Люди, которые попадают в Сети. Сети, в которые попадают Люди
Social Camp2010
 
Big Data: вызовы и возможности
Big Data: вызовы и возможностиBig Data: вызовы и возможности
Big Data: вызовы и возможности
Stanislav Makarov
 
Социальные медиа: новое орудие информационного противоборства
Социальные медиа: новое орудие информационного противоборстваСоциальные медиа: новое орудие информационного противоборства
Социальные медиа: новое орудие информационного противоборства
Oleg Demidov
 
Россия и вызовы цифровой среды
Россия и вызовы цифровой средыРоссия и вызовы цифровой среды
Россия и вызовы цифровой среды
Russian Council
 
Открытые данные на Drupal-слёте
Открытые данные на Drupal-слётеОткрытые данные на Drupal-слёте
Открытые данные на Drupal-слёте
zabej
 
Открытые данные
Открытые данныеОткрытые данные
Открытые данные
ushchent
 
Захватывающий Сюжет: "(Вы)жить в тренде". Выявление зарождающихся Трендов и г...
Захватывающий Сюжет: "(Вы)жить в тренде". Выявление зарождающихся Трендов и г...Захватывающий Сюжет: "(Вы)жить в тренде". Выявление зарождающихся Трендов и г...
Захватывающий Сюжет: "(Вы)жить в тренде". Выявление зарождающихся Трендов и г...
Mediaprojects Mail.Ru Group
 
Рынок политконсалтинга: международные и российские тенденции
Рынок политконсалтинга: международные и российские тенденцииРынок политконсалтинга: международные и российские тенденции
Рынок политконсалтинга: международные и российские тенденции
Елена Волковская
 
добриднюк. Цифровые платформы научных исследований
добриднюк. Цифровые платформы научных исследованийдобриднюк. Цифровые платформы научных исследований
добриднюк. Цифровые платформы научных исследований
Serge Dobridnjuk
 
Digital & New Media Trends 2009
Digital & New Media Trends 2009Digital & New Media Trends 2009
Digital & New Media Trends 2009Jul Evdokimchik
 
тезисы с i-Compference 2012
тезисы с i-Compference 2012тезисы с i-Compference 2012
тезисы с i-Compference 2012
Василий Гатов
 
Трансформация угроз в информационным пространстве: от технологических к социа...
Трансформация угроз в информационным пространстве: от технологических к социа...Трансформация угроз в информационным пространстве: от технологических к социа...
Трансформация угроз в информационным пространстве: от технологических к социа...
Natalie Sokolova
 
Big datatech by-vkrylov
Big datatech by-vkrylovBig datatech by-vkrylov
Big datatech by-vkrylov
Vladimir Krylov
 
ARTW: Журналистика данных: история из цифр
ARTW: Журналистика данных: история из цифрARTW: Журналистика данных: история из цифр
ARTW: Журналистика данных: история из цифр
SPECIA
 
Журналистика данных: история из цифр
Журналистика данных: история из цифрЖурналистика данных: история из цифр
Журналистика данных: история из цифр
ARTW
 
Virin 2008 razvitie biznesa
Virin 2008 razvitie biznesaVirin 2008 razvitie biznesa
Virin 2008 razvitie biznesaFedor Virin
 
Как медиа видят работу пресс служб
Как медиа видят работу пресс службКак медиа видят работу пресс служб
Как медиа видят работу пресс службAnya Saltykova
 
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Global Innovation Labs
 
Черный Василий
Черный ВасилийЧерный Василий
Черный Василий
АКМР Corpmedia.ru
 

Similar to Вы (жить) в тренде (20)

Люди, которые попадают в Сети. Сети, в которые попадают Люди
Люди, которые попадают в Сети. Сети, в которые попадают ЛюдиЛюди, которые попадают в Сети. Сети, в которые попадают Люди
Люди, которые попадают в Сети. Сети, в которые попадают Люди
 
Big Data: вызовы и возможности
Big Data: вызовы и возможностиBig Data: вызовы и возможности
Big Data: вызовы и возможности
 
Big data, бизнес, CRM
Big data, бизнес, CRMBig data, бизнес, CRM
Big data, бизнес, CRM
 
Социальные медиа: новое орудие информационного противоборства
Социальные медиа: новое орудие информационного противоборстваСоциальные медиа: новое орудие информационного противоборства
Социальные медиа: новое орудие информационного противоборства
 
Россия и вызовы цифровой среды
Россия и вызовы цифровой средыРоссия и вызовы цифровой среды
Россия и вызовы цифровой среды
 
Открытые данные на Drupal-слёте
Открытые данные на Drupal-слётеОткрытые данные на Drupal-слёте
Открытые данные на Drupal-слёте
 
Открытые данные
Открытые данныеОткрытые данные
Открытые данные
 
Захватывающий Сюжет: "(Вы)жить в тренде". Выявление зарождающихся Трендов и г...
Захватывающий Сюжет: "(Вы)жить в тренде". Выявление зарождающихся Трендов и г...Захватывающий Сюжет: "(Вы)жить в тренде". Выявление зарождающихся Трендов и г...
Захватывающий Сюжет: "(Вы)жить в тренде". Выявление зарождающихся Трендов и г...
 
Рынок политконсалтинга: международные и российские тенденции
Рынок политконсалтинга: международные и российские тенденцииРынок политконсалтинга: международные и российские тенденции
Рынок политконсалтинга: международные и российские тенденции
 
добриднюк. Цифровые платформы научных исследований
добриднюк. Цифровые платформы научных исследованийдобриднюк. Цифровые платформы научных исследований
добриднюк. Цифровые платформы научных исследований
 
Digital & New Media Trends 2009
Digital & New Media Trends 2009Digital & New Media Trends 2009
Digital & New Media Trends 2009
 
тезисы с i-Compference 2012
тезисы с i-Compference 2012тезисы с i-Compference 2012
тезисы с i-Compference 2012
 
Трансформация угроз в информационным пространстве: от технологических к социа...
Трансформация угроз в информационным пространстве: от технологических к социа...Трансформация угроз в информационным пространстве: от технологических к социа...
Трансформация угроз в информационным пространстве: от технологических к социа...
 
Big datatech by-vkrylov
Big datatech by-vkrylovBig datatech by-vkrylov
Big datatech by-vkrylov
 
ARTW: Журналистика данных: история из цифр
ARTW: Журналистика данных: история из цифрARTW: Журналистика данных: история из цифр
ARTW: Журналистика данных: история из цифр
 
Журналистика данных: история из цифр
Журналистика данных: история из цифрЖурналистика данных: история из цифр
Журналистика данных: история из цифр
 
Virin 2008 razvitie biznesa
Virin 2008 razvitie biznesaVirin 2008 razvitie biznesa
Virin 2008 razvitie biznesa
 
Как медиа видят работу пресс служб
Как медиа видят работу пресс службКак медиа видят работу пресс служб
Как медиа видят работу пресс служб
 
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
 
Черный Василий
Черный ВасилийЧерный Василий
Черный Василий
 

More from Natalie Sokolova

Социальные сети в России, лето 2017
Социальные сети в России, лето 2017Социальные сети в России, лето 2017
Социальные сети в России, лето 2017
Natalie Sokolova
 
Социальные сети в России, осень 2016
Социальные сети в России, осень 2016Социальные сети в России, осень 2016
Социальные сети в России, осень 2016
Natalie Sokolova
 
Социальные сети в России, февраль 2016
Социальные сети в России, февраль 2016Социальные сети в России, февраль 2016
Социальные сети в России, февраль 2016
Natalie Sokolova
 
Аналитика соцмедиа: виды исследований для повышения эффективности продвижения...
Аналитика соцмедиа: виды исследований для повышения эффективности продвижения...Аналитика соцмедиа: виды исследований для повышения эффективности продвижения...
Аналитика соцмедиа: виды исследований для повышения эффективности продвижения...
Natalie Sokolova
 
Метрики для анализа соцмедиа и способы решения типовых задач для PR
Метрики для анализа соцмедиа и способы решения типовых задач для PRМетрики для анализа соцмедиа и способы решения типовых задач для PR
Метрики для анализа соцмедиа и способы решения типовых задач для PR
Natalie Sokolova
 
Социальные сети в Казахстане, зима 2015-2016
Социальные сети в Казахстане, зима  2015-2016Социальные сети в Казахстане, зима  2015-2016
Социальные сети в Казахстане, зима 2015-2016
Natalie Sokolova
 
Социальные сети в России, зима 2015-2016
Социальные сети в России, зима 2015-2016Социальные сети в России, зима 2015-2016
Социальные сети в России, зима 2015-2016
Natalie Sokolova
 
Социальные сети в Казахстане, весна 2015
Социальные сети в Казахстане, весна 2015Социальные сети в Казахстане, весна 2015
Социальные сети в Казахстане, весна 2015
Natalie Sokolova
 
Социальные сети в Украине, весна 2015
Социальные сети в Украине, весна 2015Социальные сети в Украине, весна 2015
Социальные сети в Украине, весна 2015
Natalie Sokolova
 
Социальные сети в России, весна 2015
Социальные сети в России, весна 2015Социальные сети в России, весна 2015
Социальные сети в России, весна 2015
Natalie Sokolova
 
Ba social networks in russia4
Ba social networks in russia4Ba social networks in russia4
Ba social networks in russia4
Natalie Sokolova
 
Социальные сети в России, зима 2014-2015
 Социальные сети в России, зима 2014-2015 Социальные сети в России, зима 2014-2015
Социальные сети в России, зима 2014-2015
Natalie Sokolova
 
Социальные сети в России, лето 2014
Социальные сети в России, лето 2014Социальные сети в России, лето 2014
Социальные сети в России, лето 2014
Natalie Sokolova
 
Brand Analytics
Brand AnalyticsBrand Analytics
Brand Analytics
Natalie Sokolova
 
Social media as a forecasting tool
Social media as a forecasting toolSocial media as a forecasting tool
Social media as a forecasting tool
Natalie Sokolova
 
Sociological researches in social media. Cases
Sociological researches in social media. CasesSociological researches in social media. Cases
Sociological researches in social media. Cases
Natalie Sokolova
 
Brand Analytics
Brand AnalyticsBrand Analytics
Brand Analytics
Natalie Sokolova
 
Портрет активных авторов социальной сети Одноклассники, апрель 2014
Портрет активных авторов социальной сети Одноклассники, апрель 2014Портрет активных авторов социальной сети Одноклассники, апрель 2014
Портрет активных авторов социальной сети Одноклассники, апрель 2014
Natalie Sokolova
 
Социальные сети как инструмент прогнозирования
Социальные сети как инструмент прогнозированияСоциальные сети как инструмент прогнозирования
Социальные сети как инструмент прогнозирования
Natalie Sokolova
 
Social networks in Russia 2014: numbers and trends
Social networks in Russia 2014: numbers and trendsSocial networks in Russia 2014: numbers and trends
Social networks in Russia 2014: numbers and trendsNatalie Sokolova
 

More from Natalie Sokolova (20)

Социальные сети в России, лето 2017
Социальные сети в России, лето 2017Социальные сети в России, лето 2017
Социальные сети в России, лето 2017
 
Социальные сети в России, осень 2016
Социальные сети в России, осень 2016Социальные сети в России, осень 2016
Социальные сети в России, осень 2016
 
Социальные сети в России, февраль 2016
Социальные сети в России, февраль 2016Социальные сети в России, февраль 2016
Социальные сети в России, февраль 2016
 
Аналитика соцмедиа: виды исследований для повышения эффективности продвижения...
Аналитика соцмедиа: виды исследований для повышения эффективности продвижения...Аналитика соцмедиа: виды исследований для повышения эффективности продвижения...
Аналитика соцмедиа: виды исследований для повышения эффективности продвижения...
 
Метрики для анализа соцмедиа и способы решения типовых задач для PR
Метрики для анализа соцмедиа и способы решения типовых задач для PRМетрики для анализа соцмедиа и способы решения типовых задач для PR
Метрики для анализа соцмедиа и способы решения типовых задач для PR
 
Социальные сети в Казахстане, зима 2015-2016
Социальные сети в Казахстане, зима  2015-2016Социальные сети в Казахстане, зима  2015-2016
Социальные сети в Казахстане, зима 2015-2016
 
Социальные сети в России, зима 2015-2016
Социальные сети в России, зима 2015-2016Социальные сети в России, зима 2015-2016
Социальные сети в России, зима 2015-2016
 
Социальные сети в Казахстане, весна 2015
Социальные сети в Казахстане, весна 2015Социальные сети в Казахстане, весна 2015
Социальные сети в Казахстане, весна 2015
 
Социальные сети в Украине, весна 2015
Социальные сети в Украине, весна 2015Социальные сети в Украине, весна 2015
Социальные сети в Украине, весна 2015
 
Социальные сети в России, весна 2015
Социальные сети в России, весна 2015Социальные сети в России, весна 2015
Социальные сети в России, весна 2015
 
Ba social networks in russia4
Ba social networks in russia4Ba social networks in russia4
Ba social networks in russia4
 
Социальные сети в России, зима 2014-2015
 Социальные сети в России, зима 2014-2015 Социальные сети в России, зима 2014-2015
Социальные сети в России, зима 2014-2015
 
Социальные сети в России, лето 2014
Социальные сети в России, лето 2014Социальные сети в России, лето 2014
Социальные сети в России, лето 2014
 
Brand Analytics
Brand AnalyticsBrand Analytics
Brand Analytics
 
Social media as a forecasting tool
Social media as a forecasting toolSocial media as a forecasting tool
Social media as a forecasting tool
 
Sociological researches in social media. Cases
Sociological researches in social media. CasesSociological researches in social media. Cases
Sociological researches in social media. Cases
 
Brand Analytics
Brand AnalyticsBrand Analytics
Brand Analytics
 
Портрет активных авторов социальной сети Одноклассники, апрель 2014
Портрет активных авторов социальной сети Одноклассники, апрель 2014Портрет активных авторов социальной сети Одноклассники, апрель 2014
Портрет активных авторов социальной сети Одноклассники, апрель 2014
 
Социальные сети как инструмент прогнозирования
Социальные сети как инструмент прогнозированияСоциальные сети как инструмент прогнозирования
Социальные сети как инструмент прогнозирования
 
Social networks in Russia 2014: numbers and trends
Social networks in Russia 2014: numbers and trendsSocial networks in Russia 2014: numbers and trends
Social networks in Russia 2014: numbers and trends
 

Вы (жить) в тренде

  • 1. http://br-analytics.ru Вы (жить) в тренде Выявление главных сюжетов и зарождающихся трендов в миллиардных социопотоках
  • 2. 100 1,000 10,000 100,000 1,000,000 10,000,000 100,000,000 1,000,000,000 1990 2000 2010 2020 Изменение потоков информации за последние 20 лет2 Тысячи статей Десятки тысяч документов Миллионы мнений Миллиарды сообщений • Статьи (СМИ) Factiva, Lexus-Nexus, Медиалогия • Документы (онлайн-СМИ, блоги) Google, Яндекс.Блоги и т.д. • Мнения (соцсети-общение) Brand Analytics, DataSift, Gnip • Сообщения и открытые данные (люди и системы) — ? График на иллюстрации логарифмический, в реальной пропорции кривой не видно, она превращается в «вертикальный взлет»
  • 3. Потоки превратились в океан информации3 • Как в океане информации найти главное течение, свой Гольфстрим? • Как распознать зарождение информационного цунами? • Кто является основными объектами интереса в инфополе? • Как узнать «погоду» на завтра? • Как построить тысячу сегментов аудитории и понять молодежь? Человечество генерит в сутки 30+ миллиардов сообщений, из которых порядка 10% – публичных
  • 4. Решение: тренд-системы4 Эти и многие другие вопросы и задачи помогают решать современные технологии анализа высокоскоростных потоков социо-данных: • Что сейчас: какие тренды и сюжеты являются основными в динамическом информационном поле индустрии, региона, страны и мира; какие структуры и персоны являются объектами внимания медиа и общества. • Что новое: оперативное выявление новых трендов и сущностей. • Что будет: прогностика — «вероятностный» мониторинг: выборы, развитие социума, влияние новых технологий и пр.
  • 5. Тренд-системы Nooshere Technologies5 «Андерсен» (основные сюжеты и объекты) «Визит» (зарождающиеся тренды) «Янус» (прогностика) СМИ, PR/маркетинг и др. Информационные агентства, Ситуационные центры, Инвест-фонды и др. Вовремя знать главное по своей тематике Выявление сигналов социума на начальной фазе роста Основные игроки рынка, Госструктуры Влиять на будущее, зная наиболее оптимальное место приложения усилий Проект Целевая аудитория Зачем
  • 6. Тренд-системы Nooshere Technologies6 Сегодня Завтра Послезавтра t «Андерсен» «Визит» «Янус»
  • 7. «Андерсен»: Оперативное выявление информационных трендов7
  • 8. «Андерсен» – технологии8 Платформа потоков данных 5-10 тысяч сообщений в секунду Тематическая выборка поисковый запрос, язык, география Кластеризация Word2Vec с учетом семантической смежности или ассоциативности VIO выделение важных объектов Объединение сюжетов в кластеры по объектам
  • 9. «Визит»: Выявление зарождающихся трендов9 Знать о проблемах и возможностях в числе первых 5% ! Примеры: 1. Неожиданная встреча Путина и Тиллерсона. Результат: Факт встречи сыграл резко на бирже против $ (защитный актив) - раз всё хорошо (встреча), значит можно оставаться и наращивать российские бумаги и рубль. 2. Инцидент с United Airlines - избиение пассажира и реакция в соцсетях. Результат: Потеря капитализации $600 млн. Узнать до того, как стало трендом На рисунке: Зарождение информационного тренда о встрече Путина и Тиллерсона
  • 10. «Визит» – технологии10 Платформа потоков данных 5-10 тысяч сообщений в секунду Темати- ческая выборка 1/5/15/60 минут Очистка данных, лемматизация /стемминг Расчет частоты, сравнение с базой ЧМС (частотка на миллион слов) Выявление тренд- слов, формирование кластеров вокруг Т-слов Лингво- модули: кластеризация, классификации, NER VIO Пост- обработка: группировка, отправка сигналов и отчетов
  • 11. «Янус»: Вероятностное будущее11 Взгляд назад – там застывшее прошлое, легко алгоритмизируемое. Широкое использование методов машинного обучения – это "продолжение прошлого в будущее". Работает, но не всегда, а ошибки – катастрофичны: Lehman Br., Nokia, Yahoo... Взгляд вперед – варианты развития. Конечные, например выборы, можно использовать локально: Победа Трампа = рост золота, снижение песо. Индустриальные (глобальные): Tesla, бумажная пресса, чат-боты. Изменения "настроений" можно и нужно фиксировать постоянно и в ДИНАМИКЕ: • Дни, недели, месяцы; • Миллионы людей: пол, возраст, гео, тональность, влиятельность, виральность и т.д.; • Миллиарды мнений и высказываний; • Выявление болевых точек и точек роста; • Формирование вероятностных стратегий. Всех возможных; • Динамическая перестройка вероятностей. На рисунке: Динамика изменения предпочтений по кандидатам на пост президента Франции, измеряемое на основе анализа потока сообщений французской аудитории социальных сетей. 20+ млн сообщений, 3+ млн авторов.
  • 12. Подводные камни12 В реализации технологий – множество «подводных камней»: • Бот-сети. Выявление и пополнение базы. Использование задействования — как сигнал интереса. • Кластеризация текстовых документов не только на основе сходства, но и на основе семантической смежности или ассоциативности. Например, • В Лондоне передумали объявлять России новую холодную войну • Борис Джонсон: Запад не находится в состоянии новой холодной войны с РФ • В британском МИД заявили, что Запад не хочет новой холодной войны с Россией Все три примера являются одной новостью, тем не менее, лексика используется разная. • Высокоскоростная лингвистика – использование только статистических методов не дает достаточной точности результатов. • Высокие стоимости реализации, поскольку запредельные скорости потоков данных. Для примера несколько цифр: • Стоимость платформ сбора – Apple купила TopSy за $200 млн, а Twitter Gnip за $230 млн. • Стоимость высокоскоростной лингвистики – IBM купила AlchemyAPI за $100 млн • Стоимость аналитических систем – Salesforces купила Radian6 за $380 млн, HP Autonomy за $12 млрд