5. Идея платформы OpenSNAP
Идея
Мы хотим построить универсальную систему работы с данными
социальных сетей. Систему, ориентированную на накопление и
параллельную обработку данных о взаимодействиях пользователей
ряда соцсетей. Эта система станет ядром платформы для упрощения
социального анализа и осуществления сложных аналитических запросов
к социальным графам.
6. Примеры вопросов на которые поможет ответить OpenSNAP
Примеры аналитических запросов:
• «Найти ТОП2000 социально влиятельной аудитории, которая
проводит в соцсетях более 2 часов в день со следующими
параметрами < мужчины>,<30-45>,<средний достаток>.В ответе
указать статистику временной и тематической активности в
различных СС.»
• «Показать как изменялась структура сети и модель общения за
последний год в русскоязычном facebook и сравнить эти изменения с
тем, что происходило в “моем мире”
• «Провести подсчет индикаций вкусовых предпочтений в Вконтакте
по кино и книгам у заданной списком имен и доп. параметров
аудитории»
7. Стратегия монетизации монетизация
Бизнес модель:
Предоставление вычислительных и информационных услуг
исследователям, рекламным компаниям и компаниям
развивающим интернет проекты. Мы дадим возможность
исследователям и стартапам анализировать данные
социальных сетей на универсальной площадке с готовой
инфраструктурой. 4 ступеней модели>>
8. Четыре ступени бизнес модели
👬
👬 👬 👬
👬 👬 👬
👬 👬
👬 Среда работы Аналитический
внешних инструмент
👬 исследователей маркетологов
+
Инструмент Рынок данных и
Программируемая социолога алгоритмов
полуавтоматическая
платформа
13. OpenSNAP в конкурентном ландшафте: данные
Небольшие, 1000 «Плоские» файлы в памяти
собранные в ручную данные узлов
Средние данные, SQL базы данных
10^6
Снимки сетей через API
Big Data Big Data технологии
Данные для обработки 10^9
в реальном времени
Наборы данных собранные в ручную или результаты предварительных
выборок могут поместиться в памяти. Графы в 1,000 узлов (с
вероятностью связности 0.8 = 800,000 связей) потребуют 100MB без учета
атрибутов. Такой же граф в 2,000 узлов (и почти 2М связей) потребует
500MB. В общем случае связность оценивается в O(n)=n +n2=n(n+1).
14. OpenSNAP зачем нам нужны Big Data решения?
1. Средства анализа и визуализации графов существуют уже в большом количестве и
разнообразии
2. Мы можем занять нишу коллекторов больших объемов данных с возможностями
ретроспективных временных срезов
3. Мы также можем построить технологии запуска вычислительных задач на наших
системах и это будет единственным живым решением для аналитиков во всем мире, т.к.
скачать их будет невозможно, если конечно они не инвестируют значительное время и
ресурсы для того, чтобы сделать ту работу, которую хотим взять на себя мы. Это также
обычно не задача исследователей + на инфраструктурные работы у них нет ресурсов
“…Going back to Twitter as an example, we can scan the 1% sample stream for general
trends and topics—anything important enough to generate at least a hundred messages
will probably show up. Or, since we are interested in networks, the very active people
will make a blip on our radar and we can even see some connections. If that is all we
want, storing even a few hundred gigs worth of traffic (in this example, equivalent to a
few months time) is no big deal. But what if we wanted to explore trends among the
lesser active participants over a few years? The answers would lie in some pretty big
data, and to get them, we would have to store and process it somehow.
Now that we have some idea of the scope of the problem, what do we do with a
terabyte of social chatter a day?
–Maksim Tsvetovat
15. Collaboration
Сотрудничество + платформа, дадут
возможность широкому кругу
исследователей сосредоточиться на
научных задачах вместо того, чтобы тратить
свое время на инфраструктуру вычислений
и работу с данными
16. I2 Social Network Analysis
Примеры того что сейчас есть Позволяет визуально представить структуру взаимоотношений в социальных
сетях путем расчета betweenness, closeness, degree and eigenvector hubs and
authorities centrality measures.
>video
17. DataSift
Примеры того что сейчас есть
Позволяет получить базу Твитов или подключиться к онлайн потоку, настроить фильтр и
визуализировать информацию. Для сторонних разработчиков выступает в роли
платформы для написания и встраивания своих фильтров.
>video
18. NetworkX
Примеры того что сейчас есть Библиотека на Python для анализа графов
>http://networkx.github.com
19. NodeXL
Примеры того что сейчас есть Приложение + Excel plugin для анализа графов
визуализации.
http://nodexl.codeplex.com
http://www.smrfoundation.org
20. Stanford Large Network Dataset Collection
Примеры того что сейчас есть
Коллекция данных Лесковца
http://snap.stanford.edu/data/
21. Nodus Lab
Примеры того что сейчас есть
Лаборатория типа того что мы хотели бы стать)
http://noduslabs.com/about/
http://www.facebook.com/noduslabs
Editor's Notes
http://jarens.ru/анализ-социальных-сетей-в-i2-analyst-notebook/:Продукция компании i2 является весьма популярной в различных аналитических службах. И как следствие — дорогой. Особенно распиарена их платформа Analyst Notebook, предназначенная для анализа связей (Link Analysis). А также в неё есть некоторый функционал для анализа социальных сетей (Social Network Analysis). Предлагаемый по ссылке вебинар смотреть я не стал и, так как инструмент был под руками, решил его опробовать.Для начала построил картинку по данным диссера:На вид она весьма читаема за счёт удачного расположения узлов. Однако, если приглядеться, то можно увидеть, что веса исходящих и входящих связей на ней отображены отдельно. Возможно, в каких-то ситуациях это и является преимуществом, если бы не одно “но”. Суммировать эти веса AnalystNotebook не умеет. Вроде бы и тривиальная вещь, а тем не менее.Из сетевых метрик есть только классические показатели центральности: degree, closeness, betweenness и eigenvector. Всё. На этом функционал сетевого анализа заканчивается. Разве что масштабирование размеров узлов есть в зависимости от центральности. Но это уже больше к визуализации относится.Вообще, меня не покидает ощущение, что программы подобного класса по сути продают воздух. Вся их ценность, на мой взгляд, заключается только в семантическом слое, который позволяет создавать запросы к БД перетаскиванием иконок. Кстати, функционал БД у них тоже дублируется приложением iBase, смысл которого мне тем более не понятен, т.к. AnalystNotebook умеет подключаться к MS SQL Server напрямую.Впрочем, такую бедность инструментария AnalystNotebook можно списать на основные цели программы. Всё таки LinkAnalysis предназначен в основном для поиска связей между сущностями, в то время как анализ социальных сетей предназначен для изучения уже имеющихся связей. Поэтому вполне разумно использовать эти методологии и соответствующие им инструменты последовательно, в связке: LA -> SNA. Если у меня получится подобный кейс — расскажу.