Digital Society Laboratory (Аршавский)

цели

Digital Society Laboratory

ЛЦО

Направления исследований
Экономика внимания

Исследования интернет сообществ

Информационная вирусология

Анализ вкусовых предпочтений

Топология социальных сетей

Модель работы

Developers

Data
Scientists

Sociologists

OpenSNAP

концепция и перспектива

Digital Society Laboratory

OpenSNAP

Идея платформы OpenSNAP

Идея

Мы хотим построить универсальную систему работы с данными
социальных сетей. Систему, ориентированную на накопление и
параллельную обработку данных о взаимодействиях пользователей
ряда соцсетей. Эта система станет ядром платформы для упрощения
социального анализа и осуществления сложных аналитических запросов
к социальным графам.

Примеры вопросов на которые поможет ответить OpenSNAP

Примеры аналитических запросов:

• «Найти ТОП2000 социально влиятельной аудитории, которая
проводит в соцсетях более 2 часов в день со следующими
параметрами < мужчины>,<30-45>,<средний достаток>.В ответе
указать статистику временной и тематической активности в
различных СС.»

• «Показать как изменялась структура сети и модель общения за
последний год в русскоязычном facebook и сравнить эти изменения с
тем, что происходило в “моем мире”

• «Провести подсчет индикаций вкусовых предпочтений в Вконтакте
по кино и книгам у заданной списком имен и доп. параметров
аудитории»

Стратегия монетизации монетизация

Бизнес модель:

Предоставление вычислительных и информационных услуг
исследователям, рекламным компаниям и компаниям
развивающим интернет проекты. Мы дадим возможность
исследователям и стартапам анализировать данные
социальных сетей на универсальной площадке с готовой
инфраструктурой. 4 ступеней модели>>

Четыре ступени бизнес модели

👬
👬 👬 👬

👬 👬 👬

👬 👬
👬 Среда работы Аналитический
внешних инструмент
👬 исследователей маркетологов
+
Инструмент Рынок данных и
Программируемая социолога алгоритмов
полуавтоматическая
платформа

Общий вид площадки

⊛= Vis( M,a,b,c)

4 1

3 2

OpenSNAP

Сценарий площадки

4 1
�
«Социомат» 3 2

Библиотека OpenSNAP
операторов

Данные и форматы

⨋
℀
ETL ETL

1 2

Операторы и преобразования

ETL1 ETL1 op Vis

⊙
◉☉

⊙= op n( M,a,b,c)
◉☉

OpenSNAP в конкурентном ландшафте: данные

Небольшие, 1000 «Плоские» файлы в памяти
собранные в ручную данные узлов

Средние данные, SQL базы данных
10^6
Снимки сетей через API

Big Data Big Data технологии
Данные для обработки 10^9
в реальном времени

Наборы данных собранные в ручную или результаты предварительных
выборок могут поместиться в памяти. Графы в 1,000 узлов (с
вероятностью связности 0.8 = 800,000 связей) потребуют 100MB без учета
атрибутов. Такой же граф в 2,000 узлов (и почти 2М связей) потребует
500MB. В общем случае связность оценивается в O(n)=n +n2=n(n+1).

OpenSNAP зачем нам нужны Big Data решения?

1. Средства анализа и визуализации графов существуют уже в большом количестве и
разнообразии
2. Мы можем занять нишу коллекторов больших объемов данных с возможностями
ретроспективных временных срезов
3. Мы также можем построить технологии запуска вычислительных задач на наших
системах и это будет единственным живым решением для аналитиков во всем мире, т.к.
скачать их будет невозможно, если конечно они не инвестируют значительное время и
ресурсы для того, чтобы сделать ту работу, которую хотим взять на себя мы. Это также
обычно не задача исследователей + на инфраструктурные работы у них нет ресурсов

“…Going back to Twitter as an example, we can scan the 1% sample stream for general
trends and topics—anything important enough to generate at least a hundred messages
will probably show up. Or, since we are interested in networks, the very active people
will make a blip on our radar and we can even see some connections. If that is all we
want, storing even a few hundred gigs worth of traffic (in this example, equivalent to a
few months time) is no big deal. But what if we wanted to explore trends among the
lesser active participants over a few years? The answers would lie in some pretty big
data, and to get them, we would have to store and process it somehow.
Now that we have some idea of the scope of the problem, what do we do with a
terabyte of social chatter a day?
–Maksim Tsvetovat

Collaboration
Сотрудничество + платформа, дадут
возможность широкому кругу
исследователей сосредоточиться на
научных задачах вместо того, чтобы тратить
свое время на инфраструктуру вычислений
и работу с данными

I2 Social Network Analysis

Примеры того что сейчас есть Позволяет визуально представить структуру взаимоотношений в социальных
сетях путем расчета betweenness, closeness, degree and eigenvector hubs and
authorities centrality measures.
>video

DataSift

Примеры того что сейчас есть
Позволяет получить базу Твитов или подключиться к онлайн потоку, настроить фильтр и
визуализировать информацию. Для сторонних разработчиков выступает в роли
платформы для написания и встраивания своих фильтров.
>video

NetworkX
Примеры того что сейчас есть Библиотека на Python для анализа графов
>http://networkx.github.com

NodeXL
Примеры того что сейчас есть Приложение + Excel plugin для анализа графов
визуализации.
http://nodexl.codeplex.com
http://www.smrfoundation.org

Stanford Large Network Dataset Collection
Коллекция данных Лесковца
http://snap.stanford.edu/data/

Nodus Lab
Лаборатория типа того что мы хотели бы стать)
http://noduslabs.com/about/
http://www.facebook.com/noduslabs

Digital Society Laboratory (Аршавский)

Recommended

Recommended

More Related Content

What's hot

What's hot (12)

Viewers also liked

Viewers also liked (20)

Similar to Digital Society Laboratory (Аршавский)

Similar to Digital Society Laboratory (Аршавский) (20)

More from Andzhey Arshavskiy

More from Andzhey Arshavskiy (10)

Digital Society Laboratory (Аршавский)

Editor's Notes