SlideShare a Scribd company logo
1 of 21
цели



Digital Society Laboratory

ЛЦО
Направления исследований
Направления исследований
                                         Экономика внимания



                                    Исследования интернет сообществ



                                     Информационная вирусология



                                     Анализ вкусовых предпочтений



                                      Топология социальных сетей
Модель работы
Направления исследований


                                                       Developers




                                            Data
                                          Scientists


                                                               Sociologists



                               OpenSNAP
концепция и перспектива



Digital Society Laboratory

OpenSNAP
Идея платформы OpenSNAP




Идея

Мы хотим построить универсальную систему работы с данными
социальных сетей. Систему, ориентированную на накопление и
параллельную обработку данных о взаимодействиях пользователей
ряда соцсетей. Эта система станет ядром платформы для упрощения
социального анализа и осуществления сложных аналитических запросов
к социальным графам.
Примеры вопросов на которые поможет ответить OpenSNAP


Примеры аналитических запросов:

• «Найти ТОП2000 социально влиятельной аудитории, которая
  проводит в соцсетях более 2 часов в день со следующими
  параметрами < мужчины>,<30-45>,<средний достаток>.В ответе
  указать статистику временной и тематической активности в
  различных СС.»

• «Показать как изменялась структура сети и модель общения за
  последний год в русскоязычном facebook и сравнить эти изменения с
  тем, что происходило в “моем мире”

• «Провести подсчет индикаций вкусовых предпочтений в Вконтакте
  по кино и книгам у заданной списком имен и доп. параметров
  аудитории»
Стратегия монетизации монетизация




Бизнес модель:

Предоставление вычислительных и информационных услуг
исследователям, рекламным компаниям и компаниям
развивающим интернет проекты. Мы дадим возможность
исследователям и стартапам анализировать данные
социальных сетей на универсальной площадке с готовой
инфраструктурой.                       4 ступеней модели>>
Четыре ступени бизнес модели


                                                              👬
        👬               👬               👬

        👬               👬               👬

        👬               👬
        👬                          Среда работы         Аналитический
                                     внешних              инструмент
        👬                         исследователей         маркетологов
                                         +
                     Инструмент   Рынок данных и
 Программируемая      социолога     алгоритмов
полуавтоматическая
    платформа
Общий вид площадки




                     ⊛= Vis( M,a,b,c)

                                        4   1

                                        3   2

                      OpenSNAP
Сценарий площадки


                    4     1
         �
      «Социомат»    3     2




Библиотека          OpenSNAP
операторов
Данные и форматы




                   ⨋
                         ℀
         ETL       ETL




         1         2
Операторы и преобразования



   ETL1       ETL1        op           Vis




                     ⊙
                     ◉☉


                          ⊙= op n( M,a,b,c)
                          ◉☉
OpenSNAP в конкурентном ландшафте: данные


                                  Небольшие,   1000    «Плоские» файлы в памяти
                   собранные в ручную данные   узлов


                        Средние данные,                       SQL базы данных
                                               10^6
                   Снимки сетей через API

                           Big Data                                 Big Data технологии
              Данные для обработки             10^9
        в реальном времени




Наборы данных собранные в ручную или результаты предварительных
выборок могут поместиться в памяти. Графы в 1,000 узлов (с
вероятностью связности 0.8 = 800,000 связей) потребуют 100MB без учета
атрибутов. Такой же граф в 2,000 узлов (и почти 2М связей) потребует
500MB. В общем случае связность оценивается в O(n)=n +n2=n(n+1).
OpenSNAP зачем нам нужны Big Data решения?

  1. Средства анализа и визуализации графов существуют уже в большом количестве и
     разнообразии
  2. Мы можем занять нишу коллекторов больших объемов данных с возможностями
     ретроспективных временных срезов
  3. Мы также можем построить технологии запуска вычислительных задач на наших
     системах и это будет единственным живым решением для аналитиков во всем мире, т.к.
     скачать их будет невозможно, если конечно они не инвестируют значительное время и
     ресурсы для того, чтобы сделать ту работу, которую хотим взять на себя мы. Это также
     обычно не задача исследователей + на инфраструктурные работы у них нет ресурсов

“…Going back to Twitter as an example, we can scan the 1% sample stream for general
trends and topics—anything important enough to generate at least a hundred messages
will probably show up. Or, since we are interested in networks, the very active people
will make a blip on our radar and we can even see some connections. If that is all we
want, storing even a few hundred gigs worth of traffic (in this example, equivalent to a
few months time) is no big deal. But what if we wanted to explore trends among the
lesser active participants over a few years? The answers would lie in some pretty big
data, and to get them, we would have to store and process it somehow.
Now that we have some idea of the scope of the problem, what do we do with a
terabyte of social chatter a day?
                                            –Maksim Tsvetovat
Collaboration
Сотрудничество + платформа, дадут
возможность широкому кругу
исследователей сосредоточиться на
научных задачах вместо того, чтобы тратить
свое время на инфраструктуру вычислений
и работу с данными
I2 Social Network Analysis

Примеры того что сейчас есть   Позволяет визуально представить структуру взаимоотношений в социальных
                               сетях путем расчета betweenness, closeness, degree and eigenvector hubs and
                               authorities centrality measures.
                               >video
DataSift

Примеры того что сейчас есть
                               Позволяет получить базу Твитов или подключиться к онлайн потоку, настроить фильтр и
                               визуализировать информацию. Для сторонних разработчиков выступает в роли
                               платформы для написания и встраивания своих фильтров.
                               >video
NetworkX
Примеры того что сейчас есть   Библиотека на Python для анализа графов
                               >http://networkx.github.com
NodeXL
Примеры того что сейчас есть   Приложение + Excel plugin для анализа графов
                               визуализации.
                               http://nodexl.codeplex.com
                               http://www.smrfoundation.org
Stanford Large Network Dataset Collection
Примеры того что сейчас есть
                               Коллекция данных Лесковца
                               http://snap.stanford.edu/data/
Nodus Lab
Примеры того что сейчас есть
                               Лаборатория типа того что мы хотели бы стать)
                               http://noduslabs.com/about/
                               http://www.facebook.com/noduslabs

More Related Content

What's hot

информационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернетинформационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернетInno4ka2323
 
20150129 минобороны презентация v02
20150129 минобороны презентация v0220150129 минобороны презентация v02
20150129 минобороны презентация v02finnopolis
 
Search systems
Search systemsSearch systems
Search systemsKuznecov
 
Разновидности поисковых систем в Интернете
Разновидности поисковых систем в ИнтернетеРазновидности поисковых систем в Интернете
Разновидности поисковых систем в Интернетеobstinate
 
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)Julia Glavcheva
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAINL Conferences
 
Структура и алгоритмы Q&A сервиса на примере Aardvark
Структура и алгоритмы Q&A сервиса на примере AardvarkСтруктура и алгоритмы Q&A сервиса на примере Aardvark
Структура и алгоритмы Q&A сервиса на примере AardvarkWitology
 
Современное программное обеспечение в работе психолога
Современное программное обеспечение в работе психологаСовременное программное обеспечение в работе психолога
Современное программное обеспечение в работе психологаKyrylo Zakharov
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в ИнтернетеДарья
 

What's hot (12)

информационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернетинформационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернет
 
Brands.i look v5-n4
Brands.i look v5-n4Brands.i look v5-n4
Brands.i look v5-n4
 
20150129 минобороны презентация v02
20150129 минобороны презентация v0220150129 минобороны презентация v02
20150129 минобороны презентация v02
 
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатовИнформационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
 
Search systems
Search systemsSearch systems
Search systems
 
лекция 5
лекция 5лекция 5
лекция 5
 
Разновидности поисковых систем в Интернете
Разновидности поисковых систем в ИнтернетеРазновидности поисковых систем в Интернете
Разновидности поисковых систем в Интернете
 
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическая
 
Структура и алгоритмы Q&A сервиса на примере Aardvark
Структура и алгоритмы Q&A сервиса на примере AardvarkСтруктура и алгоритмы Q&A сервиса на примере Aardvark
Структура и алгоритмы Q&A сервиса на примере Aardvark
 
Современное программное обеспечение в работе психолога
Современное программное обеспечение в работе психологаСовременное программное обеспечение в работе психолога
Современное программное обеспечение в работе психолога
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
 

Viewers also liked

Second Language Acquisition and Schizophrenia
Second Language Acquisition and SchizophreniaSecond Language Acquisition and Schizophrenia
Second Language Acquisition and SchizophreniaJoan Cahuich Perez
 
Could Martial Arts Improve Your Life
Could Martial Arts Improve Your LifeCould Martial Arts Improve Your Life
Could Martial Arts Improve Your Lifekaratedojo2
 
Kredyty, finanse, doradztwo w Wroclaw
Kredyty, finanse, doradztwo w WroclawKredyty, finanse, doradztwo w Wroclaw
Kredyty, finanse, doradztwo w WroclawAnnkopyttko
 
Generalized capital investment planning of oil-refineries using CPLEX-MILP an...
Generalized capital investment planning of oil-refineries using CPLEX-MILP an...Generalized capital investment planning of oil-refineries using CPLEX-MILP an...
Generalized capital investment planning of oil-refineries using CPLEX-MILP an...Alkis Vazacopoulos
 
Arthst2 mat techniques_porcelainlacqueredwood_final
Arthst2 mat techniques_porcelainlacqueredwood_finalArthst2 mat techniques_porcelainlacqueredwood_final
Arthst2 mat techniques_porcelainlacqueredwood_finalall_abby
 
影像好日子隨手拍
影像好日子隨手拍 影像好日子隨手拍
影像好日子隨手拍 小華 黃
 
Time Series Estimation of Gas Furnace Data in IMPL and CPLEX Industrial Model...
Time Series Estimation of Gas Furnace Data in IMPL and CPLEX Industrial Model...Time Series Estimation of Gas Furnace Data in IMPL and CPLEX Industrial Model...
Time Series Estimation of Gas Furnace Data in IMPL and CPLEX Industrial Model...Alkis Vazacopoulos
 
Reimagine your enterprise: Make Human Centered Design the Heart of Your Digit...
Reimagine your enterprise: Make Human Centered Design the Heart of Your Digit...Reimagine your enterprise: Make Human Centered Design the Heart of Your Digit...
Reimagine your enterprise: Make Human Centered Design the Heart of Your Digit...Kenneth Kwan
 
소셜 네트워크
소셜 네트워크소셜 네트워크
소셜 네트워크현호 신
 
Modeling Multimodal Process Operations
Modeling Multimodal Process OperationsModeling Multimodal Process Operations
Modeling Multimodal Process OperationsAlkis Vazacopoulos
 
Moo cs digitalisation_book-mooc_cmg
Moo cs digitalisation_book-mooc_cmgMoo cs digitalisation_book-mooc_cmg
Moo cs digitalisation_book-mooc_cmgCormac McGrath
 
о компании
о компаниио компании
о компанииAkuJIa
 
The walking dead
The walking deadThe walking dead
The walking deadGabe Gerzon
 

Viewers also liked (20)

8 marzo
8 marzo8 marzo
8 marzo
 
Second Language Acquisition and Schizophrenia
Second Language Acquisition and SchizophreniaSecond Language Acquisition and Schizophrenia
Second Language Acquisition and Schizophrenia
 
Could Martial Arts Improve Your Life
Could Martial Arts Improve Your LifeCould Martial Arts Improve Your Life
Could Martial Arts Improve Your Life
 
Lalu pleelu
Lalu pleeluLalu pleelu
Lalu pleelu
 
Kredyty, finanse, doradztwo w Wroclaw
Kredyty, finanse, doradztwo w WroclawKredyty, finanse, doradztwo w Wroclaw
Kredyty, finanse, doradztwo w Wroclaw
 
Generalized capital investment planning of oil-refineries using CPLEX-MILP an...
Generalized capital investment planning of oil-refineries using CPLEX-MILP an...Generalized capital investment planning of oil-refineries using CPLEX-MILP an...
Generalized capital investment planning of oil-refineries using CPLEX-MILP an...
 
植物生理学第13回
植物生理学第13回植物生理学第13回
植物生理学第13回
 
Dsl public
Dsl publicDsl public
Dsl public
 
Arthst2 mat techniques_porcelainlacqueredwood_final
Arthst2 mat techniques_porcelainlacqueredwood_finalArthst2 mat techniques_porcelainlacqueredwood_final
Arthst2 mat techniques_porcelainlacqueredwood_final
 
影像好日子隨手拍
影像好日子隨手拍 影像好日子隨手拍
影像好日子隨手拍
 
Intropdf
IntropdfIntropdf
Intropdf
 
Lalalalalallalaa
LalalalalallalaaLalalalalallalaa
Lalalalalallalaa
 
Time Series Estimation of Gas Furnace Data in IMPL and CPLEX Industrial Model...
Time Series Estimation of Gas Furnace Data in IMPL and CPLEX Industrial Model...Time Series Estimation of Gas Furnace Data in IMPL and CPLEX Industrial Model...
Time Series Estimation of Gas Furnace Data in IMPL and CPLEX Industrial Model...
 
Reimagine your enterprise: Make Human Centered Design the Heart of Your Digit...
Reimagine your enterprise: Make Human Centered Design the Heart of Your Digit...Reimagine your enterprise: Make Human Centered Design the Heart of Your Digit...
Reimagine your enterprise: Make Human Centered Design the Heart of Your Digit...
 
소셜 네트워크
소셜 네트워크소셜 네트워크
소셜 네트워크
 
Modeling Multimodal Process Operations
Modeling Multimodal Process OperationsModeling Multimodal Process Operations
Modeling Multimodal Process Operations
 
Moo cs digitalisation_book-mooc_cmg
Moo cs digitalisation_book-mooc_cmgMoo cs digitalisation_book-mooc_cmg
Moo cs digitalisation_book-mooc_cmg
 
о компании
о компаниио компании
о компании
 
The walking dead
The walking deadThe walking dead
The walking dead
 
Ads
AdsAds
Ads
 

Similar to Digital Society Laboratory (Аршавский)

зао «эвентос»
зао «эвентос»зао «эвентос»
зао «эвентос»ontosminerapi
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙqueryhunter
 
Сколково. Кластер ИТ
Сколково. Кластер ИТСколково. Кластер ИТ
Сколково. Кластер ИТVasily Ryzhonkov
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Evgeniy Pavlovskiy
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovoqueryhunter
 
Логическая витрина данных
Логическая витрина данныхЛогическая витрина данных
Логическая витрина данныхSergey Gorshkov
 
Программа семинара
Программа семинараПрограмма семинара
Программа семинараWitology
 
Графовый грааль (GraphGrail) - презентация проекта для фондов (2013)
Графовый грааль (GraphGrail) - презентация проекта для фондов (2013)Графовый грааль (GraphGrail) - презентация проекта для фондов (2013)
Графовый грааль (GraphGrail) - презентация проекта для фондов (2013)Vic N
 
Профессия Data Scientist
 Профессия Data Scientist Профессия Data Scientist
Профессия Data ScientistLeonid Zhukov
 
графовый грааль для фрии (2014)
графовый грааль   для фрии (2014)графовый грааль   для фрии (2014)
графовый грааль для фрии (2014)Vic N
 
Графовый Грааль - для ФРИИ (2014)
Графовый Грааль - для ФРИИ (2014)Графовый Грааль - для ФРИИ (2014)
Графовый Грааль - для ФРИИ (2014)Vic N
 
презентация оо субд сколково
презентация оо субд сколковопрезентация оо субд сколково
презентация оо субд сколковоvagrachev
 
Графовый Грааль - для ФРИИ (09.07.2014)
Графовый Грааль - для ФРИИ (09.07.2014)Графовый Грааль - для ФРИИ (09.07.2014)
Графовый Грааль - для ФРИИ (09.07.2014)Vic N
 
Презентация Сколково на конференции Перспективные системы и задачи упралвления
 Презентация Сколково на конференции Перспективные системы и задачи упралвления Презентация Сколково на конференции Перспективные системы и задачи упралвления
Презентация Сколково на конференции Перспективные системы и задачи упралвленияAlbert Yefimov
 
брошюра сколково кластер ит
брошюра сколково кластер итброшюра сколково кластер ит
брошюра сколково кластер итThe Skolkovo Foundation
 
графовый грааль 2мин. demo day (2014)
графовый грааль   2мин. demo day (2014)графовый грааль   2мин. demo day (2014)
графовый грааль 2мин. demo day (2014)Vic N
 
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
Семинар 24-25 апреля 2014 г.  «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»Семинар 24-25 апреля 2014 г.  «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»АНАЛИТИКА ПЛЮС
 
Основы концептуального проектирования
Основы концептуального проектированияОсновы концептуального проектирования
Основы концептуального проектированияAnton Tyukov
 

Similar to Digital Society Laboratory (Аршавский) (20)

Artem abm
Artem abmArtem abm
Artem abm
 
зао «эвентос»
зао «эвентос»зао «эвентос»
зао «эвентос»
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
 
Сколково. Кластер ИТ
Сколково. Кластер ИТСколково. Кластер ИТ
Сколково. Кластер ИТ
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovo
 
Логическая витрина данных
Логическая витрина данныхЛогическая витрина данных
Логическая витрина данных
 
Программа семинара
Программа семинараПрограмма семинара
Программа семинара
 
Графовый грааль (GraphGrail) - презентация проекта для фондов (2013)
Графовый грааль (GraphGrail) - презентация проекта для фондов (2013)Графовый грааль (GraphGrail) - презентация проекта для фондов (2013)
Графовый грааль (GraphGrail) - презентация проекта для фондов (2013)
 
Профессия Data Scientist
 Профессия Data Scientist Профессия Data Scientist
Профессия Data Scientist
 
Взгляд на Data Science
Взгляд на Data ScienceВзгляд на Data Science
Взгляд на Data Science
 
графовый грааль для фрии (2014)
графовый грааль   для фрии (2014)графовый грааль   для фрии (2014)
графовый грааль для фрии (2014)
 
Графовый Грааль - для ФРИИ (2014)
Графовый Грааль - для ФРИИ (2014)Графовый Грааль - для ФРИИ (2014)
Графовый Грааль - для ФРИИ (2014)
 
презентация оо субд сколково
презентация оо субд сколковопрезентация оо субд сколково
презентация оо субд сколково
 
Графовый Грааль - для ФРИИ (09.07.2014)
Графовый Грааль - для ФРИИ (09.07.2014)Графовый Грааль - для ФРИИ (09.07.2014)
Графовый Грааль - для ФРИИ (09.07.2014)
 
Презентация Сколково на конференции Перспективные системы и задачи упралвления
 Презентация Сколково на конференции Перспективные системы и задачи упралвления Презентация Сколково на конференции Перспективные системы и задачи упралвления
Презентация Сколково на конференции Перспективные системы и задачи упралвления
 
брошюра сколково кластер ит
брошюра сколково кластер итброшюра сколково кластер ит
брошюра сколково кластер ит
 
графовый грааль 2мин. demo day (2014)
графовый грааль   2мин. demo day (2014)графовый грааль   2мин. demo day (2014)
графовый грааль 2мин. demo day (2014)
 
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
Семинар 24-25 апреля 2014 г.  «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»Семинар 24-25 апреля 2014 г.  «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
 
Основы концептуального проектирования
Основы концептуального проектированияОсновы концептуального проектирования
Основы концептуального проектирования
 

More from Andzhey Arshavskiy

More from Andzhey Arshavskiy (10)

dsl & bigdata
dsl & bigdatadsl & bigdata
dsl & bigdata
 
BigData in Banking
BigData in BankingBigData in Banking
BigData in Banking
 
Digital Society Lab (about)
Digital Society Lab (about)Digital Society Lab (about)
Digital Society Lab (about)
 
Digital Society Laboratory (DSL)
Digital Society Laboratory (DSL)Digital Society Laboratory (DSL)
Digital Society Laboratory (DSL)
 
WHAT IS BIG DATA? AND HOW IT APPLIED IN MODERN MARKETING
WHAT IS BIG DATA? AND HOW IT APPLIED IN MODERN MARKETINGWHAT IS BIG DATA? AND HOW IT APPLIED IN MODERN MARKETING
WHAT IS BIG DATA? AND HOW IT APPLIED IN MODERN MARKETING
 
Dmitry Gubanov presentation for ФИSNA
Dmitry Gubanov presentation for ФИSNADmitry Gubanov presentation for ФИSNA
Dmitry Gubanov presentation for ФИSNA
 
Дмитрий Игнатов для ФИSNA
Дмитрий Игнатов для ФИSNAДмитрий Игнатов для ФИSNA
Дмитрий Игнатов для ФИSNA
 
мосты
мостымосты
мосты
 
Japan creativity.pps
Japan creativity.ppsJapan creativity.pps
Japan creativity.pps
 
Big data, Clouds & HPC
Big data, Clouds & HPCBig data, Clouds & HPC
Big data, Clouds & HPC
 

Digital Society Laboratory (Аршавский)

  • 2. Направления исследований Направления исследований Экономика внимания Исследования интернет сообществ Информационная вирусология Анализ вкусовых предпочтений Топология социальных сетей
  • 3. Модель работы Направления исследований Developers Data Scientists Sociologists OpenSNAP
  • 5. Идея платформы OpenSNAP Идея Мы хотим построить универсальную систему работы с данными социальных сетей. Систему, ориентированную на накопление и параллельную обработку данных о взаимодействиях пользователей ряда соцсетей. Эта система станет ядром платформы для упрощения социального анализа и осуществления сложных аналитических запросов к социальным графам.
  • 6. Примеры вопросов на которые поможет ответить OpenSNAP Примеры аналитических запросов: • «Найти ТОП2000 социально влиятельной аудитории, которая проводит в соцсетях более 2 часов в день со следующими параметрами < мужчины>,<30-45>,<средний достаток>.В ответе указать статистику временной и тематической активности в различных СС.» • «Показать как изменялась структура сети и модель общения за последний год в русскоязычном facebook и сравнить эти изменения с тем, что происходило в “моем мире” • «Провести подсчет индикаций вкусовых предпочтений в Вконтакте по кино и книгам у заданной списком имен и доп. параметров аудитории»
  • 7. Стратегия монетизации монетизация Бизнес модель: Предоставление вычислительных и информационных услуг исследователям, рекламным компаниям и компаниям развивающим интернет проекты. Мы дадим возможность исследователям и стартапам анализировать данные социальных сетей на универсальной площадке с готовой инфраструктурой. 4 ступеней модели>>
  • 8. Четыре ступени бизнес модели 👬 👬 👬 👬 👬 👬 👬 👬 👬 👬 Среда работы Аналитический внешних инструмент 👬 исследователей маркетологов + Инструмент Рынок данных и Программируемая социолога алгоритмов полуавтоматическая платформа
  • 9. Общий вид площадки ⊛= Vis( M,a,b,c) 4 1 3 2 OpenSNAP
  • 10. Сценарий площадки 4 1 � «Социомат» 3 2 Библиотека OpenSNAP операторов
  • 11. Данные и форматы ⨋ ℀ ETL ETL 1 2
  • 12. Операторы и преобразования ETL1 ETL1 op Vis ⊙ ◉☉ ⊙= op n( M,a,b,c) ◉☉
  • 13. OpenSNAP в конкурентном ландшафте: данные Небольшие, 1000 «Плоские» файлы в памяти собранные в ручную данные узлов Средние данные, SQL базы данных 10^6 Снимки сетей через API Big Data Big Data технологии Данные для обработки 10^9 в реальном времени Наборы данных собранные в ручную или результаты предварительных выборок могут поместиться в памяти. Графы в 1,000 узлов (с вероятностью связности 0.8 = 800,000 связей) потребуют 100MB без учета атрибутов. Такой же граф в 2,000 узлов (и почти 2М связей) потребует 500MB. В общем случае связность оценивается в O(n)=n +n2=n(n+1).
  • 14. OpenSNAP зачем нам нужны Big Data решения? 1. Средства анализа и визуализации графов существуют уже в большом количестве и разнообразии 2. Мы можем занять нишу коллекторов больших объемов данных с возможностями ретроспективных временных срезов 3. Мы также можем построить технологии запуска вычислительных задач на наших системах и это будет единственным живым решением для аналитиков во всем мире, т.к. скачать их будет невозможно, если конечно они не инвестируют значительное время и ресурсы для того, чтобы сделать ту работу, которую хотим взять на себя мы. Это также обычно не задача исследователей + на инфраструктурные работы у них нет ресурсов “…Going back to Twitter as an example, we can scan the 1% sample stream for general trends and topics—anything important enough to generate at least a hundred messages will probably show up. Or, since we are interested in networks, the very active people will make a blip on our radar and we can even see some connections. If that is all we want, storing even a few hundred gigs worth of traffic (in this example, equivalent to a few months time) is no big deal. But what if we wanted to explore trends among the lesser active participants over a few years? The answers would lie in some pretty big data, and to get them, we would have to store and process it somehow. Now that we have some idea of the scope of the problem, what do we do with a terabyte of social chatter a day? –Maksim Tsvetovat
  • 15. Collaboration Сотрудничество + платформа, дадут возможность широкому кругу исследователей сосредоточиться на научных задачах вместо того, чтобы тратить свое время на инфраструктуру вычислений и работу с данными
  • 16. I2 Social Network Analysis Примеры того что сейчас есть Позволяет визуально представить структуру взаимоотношений в социальных сетях путем расчета betweenness, closeness, degree and eigenvector hubs and authorities centrality measures. >video
  • 17. DataSift Примеры того что сейчас есть Позволяет получить базу Твитов или подключиться к онлайн потоку, настроить фильтр и визуализировать информацию. Для сторонних разработчиков выступает в роли платформы для написания и встраивания своих фильтров. >video
  • 18. NetworkX Примеры того что сейчас есть Библиотека на Python для анализа графов >http://networkx.github.com
  • 19. NodeXL Примеры того что сейчас есть Приложение + Excel plugin для анализа графов визуализации. http://nodexl.codeplex.com http://www.smrfoundation.org
  • 20. Stanford Large Network Dataset Collection Примеры того что сейчас есть Коллекция данных Лесковца http://snap.stanford.edu/data/
  • 21. Nodus Lab Примеры того что сейчас есть Лаборатория типа того что мы хотели бы стать) http://noduslabs.com/about/ http://www.facebook.com/noduslabs

Editor's Notes

  1. http://jarens.ru/анализ-социальных-сетей-в-i2-analyst-notebook/:Продукция компании i2 является весьма популярной в различных аналитических службах. И как следствие — дорогой. Особенно распиарена их платформа Analyst Notebook, предназначенная для анализа связей (Link Analysis). А также в неё есть некоторый функционал для анализа социальных сетей (Social Network Analysis). Предлагаемый по ссылке вебинар смотреть я не стал и, так как инструмент был под руками, решил его опробовать.Для начала построил картинку по данным диссера:На вид она весьма читаема за счёт удачного расположения узлов. Однако, если приглядеться, то можно увидеть, что веса исходящих и входящих связей на ней отображены отдельно. Возможно, в каких-то ситуациях это и является преимуществом, если бы не одно “но”. Суммировать эти веса AnalystNotebook не умеет. Вроде бы и тривиальная вещь, а тем не менее.Из сетевых метрик есть только классические показатели центральности: degree, closeness, betweenness и eigenvector. Всё. На этом функционал сетевого анализа заканчивается. Разве что масштабирование размеров узлов есть в зависимости от центральности. Но это уже больше к визуализации относится.Вообще, меня не покидает ощущение, что программы подобного класса по сути продают воздух. Вся их ценность, на мой взгляд, заключается только в семантическом слое, который позволяет создавать запросы к БД перетаскиванием иконок. Кстати, функционал БД у них тоже дублируется приложением iBase, смысл которого мне тем более не понятен, т.к. AnalystNotebook умеет подключаться к MS SQL Server напрямую.Впрочем, такую бедность инструментария AnalystNotebook можно списать на основные цели программы. Всё таки LinkAnalysis предназначен в основном для поиска связей между сущностями, в то время как анализ социальных сетей предназначен для изучения уже имеющихся связей. Поэтому вполне разумно использовать эти методологии и соответствующие им инструменты последовательно, в связке: LA -&gt; SNA. Если у меня получится подобный кейс — расскажу.