ALMADA-2013
Докладчик: Алексей Зиновьев
О себе

● аспирант ОмГУ, математик
● занимаюсь теорией графов,
прогнозированием пробок, исследованием
транспортных систем
● большой фанат различных Maps API
Самый простой способ
заселиться в общагу МГУ
● Подать заявку на ALMADA-2013
● Выиграть конкурс CV
● Profit?!!!
Я никогда не
позволял школе
вмешиваться в
мое
образование.
После 3 месяцев ожидания мне
пришло подтверждение
Зачем ездить в Computer Science
школы?
● Если вы закончили матфак и в вас до сих пор играет
ретивое
● Мощный networking с учеными-практиками
● Возможность быть в первых рядах, павших за BigData
● Отличная возможность прокачать English
● Можно увидеть, как куча чудаков всю ночь делает
домашку, а потом сорваться и сделать ее самому
Типичные участники
Они следят за нами
● Уже на первых занятиях все
решили посчитать, а может ли
АНБ, а прав ли Сноуден?
● Все собравшиеся отчетливо
понимали, что их наука
немного evil
● BigData не было бы без
человека, генерирующего своим
существованием тонны
персональной информации
Откуда BigData есть быти?
BigData прошлого
● Астрономический
вычисления
● Данные
многолетних
наблюдений за
погодой
● Данные торговых
операций
● Морские маршруты
А теперь

●
●
●
●
●
●

Web-граф (модель Интернета)
Граф почтовых сообщений
Данные с БАК
Астрономия
Генетический код
Граф друзей на Facebook
Этические вопросы
Выгоды разумного
правительства и общества
● прямая демократия
● принятие оптимальных
решений
● снижение преступности
вследствие тотальной слежки
● снижение экономических
издержек (реабилитация
централизованного
планирования)
Этические вопросы
Выгоды IT - бизнеса
● конвертация продуктов в
сервисы
● создание новых рынков
● возможность изменить мир
● Интернет по всему миру
● доступ к гос.ресурсам
Большой брат?
●
●
●
●

Автоматическое правосудие
Полная публичность
Защита данных как услуга
Война патентов и защита
инноваций
● Ни один грех не будет забыт,
а если и будет, то за большие
деньги
● Исчезновение анонимности
● Нет бесплатных программ,
мы платим персональными
данными
Типы потоков в BigData
● Upstream - мы отсылаем свои геоданные куда - то;
● Downstream - мы скачиваем фильмы и слушаем
музыку;
● Продукты социального взаимодействия - сообщения,
лайки;
● Консолидация - сбор всех данных;
● Агрегация - по user_id, например;
● Деперсонализация - иногда есть, иногда ее нет.
● Восстановление идентичности по массиву данных,
легально ли это?
Courses
Alex Andoni (Microsoft Research, USA)
Sketching, Sampling, and other Sublinear Algorithms

Lars Arge (Aarhus University, Denmark)
I/O Efficient Algorithms and Data Structures

Mihai Budiu (Microsoft Research, USA)
Systems for Data-Intensive Parallel Computing

Giuseppe F. Italiano (University of Rome “Tor Vergata”,
Italy)
Algorithms for Big Data: Graphs and Memory Errors
Sketching, Sampling, and other
Sublinear Algorithms
Nearest Neighbor Search (NNS)
● найти ближайшую точку к данной на большом
множестве точек;
● растояние может быть любым.
Основные приложения
●
●
●
●
●

сервисы рекомендаций, генетические исследования;
распознавание образов;
классификация текстов;
рекомендательные и экспертные системы;
динамическое размещение рекламы в Интернете.
Sketching, Sampling, and other
Sublinear Algorithms
Диграмма Вороного
● Если мы сумеем построить
такую диаграмму, то любая
точка внутри ячейки находится
ближе к "центру" своей ячейки.
Точки на границе равноудалены
от "центров".
● Двумерный случай прост, в nмерном случае алгоритм
используются приближенные
алгоритмы
I/O Efficient Algorithms and Data
Structures
● Традиционный подход состоит в случайном чтении из
RAM
● Однако, стоит помнить, что уровней памяти много
● Чем дальше от CPU, тем больше и медленне
● Данные перемещаются между уровнями большими
блоками
● Часто OS берет на себя предсказание и подгрузку
● Диск в 10^6 медленнее RAM
● Разбиение на небольшие блоки и выполнение
операций внутри каждого блока с объединением
результата уменьшает число I/O операций
Node Centrality Problem
Зачем искать множество центральных точек?
● влияние таких точек больше остальных;
● удаление важных вершин снижает надежность
системы.
Основные приложения
●
●
●
●
●
●

астрофизика
биоинформатика
социальные связи
дорожные сети
изучение топологии интернета и выявление спама
системы рекомендаций
Эксперимент Милграма
● Facebook - 4.74; 712 M; 69 G
● Twitter - 3.67; 5G follows
● MSN Messenger (1 month) - 6.6; 180
M; 1.3 G arcs
● Hyper ANF - новый алгоритм,
основанный на счетчиках
HyperLogLog и вычислении
функции соседства
● HyperLogLog - статистический
счетчик (6% отклонение, 5 - 7 bits)
● Диаметр Facebook - 10 hours, 1TB
RAM
Но как работать с такими
данными?
● Hadoop + MapReduce тут не поможет
● Google для частного ряда задач
создал систему Pregel, аналогичная
система есть у компании Яндекс
● АНБ + KeyScore
● Вычисление доминаторных деревьев
в потоке информации, важных
персон
● Необходима линейность по времени
и логарифмичность по памяти
● Можно задавать некоторые сетки,
делать вычисления для подграфов
Graphs and Memory Errors
Что может привести к ошибкам?
● космическое излучение
● битый кусок винчестера
● ошибка при передаче данных из RAM в кэш
Чем чревато?
● классические алгоритмы (слияние списков, например)
не готовы к ошибкам
● выходом из строя критического оборудования
● редкость ошибок - миф (эксперимент Google)
Разработка алгоритмов, устойчивых к ошибкам ведется уже
50 лет!
Итоги
● Побыл неделю студентом МГУ
● Познакомился с крупнейшими
специалистами в области
алгоритмов BigData
● Знакомство с передовой Computer
Science
● Появилось ощущение научности и
значимости нашей работы
● Заряд позитива, чтобы передать
его коллегам

ALMADA 2013 (computer science school by Yandex and Microsoft Research)

  • 1.
  • 2.
    О себе ● аспирантОмГУ, математик ● занимаюсь теорией графов, прогнозированием пробок, исследованием транспортных систем ● большой фанат различных Maps API
  • 3.
    Самый простой способ заселитьсяв общагу МГУ ● Подать заявку на ALMADA-2013 ● Выиграть конкурс CV ● Profit?!!! Я никогда не позволял школе вмешиваться в мое образование.
  • 4.
    После 3 месяцевожидания мне пришло подтверждение
  • 5.
    Зачем ездить вComputer Science школы? ● Если вы закончили матфак и в вас до сих пор играет ретивое ● Мощный networking с учеными-практиками ● Возможность быть в первых рядах, павших за BigData ● Отличная возможность прокачать English ● Можно увидеть, как куча чудаков всю ночь делает домашку, а потом сорваться и сделать ее самому
  • 6.
  • 7.
    Они следят занами ● Уже на первых занятиях все решили посчитать, а может ли АНБ, а прав ли Сноуден? ● Все собравшиеся отчетливо понимали, что их наука немного evil ● BigData не было бы без человека, генерирующего своим существованием тонны персональной информации
  • 8.
    Откуда BigData естьбыти? BigData прошлого ● Астрономический вычисления ● Данные многолетних наблюдений за погодой ● Данные торговых операций ● Морские маршруты
  • 9.
    А теперь ● ● ● ● ● ● Web-граф (модельИнтернета) Граф почтовых сообщений Данные с БАК Астрономия Генетический код Граф друзей на Facebook
  • 10.
    Этические вопросы Выгоды разумного правительстваи общества ● прямая демократия ● принятие оптимальных решений ● снижение преступности вследствие тотальной слежки ● снижение экономических издержек (реабилитация централизованного планирования)
  • 11.
    Этические вопросы Выгоды IT- бизнеса ● конвертация продуктов в сервисы ● создание новых рынков ● возможность изменить мир ● Интернет по всему миру ● доступ к гос.ресурсам
  • 12.
    Большой брат? ● ● ● ● Автоматическое правосудие Полнаяпубличность Защита данных как услуга Война патентов и защита инноваций ● Ни один грех не будет забыт, а если и будет, то за большие деньги ● Исчезновение анонимности ● Нет бесплатных программ, мы платим персональными данными
  • 13.
    Типы потоков вBigData ● Upstream - мы отсылаем свои геоданные куда - то; ● Downstream - мы скачиваем фильмы и слушаем музыку; ● Продукты социального взаимодействия - сообщения, лайки; ● Консолидация - сбор всех данных; ● Агрегация - по user_id, например; ● Деперсонализация - иногда есть, иногда ее нет. ● Восстановление идентичности по массиву данных, легально ли это?
  • 14.
    Courses Alex Andoni (MicrosoftResearch, USA) Sketching, Sampling, and other Sublinear Algorithms Lars Arge (Aarhus University, Denmark) I/O Efficient Algorithms and Data Structures Mihai Budiu (Microsoft Research, USA) Systems for Data-Intensive Parallel Computing Giuseppe F. Italiano (University of Rome “Tor Vergata”, Italy) Algorithms for Big Data: Graphs and Memory Errors
  • 15.
    Sketching, Sampling, andother Sublinear Algorithms Nearest Neighbor Search (NNS) ● найти ближайшую точку к данной на большом множестве точек; ● растояние может быть любым. Основные приложения ● ● ● ● ● сервисы рекомендаций, генетические исследования; распознавание образов; классификация текстов; рекомендательные и экспертные системы; динамическое размещение рекламы в Интернете.
  • 16.
    Sketching, Sampling, andother Sublinear Algorithms Диграмма Вороного ● Если мы сумеем построить такую диаграмму, то любая точка внутри ячейки находится ближе к "центру" своей ячейки. Точки на границе равноудалены от "центров". ● Двумерный случай прост, в nмерном случае алгоритм используются приближенные алгоритмы
  • 17.
    I/O Efficient Algorithmsand Data Structures ● Традиционный подход состоит в случайном чтении из RAM ● Однако, стоит помнить, что уровней памяти много ● Чем дальше от CPU, тем больше и медленне ● Данные перемещаются между уровнями большими блоками ● Часто OS берет на себя предсказание и подгрузку ● Диск в 10^6 медленнее RAM ● Разбиение на небольшие блоки и выполнение операций внутри каждого блока с объединением результата уменьшает число I/O операций
  • 20.
    Node Centrality Problem Зачемискать множество центральных точек? ● влияние таких точек больше остальных; ● удаление важных вершин снижает надежность системы. Основные приложения ● ● ● ● ● ● астрофизика биоинформатика социальные связи дорожные сети изучение топологии интернета и выявление спама системы рекомендаций
  • 21.
    Эксперимент Милграма ● Facebook- 4.74; 712 M; 69 G ● Twitter - 3.67; 5G follows ● MSN Messenger (1 month) - 6.6; 180 M; 1.3 G arcs ● Hyper ANF - новый алгоритм, основанный на счетчиках HyperLogLog и вычислении функции соседства ● HyperLogLog - статистический счетчик (6% отклонение, 5 - 7 bits) ● Диаметр Facebook - 10 hours, 1TB RAM
  • 22.
    Но как работатьс такими данными? ● Hadoop + MapReduce тут не поможет ● Google для частного ряда задач создал систему Pregel, аналогичная система есть у компании Яндекс ● АНБ + KeyScore ● Вычисление доминаторных деревьев в потоке информации, важных персон ● Необходима линейность по времени и логарифмичность по памяти ● Можно задавать некоторые сетки, делать вычисления для подграфов
  • 23.
    Graphs and MemoryErrors Что может привести к ошибкам? ● космическое излучение ● битый кусок винчестера ● ошибка при передаче данных из RAM в кэш Чем чревато? ● классические алгоритмы (слияние списков, например) не готовы к ошибкам ● выходом из строя критического оборудования ● редкость ошибок - миф (эксперимент Google) Разработка алгоритмов, устойчивых к ошибкам ведется уже 50 лет!
  • 30.
    Итоги ● Побыл неделюстудентом МГУ ● Познакомился с крупнейшими специалистами в области алгоритмов BigData ● Знакомство с передовой Computer Science ● Появилось ощущение научности и значимости нашей работы ● Заряд позитива, чтобы передать его коллегам