ALMADA 2013 (computer science school by Yandex and Microsoft Research)

ALMADA-2013
Докладчик: Алексей Зиновьев

О себе

● аспирант ОмГУ, математик
● занимаюсь теорией графов,
прогнозированием пробок, исследованием
транспортных систем
● большой фанат различных Maps API

Самый простой способ
заселиться в общагу МГУ
● Подать заявку на ALMADA-2013
● Выиграть конкурс CV
● Profit?!!!
Я никогда не
позволял школе
вмешиваться в
мое
образование.

После 3 месяцев ожидания мне
пришло подтверждение

Зачем ездить в Computer Science
школы?
● Если вы закончили матфак и в вас до сих пор играет
ретивое
● Мощный networking с учеными-практиками
● Возможность быть в первых рядах, павших за BigData
● Отличная возможность прокачать English
● Можно увидеть, как куча чудаков всю ночь делает
домашку, а потом сорваться и сделать ее самому

Типичные участники

Они следят за нами
● Уже на первых занятиях все
решили посчитать, а может ли
АНБ, а прав ли Сноуден?
● Все собравшиеся отчетливо
понимали, что их наука
немного evil
● BigData не было бы без
человека, генерирующего своим
существованием тонны
персональной информации

Откуда BigData есть быти?
BigData прошлого
● Астрономический
вычисления
● Данные
многолетних
наблюдений за
погодой
● Данные торговых
операций
● Морские маршруты

А теперь

●
●
●
●
●
●

Web-граф (модель Интернета)
Граф почтовых сообщений
Данные с БАК
Астрономия
Генетический код
Граф друзей на Facebook

Этические вопросы
Выгоды разумного
правительства и общества
● прямая демократия
● принятие оптимальных
решений
● снижение преступности
вследствие тотальной слежки
● снижение экономических
издержек (реабилитация
централизованного
планирования)

Этические вопросы
Выгоды IT - бизнеса
● конвертация продуктов в
сервисы
● создание новых рынков
● возможность изменить мир
● Интернет по всему миру
● доступ к гос.ресурсам

Большой брат?
●
●
●
●

Автоматическое правосудие
Полная публичность
Защита данных как услуга
Война патентов и защита
инноваций
● Ни один грех не будет забыт,
а если и будет, то за большие
деньги
● Исчезновение анонимности
● Нет бесплатных программ,
мы платим персональными
данными

Типы потоков в BigData
● Upstream - мы отсылаем свои геоданные куда - то;
● Downstream - мы скачиваем фильмы и слушаем
музыку;
● Продукты социального взаимодействия - сообщения,
лайки;
● Консолидация - сбор всех данных;
● Агрегация - по user_id, например;
● Деперсонализация - иногда есть, иногда ее нет.
● Восстановление идентичности по массиву данных,
легально ли это?

Courses
Alex Andoni (Microsoft Research, USA)
Sketching, Sampling, and other Sublinear Algorithms

Lars Arge (Aarhus University, Denmark)
I/O Efficient Algorithms and Data Structures

Mihai Budiu (Microsoft Research, USA)
Systems for Data-Intensive Parallel Computing

Giuseppe F. Italiano (University of Rome “Tor Vergata”,
Italy)
Algorithms for Big Data: Graphs and Memory Errors

Sketching, Sampling, and other
Sublinear Algorithms
Nearest Neighbor Search (NNS)
● найти ближайшую точку к данной на большом
множестве точек;
● растояние может быть любым.
Основные приложения
●
●
●
●
●

сервисы рекомендаций, генетические исследования;
распознавание образов;
классификация текстов;
рекомендательные и экспертные системы;
динамическое размещение рекламы в Интернете.

Sketching, Sampling, and other
Sublinear Algorithms
Диграмма Вороного
● Если мы сумеем построить
такую диаграмму, то любая
точка внутри ячейки находится
ближе к "центру" своей ячейки.
Точки на границе равноудалены
от "центров".
● Двумерный случай прост, в nмерном случае алгоритм
используются приближенные
алгоритмы

I/O Efficient Algorithms and Data
Structures
● Традиционный подход состоит в случайном чтении из
RAM
● Однако, стоит помнить, что уровней памяти много
● Чем дальше от CPU, тем больше и медленне
● Данные перемещаются между уровнями большими
блоками
● Часто OS берет на себя предсказание и подгрузку
● Диск в 10^6 медленнее RAM
● Разбиение на небольшие блоки и выполнение
операций внутри каждого блока с объединением
результата уменьшает число I/O операций

Node Centrality Problem
Зачем искать множество центральных точек?
● влияние таких точек больше остальных;
● удаление важных вершин снижает надежность
системы.
Основные приложения
●
●
●
●
●
●

астрофизика
биоинформатика
социальные связи
дорожные сети
изучение топологии интернета и выявление спама
системы рекомендаций

Эксперимент Милграма
● Facebook - 4.74; 712 M; 69 G
● Twitter - 3.67; 5G follows
● MSN Messenger (1 month) - 6.6; 180
M; 1.3 G arcs
● Hyper ANF - новый алгоритм,
основанный на счетчиках
HyperLogLog и вычислении
функции соседства
● HyperLogLog - статистический
счетчик (6% отклонение, 5 - 7 bits)
● Диаметр Facebook - 10 hours, 1TB
RAM

Но как работать с такими
данными?
● Hadoop + MapReduce тут не поможет
● Google для частного ряда задач
создал систему Pregel, аналогичная
система есть у компании Яндекс
● АНБ + KeyScore
● Вычисление доминаторных деревьев
в потоке информации, важных
персон
● Необходима линейность по времени
и логарифмичность по памяти
● Можно задавать некоторые сетки,
делать вычисления для подграфов

Graphs and Memory Errors
Что может привести к ошибкам?
● космическое излучение
● битый кусок винчестера
● ошибка при передаче данных из RAM в кэш
Чем чревато?
● классические алгоритмы (слияние списков, например)
не готовы к ошибкам
● выходом из строя критического оборудования
● редкость ошибок - миф (эксперимент Google)
Разработка алгоритмов, устойчивых к ошибкам ведется уже
50 лет!

Итоги
● Побыл неделю студентом МГУ
● Познакомился с крупнейшими
специалистами в области
алгоритмов BigData
● Знакомство с передовой Computer
Science
● Появилось ощущение научности и
значимости нашей работы
● Заряд позитива, чтобы передать
его коллегам

ALMADA 2013 (computer science school by Yandex and Microsoft Research)

More Related Content

Similar to ALMADA 2013 (computer science school by Yandex and Microsoft Research)

More from Alexey Zinoviev

ALMADA 2013 (computer science school by Yandex and Microsoft Research)