2. CREDITS
2
“Big Data” - Nathan Marz и James Warren
Принципы построения и лучшие практики
масштабируемых информационных систем
реального времени.
Nathan Marz – работал в Backtype, Twitter.
Автор фреймворков Storm, Cascalog, ElephantDb.
5. VOLUME
5
Всего за два дня мы генерируем столько же информации,
сколько было создано с начала человеческой истории
вплоть до 2003 года.
Ожидается, что к 2020 году объем существующей цифровой
информации вырастет с текущих 3,2 зеттабайт до 40
зеттабайт. (1 ZB = 1000000000000 GB)
Объем хранимых данных у большинства компаний в США –
100+ TB данных.
С появлением Internet of Things объем хранимых данных
будет увеличиваться еще быстрее.
Volume / Количество информации
6. INTERNET OF THINGS
6
У каждого девайса есть сенсоры, генерирующие
информацию, которую также надо хранить.
Интернет вещей - единая сеть, соединяющая
окружающие нас объекты реального мира и
виртуальные объекты.
7. VELOCITY
7
Velocity
Источники high-velocity данных
Лог-файлы: веб-сайты, базы данных, firewall.
Сетевое оборудование: роутеры, свитчи.
Пользовательские девайсы: смартфоны.
Социальная медиа информация: посты в социальных сетях
Онлайн игры
SaaS: яркий пример – LinkedIn.
8. VARIETY
8
Для Big Data типична ситуация, когда входные данные даже
близко не напоминают структурированные.
Документы в различных форматах
Социальные сети
E-mails
APIs
Geodata
Логи
Variety
10. ТРЕБОВАНИЯ К BIG DATA СИСТЕМА
10
Гибкость и отказоустойчивость
Низкая задержка при чтении и обновлении
Масштабируемость
Широкий спектр применения
Расширяемость
Возможность AdHoc-запросов
Минимальные расходы на обслуживание
Возможность отката к нужному состоянию
Требования к Big Data системе
29. 29
Batch Layer. MapReduce.
Берем большой объем данных и разделяем его на маленькие части
…
…
Output
MAPREDUCE
DoWork() DoWork() DoWork()
…
Применяем одну и ту же операцию к каждой из частей
Соединяем выходные данные каждой из частей
31. Batch Layer. Сериализация данных.
31
СЕРИАЛИЗАЦИЯ ДАННЫХ
Используйте формат со схемой данных.
CSV
Thrift
Avro
Parquet
Бонус: больше скорость, меньше занятого
дискового пространства
41. 41
Если что-то пойдет не так в Speed
Layer, то Batch Layer это
автоматически исправит
42. CAP-ТЕОРЕМА
42
Выберите два
свойства
A
C P
Availability / Доступность
любой запрос к распределённой
системе завершается корректным
откликом
Consistency / Согласованность
во всех вычислительных узлах в один момент
времени данные не противоречат друг другу
Partition Tolerance /
Устойчивость к разделению
Расщепление распределённой системы
на несколько изолированных секций не
приводит к некорректности отклика
от каждой из секций
50. 50
Ошибки исправляются повторным пересчетом
витрины с использованием “сырых” данных.
Хранилища данных оптимизированы.
Неизменяемость данных делает систему
надежнее.
51. Источники информации
Факты о Big Data - http://www.bigdata-madesimple.com/eye-opening-facts-
everyone-should-know-about-big-data/
Инфографика “How Much Is A Petabyte” - http://mozy.com/blog/misc/how-
much-is-a-petabyte/
51