Практика миграции реляционных баз данных в экосистему Hadoop

Практика миграции
реляционных баз данных в экосистему Hadoop
Юрий Петров
@gobigdatainfo
апрель, 2015

На сколько данные должны быть
"большими", чтобы оправдать
использование экосистемы Hadoop?

На сколько данные должны быть
"большими", чтобы оправдать
использование экосистемы Hadoop?
Что же мне сделать чтобы продлить
жизнь нашей базы данных
еще хотя бы на полгода?

Если же у вас все хорошо и вы уверены
Что БД не будет тормозить еще года 3
JUST RELAX…

Что не так с реляционными БД?

•Реляционная модель была создана
в 70х годах
•3я нормальная форма
•Построковое хранение

•умеют работать только
со структурированными данными
•имеют плоскую структуру

Чтобы сохранить в реляционной БД 2 разные бизнес-сущности нам
потребуется как минимум 2 таблицы
Чтобы данные из этих 2х таблиц объединить:
• loop join
• merge join
• hash join

Плюс реляционной модели - простота
• не надо думать о типах контейнеров, в которых хранятся
данные
• о ключах распределения
• о сложной многомерной структуре таблиц

• необходимость выбора единственно правильного индекса и партиций
• резкая деградация производительности по мере роста количества данных
• сложности масштабирования
• не видно другие данные, которые не были загружены непосредственно в БД
• сложность ETL - например, приходится парсить многомерный JSON-файл и
разворачивать его в реляционную модель
Проблемы реляционной модели

Исключением является
• с версии 9.4 появился полноценный
json тип данных – jsonb
• документо-ориентированное
хранилище HSTORE
• cпасибо Олегу Бартунову
и Александру Короткову за это

Нереляционный подход
NoSQL, BigData

Требования бизнеса
к современным системам обработки данных
• Shared nothing – распределённая вычислительная архитектура
• MPP (Massive Parallel Processing) – параллельная обработка
данных на многих вычислительных узлах
• Различные типы контейнеров с данными, а так же просто
файлы, видны друг другу и доступны для прямых запросов,
операций объединения и трансформации

• Одинаково эффективная работа как со структурированными
так и с неструктурированными данными
• Выполнение сложных вычислений на лету
• Снижение сложности модели БД и ETL-процесса

• Автошардинг
• Кроссплатформенность
• Неограниченное линейное масштабирование
• Повышенная отказоустойчивость

Смотря на эти требования можно предположить,
что разработать такую платформу достаточно сложно

Но решение пришло,
и пришло откуда
не ждали

Всему виной взрывной рост данных

Дуг Каттинг и Майк Кафарелла в 2005 году
возглавили разработку Hadoop в Yahoo

За счет чего в экосистеме Hadoop
удалось удовлетворить все те требования,
которые мы сформировали немного ранее?

• вычислительный узел в экосистеме
Hadoop это независимый полноценный
компьютер
• на каждом вычислительном узле
расположена своя уникальная часть
данных
• задача Map запускается на том узле, где
лежат входные данные, т.е. вычисления
перемещаются к данным

• Данные равномерно распределяются по
узлам кластера
• Редьюсеры запускаются на наиболее
свободных вычислительных нодах
• Мастер-нода не перегружена
метаданными и не является единой
точкой отказа
• Промежуточные данные map-reduce
джоба больше не приземляются на диск,
а кешируются в памяти

Что объединяет всю экосистему Hadoop?

Распределенная файловая система HDFS

Переходим
к практической
части доклада

Описание контейнеров
• Текстовые файлы и документы (csv, json, pdf etc.)
• SequenceFile - список ключ-значение (например ключ:
название файла, значение: содержимое файла)
• MapFile - сортированный по ключу список ключ-значение

Описание контейнеров
• Avro - многомерное row-oriented хранилище, таблицы
которого описываются json-схемой
• ORCFile - многомерное column-oriented хранилище с
поддержкой требований ACID
• HFile - контейнер с данными NoSQL базы данных HBase

SQL-запросы и HIVE
Спасибо,

HIVE и загрузка csv-файлов
1. Создаем таблицу test_data

HIVE и загрузка csv-файлов
2. Загрузим csv в таблицу
3. Парсим csv-файл на лету

HIVE и загрузка json-файла в контейнер AVRO
1. Конвертируем json во внутренный формат AVRO
2. В HIVE создаем таблицу
3. ... и загружаем в нее наш json

Нереляционная (NoSQL) БД HBase

Структура данных HBase
• таблица - пространство имен, объединяющее множество строк
• строка (row) - контейнер, состоящий из набора произвольного
количества версионированных пар ключ-значение и ключа
строки (row key)
• regions - объединяет строки по ключу строки и физически
разделяет по разным файлам Hfile

Структура данных HBase
• Column - ключ в паре ключ-значение
• Column Family - физически разделяет один или несколько
столбцов по разным файлам HFile
• Value - значение в паре ключ-значение
• Timestamp - время в паре ключ-значение, определяющее
версию значения. По-умолчанию отображается значение с
самой свежей версией

Таблица с данными HBASE в виде json-файла

Phoenix
быстрый SQL-интерфейс для HBASE

Реляционная vs NoSQL модель

Реляционная модель

Требования ACID и ограничения целостности
• в HIVE 0.14 добавлена поддержка требований ACID для
контейнера ORCFile
• Yahoo разрабатывает Omid для HBASE
• Facebook разрабатывает HydraBase для HBASE

ЗАКЛЮЧЕНИЕ
•минимальный стек технологий
•что сделать, чтобы проект миграции все-же
начался
•состав и компетенции команды

Нужно совсем немного
• ETL - Talend либо Python, PIG, Sqoop
• Подсистема хранения - файлы as-is и контейнеры
MapFile, Avro, HBASE
• Запросы - Hive

Почему пилот не стартует?
• недостаточная осведомленность менеджеров
• будет ли профит от Hadoop
• взлетит ли вообще что-нибудь?
• а не потратим ли мы впустую деньги на новую
необкатанную технологию?

Мифы о команде
• 1 человек сможет
во всем разобраться
• нам обязательно
нужен JAVA-разработчик

Состав команды
• Hadoop-евангелист и архитектор (это я )
• Linux-гуру
• ETL developer
• HIVE developer/Data Mining Analyst

Юрий Петров
Hadoop-консалтинг, корпоративное обучение
Мои контакты:
SKYPE: petrov.y.v
Email: petrov@gobigdata.info
Facebook: http://facebook.com/gobigdata.info
Linkedin: https://www.linkedin.com/in/petrovgobigdata
Блог: http://gobigdata.info
Спасибо за внимание!

Практика миграции реляционных баз данных в экосистему Hadoop

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Практика миграции реляционных баз данных в экосистему Hadoop

Similar to Практика миграции реляционных баз данных в экосистему Hadoop (20)

Практика миграции реляционных баз данных в экосистему Hadoop