Опыт разработки масштабируемого решения по хранению журналов в Hadoop

12 ноября 2014 года
Опыт разработки масштабируемого решения по хранению журналов в Hadoop
Дмитрий Морозов
Ведущий специалист по проектированию IT-инфраструктурных решений

Исходная проблематикаи постановка задачи
2/19

Специфика компаний, с которыми работаем
Торговые сети
Банки
Разнообразный парк автоматизированных учетных систем
Нагруженные базы данных, большая часть из которых –Oracle
3/19

Трудности компаний, обладающих зоопарком учетных систем
Дорогое хранение практически неиспользуемых данных журналов
Сложное администрирование оперативных баз данных, недостаточное окно времени для резервного копирования
Невозможность использовать информацию журналов для анализа
4/19

Цели решения (интересы клиентов)
Уменьшить стоимость хранения данных журналов, обеспечив доступ к ним из существующих приложений
Сохранить привычный способ работы с приложениями для пользователей
Упростить задачи администрирования БД
Создать возможность использования журналов при анализе больших данных
5/19

Модель жизненного цикла данных
Оперативный контурОтчетный контурАналитический контурАрхивный контурУдалениеСоздание
6/19

Начальное положение дел
Все данные
7/19

Журналы как отдельная категория
 Существенный вклад в объем данных  Большой поток данных  Только для чтения  Отдельное хранение  Масштабируемость  Оптимизация на чтение/поиск/аналитику
8/19

Предлагаемое разделение
Оперативный и отчетный контурАналитический и архивный контур
9/19

Почему Hadoop?
Варианты размещения журналов:
Партиционированиев рамках того же экземпляра БД
В отдельном экземпляре БД
В распределенном хранилище (например, ElasticSearch)
 В хранилище Hadoop
Преимуществавыбора Hadoop:
 Стоимость хранения
 Масштабируемость и отказоустойчивость
 Богатые возможности ad hoc анализа данных инструментами Hadoop
10/19

Архитектура масштабируемого решения по хранению журналов
11/19

Общая схема решения: было
АСГенерация данных журналовСохранение данных журналовФайлы на локальных дискахЖурналыв БДИнтерфейсы доступа к журналамПервичная записьЧтениеЗапрос данныхЗапись данных
12/19

Общая схема решения: стало
АСГенерация данных журналовСохранение данных журналовФайлы на локальных дискахЖурналыв БДИнтерфейсы доступа к журналамПервичная записьХранилищежурналовАрхивированиеЧтениеЗапрос данныхЗапись данных
13/19

Размещение данных
Даты событийЖурналы в исходной БД(фиксированный объем) Журналы в хранилищеПеренос данныхУдаление данныхСоздание новых данныхОперативный и отчетный контурАналитический и архивный контур
14/19

Архитектура хранилища
Распределенная файловая система (HDFS) Сервис запуска задач(Oozie) Сервис переноса текстовых журналов(Flume) Сервис переноса реляционных журналов (Sqoop) Сервис конфигурирования кластера(ZooKeeper) Сервис администрирования кластера(ClouderaManager) Сервис очистки журналовFullScan-БД (Impala)KeyValue-БД (HBase) Интерфейс запроса данных(REST API) Интерфейс импорта файловых журналовИнтерфейс импорта журналов РСУБДСервис индексации(Solr) Сервис доступа к журналам хранилищаЗапрос данныхЗапись данныхРазработка CUSTISКомпоненты экосистемы Hadoop
15/19

Подключение АС к хранилищу
16/19
Сервер приложений (Java/Jboss) БД(Oracle) Журнал сервера приложенийЗапрос журнальных данныхИнтеграционный адаптерБД + Сервер приложений(Oracle) Интеграционный журналЗапросжурнальных данныхЗапрос «свежих» журналовИнтеграционныйжурналИнтеграционный адаптерЗапрос «свежих» журналовЖурнал приложенияЖурнал приложенияИнтерфейс запроса данных(REST API) Интерфейс импорта файловых журналовИнтерфейс импорта журналовРСУБДЗапрос данныхЗапись данных

Стоимость хранения данных (10 Тб)
На СХД среднего уровня
Полка СХД + коммутаторы ~3 млн руб.
SATA~ 50 Тб, т.е. 600 тыс. руб. за 10 Тб
SAS ~15 Тб, т.е. 2 млн руб. за 10 Тб
SSD, FlashCacheи т.п. даже не рассматриваем
На HDFS
По 10 Тб обычных дисков на 4 дешевых сервера ~50 х 4 = 200 тыс. руб.
Оборудование и для хранения, и для вычислений
Разница –минимум в 3 раза, для SAS–в 10
17/19

Результаты решения
Значительно сокращается стоимостьхранения данных журналов (минимум в 3 раза)
За счет уменьшения объемов оперативных БД упрощаются задачи администрирования, уменьшается время создания резервных копий
Для пользователей ничего не изменилось, существовавшие интерфейс и функционал АС сохранены
Информацию, которая раньше считалась обузой, можно использовать при анализе больших данных
18/19

Спасибо!
Вопросы?
Дмитрий Морозов
morozov@custis.ru
19/19

Опыт разработки масштабируемого решения по хранению журналов в Hadoop

Recommended

Recommended

More Related Content

What's hot

What's hot (10)

Viewers also liked

Viewers also liked (19)

Similar to Опыт разработки масштабируемого решения по хранению журналов в Hadoop

Similar to Опыт разработки масштабируемого решения по хранению журналов в Hadoop (20)

More from CUSTIS

More from CUSTIS (20)

Опыт разработки масштабируемого решения по хранению журналов в Hadoop