SlideShare a Scribd company logo
1 of 19
Download to read offline
12 ноября 2014 года 
Опыт разработки масштабируемого решения по хранению журналов в Hadoop 
Дмитрий Морозов 
Ведущий специалист по проектированию IT-инфраструктурных решений
Исходная проблематикаи постановка задачи 
2/19
Специфика компаний, с которыми работаем 
Торговые сети 
Банки 
Разнообразный парк автоматизированных учетных систем 
Нагруженные базы данных, большая часть из которых –Oracle 
3/19
Трудности компаний, обладающих зоопарком учетных систем 
Дорогое хранение практически неиспользуемых данных журналов 
Сложное администрирование оперативных баз данных, недостаточное окно времени для резервного копирования 
Невозможность использовать информацию журналов для анализа 
4/19
Цели решения (интересы клиентов) 
Уменьшить стоимость хранения данных журналов, обеспечив доступ к ним из существующих приложений 
Сохранить привычный способ работы с приложениями для пользователей 
Упростить задачи администрирования БД 
Создать возможность использования журналов при анализе больших данных 
5/19
Модель жизненного цикла данных 
Оперативный контурОтчетный контурАналитический контурАрхивный контурУдалениеСоздание 
6/19
Начальное положение дел 
Все данные 
7/19
Журналы как отдельная категория 
 Существенный вклад в объем данных  Большой поток данных  Только для чтения  Отдельное хранение  Масштабируемость  Оптимизация на чтение/поиск/аналитику 
8/19
Предлагаемое разделение 
Оперативный и отчетный контурАналитический и архивный контур 
9/19
Почему Hadoop? 
Варианты размещения журналов: 
Партиционированиев рамках того же экземпляра БД 
В отдельном экземпляре БД 
В распределенном хранилище (например, ElasticSearch) 
 В хранилище Hadoop 
Преимуществавыбора Hadoop: 
 Стоимость хранения 
 Масштабируемость и отказоустойчивость 
 Богатые возможности ad hoc анализа данных инструментами Hadoop 
10/19
Архитектура масштабируемого решения по хранению журналов 
11/19
Общая схема решения: было 
АСГенерация данных журналовСохранение данных журналовФайлы на локальных дискахЖурналыв БДИнтерфейсы доступа к журналамПервичная записьЧтениеЗапрос данныхЗапись данных 
12/19
Общая схема решения: стало 
АСГенерация данных журналовСохранение данных журналовФайлы на локальных дискахЖурналыв БДИнтерфейсы доступа к журналамПервичная записьХранилищежурналовАрхивированиеЧтениеЗапрос данныхЗапись данных 
13/19
Размещение данных 
Даты событийЖурналы в исходной БД(фиксированный объем) Журналы в хранилищеПеренос данныхУдаление данныхСоздание новых данныхОперативный и отчетный контурАналитический и архивный контур 
14/19
Архитектура хранилища 
Распределенная файловая система (HDFS) Сервис запуска задач(Oozie) Сервис переноса текстовых журналов(Flume) Сервис переноса реляционных журналов (Sqoop) Сервис конфигурирования кластера(ZooKeeper) Сервис администрирования кластера(ClouderaManager) Сервис очистки журналовFullScan-БД (Impala)KeyValue-БД (HBase) Интерфейс запроса данных(REST API) Интерфейс импорта файловых журналовИнтерфейс импорта журналов РСУБДСервис индексации(Solr) Сервис доступа к журналам хранилищаЗапрос данныхЗапись данныхРазработка CUSTISКомпоненты экосистемы Hadoop 
15/19
Подключение АС к хранилищу 
16/19 
Сервер приложений (Java/Jboss) БД(Oracle) Журнал сервера приложенийЗапрос журнальных данныхИнтеграционный адаптерБД + Сервер приложений(Oracle) Интеграционный журналЗапросжурнальных данныхЗапрос «свежих» журналовИнтеграционныйжурналИнтеграционный адаптерЗапрос «свежих» журналовЖурнал приложенияЖурнал приложенияИнтерфейс запроса данных(REST API) Интерфейс импорта файловых журналовИнтерфейс импорта журналовРСУБДЗапрос данныхЗапись данных
Стоимость хранения данных (10 Тб) 
На СХД среднего уровня 
Полка СХД + коммутаторы ~3 млн руб. 
SATA~ 50 Тб, т.е. 600 тыс. руб. за 10 Тб 
SAS ~15 Тб, т.е. 2 млн руб. за 10 Тб 
SSD, FlashCacheи т.п. даже не рассматриваем 
На HDFS 
По 10 Тб обычных дисков на 4 дешевых сервера ~50 х 4 = 200 тыс. руб. 
Оборудование и для хранения, и для вычислений 
Разница –минимум в 3 раза, для SAS–в 10 
17/19
Результаты решения 
Значительно сокращается стоимостьхранения данных журналов (минимум в 3 раза) 
За счет уменьшения объемов оперативных БД упрощаются задачи администрирования, уменьшается время создания резервных копий 
Для пользователей ничего не изменилось, существовавшие интерфейс и функционал АС сохранены 
Информацию, которая раньше считалась обузой, можно использовать при анализе больших данных 
18/19
Спасибо! 
Вопросы? 
Дмитрий Морозов 
morozov@custis.ru 
19/19

More Related Content

What's hot

Платформа Apache Hadoop
Платформа Apache HadoopПлатформа Apache Hadoop
Платформа Apache HadoopDotNetConf
 
Как грабить корованы
Как грабить корованыКак грабить корованы
Как грабить корованыDotNetConf
 
InterSystems Healthshare +DeepSee. Hospitalization queue
InterSystems Healthshare +DeepSee. Hospitalization queueInterSystems Healthshare +DeepSee. Hospitalization queue
InterSystems Healthshare +DeepSee. Hospitalization queueInterSystems
 
Скородумов И.В. "Облачный сервис электронного документооборота "07.ДОК""
Скородумов И.В. "Облачный сервис электронного документооборота "07.ДОК""Скородумов И.В. "Облачный сервис электронного документооборота "07.ДОК""
Скородумов И.В. "Облачный сервис электронного документооборота "07.ДОК""Expolink
 
загрузить в DSpace
загрузить в DSpaceзагрузить в DSpace
загрузить в DSpaceFedor Krasnov
 
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"Technopark
 
SECON'2017, Блохин Леонид, Колоночные БД на примере Parquet
SECON'2017, Блохин Леонид, Колоночные БД на примере ParquetSECON'2017, Блохин Леонид, Колоночные БД на примере Parquet
SECON'2017, Блохин Леонид, Колоночные БД на примере ParquetSECON
 
Анализ и оценка систем адресации данных в современных ЭВМ
Анализ и оценка систем адресации данных в современных ЭВМАнализ и оценка систем адресации данных в современных ЭВМ
Анализ и оценка систем адресации данных в современных ЭВМSergey Gerasimov
 

What's hot (10)

Платформа Apache Hadoop
Платформа Apache HadoopПлатформа Apache Hadoop
Платформа Apache Hadoop
 
Как грабить корованы
Как грабить корованыКак грабить корованы
Как грабить корованы
 
Управление данными (реляционная модель)
Управление данными (реляционная модель)Управление данными (реляционная модель)
Управление данными (реляционная модель)
 
InterSystems Healthshare +DeepSee. Hospitalization queue
InterSystems Healthshare +DeepSee. Hospitalization queueInterSystems Healthshare +DeepSee. Hospitalization queue
InterSystems Healthshare +DeepSee. Hospitalization queue
 
Скородумов И.В. "Облачный сервис электронного документооборота "07.ДОК""
Скородумов И.В. "Облачный сервис электронного документооборота "07.ДОК""Скородумов И.В. "Облачный сервис электронного документооборота "07.ДОК""
Скородумов И.В. "Облачный сервис электронного документооборота "07.ДОК""
 
загрузить в DSpace
загрузить в DSpaceзагрузить в DSpace
загрузить в DSpace
 
Audit
AuditAudit
Audit
 
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
 
SECON'2017, Блохин Леонид, Колоночные БД на примере Parquet
SECON'2017, Блохин Леонид, Колоночные БД на примере ParquetSECON'2017, Блохин Леонид, Колоночные БД на примере Parquet
SECON'2017, Блохин Леонид, Колоночные БД на примере Parquet
 
Анализ и оценка систем адресации данных в современных ЭВМ
Анализ и оценка систем адресации данных в современных ЭВМАнализ и оценка систем адресации данных в современных ЭВМ
Анализ и оценка систем адресации данных в современных ЭВМ
 

Viewers also liked

Гибкость: как правильно жить и работать?
Гибкость: как правильно жить и работать?Гибкость: как правильно жить и работать?
Гибкость: как правильно жить и работать?CUSTIS
 
Миграция данных из Oracle в Postgres
Миграция данных из Oracle в PostgresМиграция данных из Oracle в Postgres
Миграция данных из Oracle в PostgresCUSTIS
 
Омниканальность как один из ответов ритейла на изменение Customer Experience
Омниканальность как один из ответов ритейла на изменение Customer ExperienceОмниканальность как один из ответов ритейла на изменение Customer Experience
Омниканальность как один из ответов ритейла на изменение Customer ExperienceCUSTIS
 
Поиск и чтение унаследованного кода
Поиск и чтение унаследованного кодаПоиск и чтение унаследованного кода
Поиск и чтение унаследованного кодаCUSTIS
 
Учетная машина — универсальная архитектура учетно-аналитических систем
Учетная машина — универсальная архитектура учетно-аналитических системУчетная машина — универсальная архитектура учетно-аналитических систем
Учетная машина — универсальная архитектура учетно-аналитических системCUSTIS
 
Командная работа: вместе к успеху!
Командная работа: вместе к успеху!Командная работа: вместе к успеху!
Командная работа: вместе к успеху!CUSTIS
 
WinDbg со товарищи
WinDbg со товарищиWinDbg со товарищи
WinDbg со товарищиCUSTIS
 
Требования банка к ИТ-подрядчикам
Требования банка к ИТ-подрядчикамТребования банка к ИТ-подрядчикам
Требования банка к ИТ-подрядчикамCUSTIS
 
HR-партнер: миф или реальность?
HR-партнер: миф или реальность?HR-партнер: миф или реальность?
HR-партнер: миф или реальность?CUSTIS
 
Открытая банковская платформа для типовых сервисов и продуктов
Открытая банковская платформа для типовых сервисов и продуктовОткрытая банковская платформа для типовых сервисов и продуктов
Открытая банковская платформа для типовых сервисов и продуктовCUSTIS
 
Учет: книга тайн
Учет: книга тайнУчет: книга тайн
Учет: книга тайнCUSTIS
 
Akka.NET
Akka.NETAkka.NET
Akka.NETCUSTIS
 
Омниканальная модель в ритейле: решения и кейсы
Омниканальная модель в ритейле: решения и кейсыОмниканальная модель в ритейле: решения и кейсы
Омниканальная модель в ритейле: решения и кейсыCUSTIS
 
Аналитик и Тестировщик в одном лице – путь к качеству (Максим Цепков, SQA Day...
Аналитик и Тестировщик в одном лице – путь к качеству (Максим Цепков, SQA Day...Аналитик и Тестировщик в одном лице – путь к качеству (Максим Цепков, SQA Day...
Аналитик и Тестировщик в одном лице – путь к качеству (Максим Цепков, SQA Day...CUSTIS
 
Cерьезные отношения: паттерны проектирования реляционных хранилищ
Cерьезные отношения: паттерны проектирования реляционных хранилищCерьезные отношения: паттерны проектирования реляционных хранилищ
Cерьезные отношения: паттерны проектирования реляционных хранилищCUSTIS
 
«Стой! Кто идет?»: аутентификация и авторизация в корпоративных системах
«Стой! Кто идет?»: аутентификация и авторизация в корпоративных системах«Стой! Кто идет?»: аутентификация и авторизация в корпоративных системах
«Стой! Кто идет?»: аутентификация и авторизация в корпоративных системахCUSTIS
 
Собираем кубик Рубика: восстановление архитектурного описания корпоративной р...
Собираем кубик Рубика: восстановление архитектурного описания корпоративной р...Собираем кубик Рубика: восстановление архитектурного описания корпоративной р...
Собираем кубик Рубика: восстановление архитектурного описания корпоративной р...CUSTIS
 
RBAC & ABAC: гибридное решение для управления правами доступа
RBAC & ABAC: гибридное решение для управления правами доступаRBAC & ABAC: гибридное решение для управления правами доступа
RBAC & ABAC: гибридное решение для управления правами доступаCUSTIS
 
Диаграммы планов счетов — средство моделирования и проектирования учета
Диаграммы планов счетов — средство моделирования и проектирования учетаДиаграммы планов счетов — средство моделирования и проектирования учета
Диаграммы планов счетов — средство моделирования и проектирования учетаCUSTIS
 

Viewers also liked (19)

Гибкость: как правильно жить и работать?
Гибкость: как правильно жить и работать?Гибкость: как правильно жить и работать?
Гибкость: как правильно жить и работать?
 
Миграция данных из Oracle в Postgres
Миграция данных из Oracle в PostgresМиграция данных из Oracle в Postgres
Миграция данных из Oracle в Postgres
 
Омниканальность как один из ответов ритейла на изменение Customer Experience
Омниканальность как один из ответов ритейла на изменение Customer ExperienceОмниканальность как один из ответов ритейла на изменение Customer Experience
Омниканальность как один из ответов ритейла на изменение Customer Experience
 
Поиск и чтение унаследованного кода
Поиск и чтение унаследованного кодаПоиск и чтение унаследованного кода
Поиск и чтение унаследованного кода
 
Учетная машина — универсальная архитектура учетно-аналитических систем
Учетная машина — универсальная архитектура учетно-аналитических системУчетная машина — универсальная архитектура учетно-аналитических систем
Учетная машина — универсальная архитектура учетно-аналитических систем
 
Командная работа: вместе к успеху!
Командная работа: вместе к успеху!Командная работа: вместе к успеху!
Командная работа: вместе к успеху!
 
WinDbg со товарищи
WinDbg со товарищиWinDbg со товарищи
WinDbg со товарищи
 
Требования банка к ИТ-подрядчикам
Требования банка к ИТ-подрядчикамТребования банка к ИТ-подрядчикам
Требования банка к ИТ-подрядчикам
 
HR-партнер: миф или реальность?
HR-партнер: миф или реальность?HR-партнер: миф или реальность?
HR-партнер: миф или реальность?
 
Открытая банковская платформа для типовых сервисов и продуктов
Открытая банковская платформа для типовых сервисов и продуктовОткрытая банковская платформа для типовых сервисов и продуктов
Открытая банковская платформа для типовых сервисов и продуктов
 
Учет: книга тайн
Учет: книга тайнУчет: книга тайн
Учет: книга тайн
 
Akka.NET
Akka.NETAkka.NET
Akka.NET
 
Омниканальная модель в ритейле: решения и кейсы
Омниканальная модель в ритейле: решения и кейсыОмниканальная модель в ритейле: решения и кейсы
Омниканальная модель в ритейле: решения и кейсы
 
Аналитик и Тестировщик в одном лице – путь к качеству (Максим Цепков, SQA Day...
Аналитик и Тестировщик в одном лице – путь к качеству (Максим Цепков, SQA Day...Аналитик и Тестировщик в одном лице – путь к качеству (Максим Цепков, SQA Day...
Аналитик и Тестировщик в одном лице – путь к качеству (Максим Цепков, SQA Day...
 
Cерьезные отношения: паттерны проектирования реляционных хранилищ
Cерьезные отношения: паттерны проектирования реляционных хранилищCерьезные отношения: паттерны проектирования реляционных хранилищ
Cерьезные отношения: паттерны проектирования реляционных хранилищ
 
«Стой! Кто идет?»: аутентификация и авторизация в корпоративных системах
«Стой! Кто идет?»: аутентификация и авторизация в корпоративных системах«Стой! Кто идет?»: аутентификация и авторизация в корпоративных системах
«Стой! Кто идет?»: аутентификация и авторизация в корпоративных системах
 
Собираем кубик Рубика: восстановление архитектурного описания корпоративной р...
Собираем кубик Рубика: восстановление архитектурного описания корпоративной р...Собираем кубик Рубика: восстановление архитектурного описания корпоративной р...
Собираем кубик Рубика: восстановление архитектурного описания корпоративной р...
 
RBAC & ABAC: гибридное решение для управления правами доступа
RBAC & ABAC: гибридное решение для управления правами доступаRBAC & ABAC: гибридное решение для управления правами доступа
RBAC & ABAC: гибридное решение для управления правами доступа
 
Диаграммы планов счетов — средство моделирования и проектирования учета
Диаграммы планов счетов — средство моделирования и проектирования учетаДиаграммы планов счетов — средство моделирования и проектирования учета
Диаграммы планов счетов — средство моделирования и проектирования учета
 

Similar to Опыт разработки масштабируемого решения по хранению журналов в Hadoop

Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиYuri Yashkin
 
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСИнфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСYury Petrov
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиElizaveta Alekseeva
 
Хранилище данных (+ облачные хранилища данных)
Хранилище данных (+ облачные хранилища данных)Хранилище данных (+ облачные хранилища данных)
Хранилище данных (+ облачные хранилища данных)PutinTheJew
 
хранилище данных
хранилище данныххранилище данных
хранилище данныхPutinTheJew
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesIlya Gershanov
 
проектная работа на тему субд
проектная работа на тему субдпроектная работа на тему субд
проектная работа на тему субдMarsel Galikhanov
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: ВведениеDenodo
 
Lotus Forum 2009 Websphere Portal 6.1
Lotus Forum 2009 Websphere Portal 6.1Lotus Forum 2009 Websphere Portal 6.1
Lotus Forum 2009 Websphere Portal 6.1guestcaef82
 
Carlton doe. administering informix dynamic server. building the foundation
Carlton doe. administering informix dynamic server. building the foundationCarlton doe. administering informix dynamic server. building the foundation
Carlton doe. administering informix dynamic server. building the foundationKshitiz Chauhan
 
МОДЕРНИЗАЦИЯ ВАШЕЙ СТРАТЕГИИ УПРАВЛЕНИЯ ДАННЫМИ
МОДЕРНИЗАЦИЯ ВАШЕЙ СТРАТЕГИИ УПРАВЛЕНИЯ ДАННЫМИМОДЕРНИЗАЦИЯ ВАШЕЙ СТРАТЕГИИ УПРАВЛЕНИЯ ДАННЫМИ
МОДЕРНИЗАЦИЯ ВАШЕЙ СТРАТЕГИИ УПРАВЛЕНИЯ ДАННЫМИNatasha Zaverukha
 
DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.mikhaelsmirnov
 
СХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуре
СХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуреСХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуре
СХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуреDEPO Computers
 
Хранилища данных, средства анализа данных
Хранилища данных, средства анализа данныхХранилища данных, средства анализа данных
Хранилища данных, средства анализа данныхYury Samoylenko
 

Similar to Опыт разработки масштабируемого решения по хранению журналов в Hadoop (20)

Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитики
 
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСИнфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитики
 
Druid - Interactive Analytics At Scale
Druid - Interactive Analytics At ScaleDruid - Interactive Analytics At Scale
Druid - Interactive Analytics At Scale
 
Информатика (СУБД)
Информатика (СУБД)Информатика (СУБД)
Информатика (СУБД)
 
Хранилище данных (+ облачные хранилища данных)
Хранилище данных (+ облачные хранилища данных)Хранилище данных (+ облачные хранилища данных)
Хранилище данных (+ облачные хранилища данных)
 
хранилище данных
хранилище данныххранилище данных
хранилище данных
 
Управление данными (хранилища данных и OLAP)
Управление данными (хранилища данных и OLAP)Управление данными (хранилища данных и OLAP)
Управление данными (хранилища данных и OLAP)
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
 
проектная работа на тему субд
проектная работа на тему субдпроектная работа на тему субд
проектная работа на тему субд
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: Введение
 
неделя науки
неделя наукинеделя науки
неделя науки
 
10 субд
10 субд10 субд
10 субд
 
Lotus Forum 2009 Websphere Portal 6.1
Lotus Forum 2009 Websphere Portal 6.1Lotus Forum 2009 Websphere Portal 6.1
Lotus Forum 2009 Websphere Portal 6.1
 
Carlton doe. administering informix dynamic server. building the foundation
Carlton doe. administering informix dynamic server. building the foundationCarlton doe. administering informix dynamic server. building the foundation
Carlton doe. administering informix dynamic server. building the foundation
 
МОДЕРНИЗАЦИЯ ВАШЕЙ СТРАТЕГИИ УПРАВЛЕНИЯ ДАННЫМИ
МОДЕРНИЗАЦИЯ ВАШЕЙ СТРАТЕГИИ УПРАВЛЕНИЯ ДАННЫМИМОДЕРНИЗАЦИЯ ВАШЕЙ СТРАТЕГИИ УПРАВЛЕНИЯ ДАННЫМИ
МОДЕРНИЗАЦИЯ ВАШЕЙ СТРАТЕГИИ УПРАВЛЕНИЯ ДАННЫМИ
 
DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.
 
СХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуре
СХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуреСХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуре
СХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуре
 
Хранилища данных, средства анализа данных
Хранилища данных, средства анализа данныхХранилища данных, средства анализа данных
Хранилища данных, средства анализа данных
 
Управление данными (Введение в СУБД)
Управление данными (Введение в СУБД)Управление данными (Введение в СУБД)
Управление данными (Введение в СУБД)
 

More from CUSTIS

Три истории микросервисов, или MSA для Enterprise
Три истории микросервисов, или MSA для EnterpriseТри истории микросервисов, или MSA для Enterprise
Три истории микросервисов, или MSA для EnterpriseCUSTIS
 
Долгоживущие ИТ в динамичном ритейле
Долгоживущие ИТ в динамичном ритейлеДолгоживущие ИТ в динамичном ритейле
Долгоживущие ИТ в динамичном ритейлеCUSTIS
 
Будущее уже наступило: от Agile к бирюзовым организациям
Будущее уже наступило: от Agile к бирюзовым организациямБудущее уже наступило: от Agile к бирюзовым организациям
Будущее уже наступило: от Agile к бирюзовым организациямCUSTIS
 
Как выбрать для проекта практики проектирования и работы с требованиями
Как выбрать для проекта практики проектирования и работы с требованиямиКак выбрать для проекта практики проектирования и работы с требованиями
Как выбрать для проекта практики проектирования и работы с требованиямиCUSTIS
 
Диаграммы учета как средство для наглядного и целостного отображения правил у...
Диаграммы учета как средство для наглядного и целостного отображения правил у...Диаграммы учета как средство для наглядного и целостного отображения правил у...
Диаграммы учета как средство для наглядного и целостного отображения правил у...CUSTIS
 
Сотрудничество с корпорациями: рецепты из практики
Сотрудничество с корпорациями: рецепты из практикиСотрудничество с корпорациями: рецепты из практики
Сотрудничество с корпорациями: рецепты из практикиCUSTIS
 
Agile — ответ на вызовы третьей промышленной революции
Agile — ответ на вызовы третьей промышленной революцииAgile — ответ на вызовы третьей промышленной революции
Agile — ответ на вызовы третьей промышленной революцииCUSTIS
 
Опыт построения микросервисной архитектуры в цифровом банке
Опыт построения микросервисной архитектуры в цифровом банкеОпыт построения микросервисной архитектуры в цифровом банке
Опыт построения микросервисной архитектуры в цифровом банкеCUSTIS
 
Золотая лихорадка MSA: почему нам не подошли микросервисы?
Золотая лихорадка MSA: почему нам не подошли микросервисы?Золотая лихорадка MSA: почему нам не подошли микросервисы?
Золотая лихорадка MSA: почему нам не подошли микросервисы?CUSTIS
 
Барьеры микросервисной архитектуры
Барьеры микросервисной архитектурыБарьеры микросервисной архитектуры
Барьеры микросервисной архитектурыCUSTIS
 
Три истории микросервисов
Три истории микросервисовТри истории микросервисов
Три истории микросервисовCUSTIS
 
От монолитных моделей предметной области — к модульным
От монолитных моделей предметной области — к модульнымОт монолитных моделей предметной области — к модульным
От монолитных моделей предметной области — к модульнымCUSTIS
 
Проблемы управления правами доступа к информационным системам крупной торгово...
Проблемы управления правами доступа к информационным системам крупной торгово...Проблемы управления правами доступа к информационным системам крупной торгово...
Проблемы управления правами доступа к информационным системам крупной торгово...CUSTIS
 
Будущее omni-channel маркетинга: инструменты, кейсы и цифры
Будущее omni-channel маркетинга: инструменты, кейсы и цифрыБудущее omni-channel маркетинга: инструменты, кейсы и цифры
Будущее omni-channel маркетинга: инструменты, кейсы и цифрыCUSTIS
 
Agile и управление знаниями в ИТ-проектах
Agile и управление знаниями в ИТ-проектахAgile и управление знаниями в ИТ-проектах
Agile и управление знаниями в ИТ-проектахCUSTIS
 
State of the .Net Performance
State of the .Net PerformanceState of the .Net Performance
State of the .Net PerformanceCUSTIS
 
Ответственность за качество в разных ИТ-проектах: в чем она и как ее разделять
Ответственность за качество в разных ИТ-проектах: в чем она и как ее разделятьОтветственность за качество в разных ИТ-проектах: в чем она и как ее разделять
Ответственность за качество в разных ИТ-проектах: в чем она и как ее разделятьCUSTIS
 
Опыт применения метода ATAM для оценки архитектуры
Опыт применения метода ATAM для оценки архитектурыОпыт применения метода ATAM для оценки архитектуры
Опыт применения метода ATAM для оценки архитектурыCUSTIS
 
Гибридный подход к управлению правами доступа: когда стандартного IDM не хватает
Гибридный подход к управлению правами доступа: когда стандартного IDM не хватаетГибридный подход к управлению правами доступа: когда стандартного IDM не хватает
Гибридный подход к управлению правами доступа: когда стандартного IDM не хватаетCUSTIS
 
Process и Case Management в информационной системе: от автоматизации As Is к ...
Process и Case Management в информационной системе: от автоматизации As Is к ...Process и Case Management в информационной системе: от автоматизации As Is к ...
Process и Case Management в информационной системе: от автоматизации As Is к ...CUSTIS
 

More from CUSTIS (20)

Три истории микросервисов, или MSA для Enterprise
Три истории микросервисов, или MSA для EnterpriseТри истории микросервисов, или MSA для Enterprise
Три истории микросервисов, или MSA для Enterprise
 
Долгоживущие ИТ в динамичном ритейле
Долгоживущие ИТ в динамичном ритейлеДолгоживущие ИТ в динамичном ритейле
Долгоживущие ИТ в динамичном ритейле
 
Будущее уже наступило: от Agile к бирюзовым организациям
Будущее уже наступило: от Agile к бирюзовым организациямБудущее уже наступило: от Agile к бирюзовым организациям
Будущее уже наступило: от Agile к бирюзовым организациям
 
Как выбрать для проекта практики проектирования и работы с требованиями
Как выбрать для проекта практики проектирования и работы с требованиямиКак выбрать для проекта практики проектирования и работы с требованиями
Как выбрать для проекта практики проектирования и работы с требованиями
 
Диаграммы учета как средство для наглядного и целостного отображения правил у...
Диаграммы учета как средство для наглядного и целостного отображения правил у...Диаграммы учета как средство для наглядного и целостного отображения правил у...
Диаграммы учета как средство для наглядного и целостного отображения правил у...
 
Сотрудничество с корпорациями: рецепты из практики
Сотрудничество с корпорациями: рецепты из практикиСотрудничество с корпорациями: рецепты из практики
Сотрудничество с корпорациями: рецепты из практики
 
Agile — ответ на вызовы третьей промышленной революции
Agile — ответ на вызовы третьей промышленной революцииAgile — ответ на вызовы третьей промышленной революции
Agile — ответ на вызовы третьей промышленной революции
 
Опыт построения микросервисной архитектуры в цифровом банке
Опыт построения микросервисной архитектуры в цифровом банкеОпыт построения микросервисной архитектуры в цифровом банке
Опыт построения микросервисной архитектуры в цифровом банке
 
Золотая лихорадка MSA: почему нам не подошли микросервисы?
Золотая лихорадка MSA: почему нам не подошли микросервисы?Золотая лихорадка MSA: почему нам не подошли микросервисы?
Золотая лихорадка MSA: почему нам не подошли микросервисы?
 
Барьеры микросервисной архитектуры
Барьеры микросервисной архитектурыБарьеры микросервисной архитектуры
Барьеры микросервисной архитектуры
 
Три истории микросервисов
Три истории микросервисовТри истории микросервисов
Три истории микросервисов
 
От монолитных моделей предметной области — к модульным
От монолитных моделей предметной области — к модульнымОт монолитных моделей предметной области — к модульным
От монолитных моделей предметной области — к модульным
 
Проблемы управления правами доступа к информационным системам крупной торгово...
Проблемы управления правами доступа к информационным системам крупной торгово...Проблемы управления правами доступа к информационным системам крупной торгово...
Проблемы управления правами доступа к информационным системам крупной торгово...
 
Будущее omni-channel маркетинга: инструменты, кейсы и цифры
Будущее omni-channel маркетинга: инструменты, кейсы и цифрыБудущее omni-channel маркетинга: инструменты, кейсы и цифры
Будущее omni-channel маркетинга: инструменты, кейсы и цифры
 
Agile и управление знаниями в ИТ-проектах
Agile и управление знаниями в ИТ-проектахAgile и управление знаниями в ИТ-проектах
Agile и управление знаниями в ИТ-проектах
 
State of the .Net Performance
State of the .Net PerformanceState of the .Net Performance
State of the .Net Performance
 
Ответственность за качество в разных ИТ-проектах: в чем она и как ее разделять
Ответственность за качество в разных ИТ-проектах: в чем она и как ее разделятьОтветственность за качество в разных ИТ-проектах: в чем она и как ее разделять
Ответственность за качество в разных ИТ-проектах: в чем она и как ее разделять
 
Опыт применения метода ATAM для оценки архитектуры
Опыт применения метода ATAM для оценки архитектурыОпыт применения метода ATAM для оценки архитектуры
Опыт применения метода ATAM для оценки архитектуры
 
Гибридный подход к управлению правами доступа: когда стандартного IDM не хватает
Гибридный подход к управлению правами доступа: когда стандартного IDM не хватаетГибридный подход к управлению правами доступа: когда стандартного IDM не хватает
Гибридный подход к управлению правами доступа: когда стандартного IDM не хватает
 
Process и Case Management в информационной системе: от автоматизации As Is к ...
Process и Case Management в информационной системе: от автоматизации As Is к ...Process и Case Management в информационной системе: от автоматизации As Is к ...
Process и Case Management в информационной системе: от автоматизации As Is к ...
 

Опыт разработки масштабируемого решения по хранению журналов в Hadoop

  • 1. 12 ноября 2014 года Опыт разработки масштабируемого решения по хранению журналов в Hadoop Дмитрий Морозов Ведущий специалист по проектированию IT-инфраструктурных решений
  • 3. Специфика компаний, с которыми работаем Торговые сети Банки Разнообразный парк автоматизированных учетных систем Нагруженные базы данных, большая часть из которых –Oracle 3/19
  • 4. Трудности компаний, обладающих зоопарком учетных систем Дорогое хранение практически неиспользуемых данных журналов Сложное администрирование оперативных баз данных, недостаточное окно времени для резервного копирования Невозможность использовать информацию журналов для анализа 4/19
  • 5. Цели решения (интересы клиентов) Уменьшить стоимость хранения данных журналов, обеспечив доступ к ним из существующих приложений Сохранить привычный способ работы с приложениями для пользователей Упростить задачи администрирования БД Создать возможность использования журналов при анализе больших данных 5/19
  • 6. Модель жизненного цикла данных Оперативный контурОтчетный контурАналитический контурАрхивный контурУдалениеСоздание 6/19
  • 8. Журналы как отдельная категория  Существенный вклад в объем данных  Большой поток данных  Только для чтения  Отдельное хранение  Масштабируемость  Оптимизация на чтение/поиск/аналитику 8/19
  • 9. Предлагаемое разделение Оперативный и отчетный контурАналитический и архивный контур 9/19
  • 10. Почему Hadoop? Варианты размещения журналов: Партиционированиев рамках того же экземпляра БД В отдельном экземпляре БД В распределенном хранилище (например, ElasticSearch)  В хранилище Hadoop Преимуществавыбора Hadoop:  Стоимость хранения  Масштабируемость и отказоустойчивость  Богатые возможности ad hoc анализа данных инструментами Hadoop 10/19
  • 11. Архитектура масштабируемого решения по хранению журналов 11/19
  • 12. Общая схема решения: было АСГенерация данных журналовСохранение данных журналовФайлы на локальных дискахЖурналыв БДИнтерфейсы доступа к журналамПервичная записьЧтениеЗапрос данныхЗапись данных 12/19
  • 13. Общая схема решения: стало АСГенерация данных журналовСохранение данных журналовФайлы на локальных дискахЖурналыв БДИнтерфейсы доступа к журналамПервичная записьХранилищежурналовАрхивированиеЧтениеЗапрос данныхЗапись данных 13/19
  • 14. Размещение данных Даты событийЖурналы в исходной БД(фиксированный объем) Журналы в хранилищеПеренос данныхУдаление данныхСоздание новых данныхОперативный и отчетный контурАналитический и архивный контур 14/19
  • 15. Архитектура хранилища Распределенная файловая система (HDFS) Сервис запуска задач(Oozie) Сервис переноса текстовых журналов(Flume) Сервис переноса реляционных журналов (Sqoop) Сервис конфигурирования кластера(ZooKeeper) Сервис администрирования кластера(ClouderaManager) Сервис очистки журналовFullScan-БД (Impala)KeyValue-БД (HBase) Интерфейс запроса данных(REST API) Интерфейс импорта файловых журналовИнтерфейс импорта журналов РСУБДСервис индексации(Solr) Сервис доступа к журналам хранилищаЗапрос данныхЗапись данныхРазработка CUSTISКомпоненты экосистемы Hadoop 15/19
  • 16. Подключение АС к хранилищу 16/19 Сервер приложений (Java/Jboss) БД(Oracle) Журнал сервера приложенийЗапрос журнальных данныхИнтеграционный адаптерБД + Сервер приложений(Oracle) Интеграционный журналЗапросжурнальных данныхЗапрос «свежих» журналовИнтеграционныйжурналИнтеграционный адаптерЗапрос «свежих» журналовЖурнал приложенияЖурнал приложенияИнтерфейс запроса данных(REST API) Интерфейс импорта файловых журналовИнтерфейс импорта журналовРСУБДЗапрос данныхЗапись данных
  • 17. Стоимость хранения данных (10 Тб) На СХД среднего уровня Полка СХД + коммутаторы ~3 млн руб. SATA~ 50 Тб, т.е. 600 тыс. руб. за 10 Тб SAS ~15 Тб, т.е. 2 млн руб. за 10 Тб SSD, FlashCacheи т.п. даже не рассматриваем На HDFS По 10 Тб обычных дисков на 4 дешевых сервера ~50 х 4 = 200 тыс. руб. Оборудование и для хранения, и для вычислений Разница –минимум в 3 раза, для SAS–в 10 17/19
  • 18. Результаты решения Значительно сокращается стоимостьхранения данных журналов (минимум в 3 раза) За счет уменьшения объемов оперативных БД упрощаются задачи администрирования, уменьшается время создания резервных копий Для пользователей ничего не изменилось, существовавшие интерфейс и функционал АС сохранены Информацию, которая раньше считалась обузой, можно использовать при анализе больших данных 18/19
  • 19. Спасибо! Вопросы? Дмитрий Морозов morozov@custis.ru 19/19