2015-12-05 Алексей Зиновьев - Когда все данные станут большими...

Когда все данные станут
большими...
Зиновьев Алексей
Java/BigData тренер в EPAM

Контакты
• https://twitter.com/zaleslaw
• https://twitter.com/BigDataRussia
• http://vk.com/big_data_russia Big Data Russia
• http://vk.com/java_jvm

Каждые 60 секунд в мире …

Данные с мобильных девайсов –
золотая жила!

Мы стали хранить и анализировать
то, что раньше казалось ерундой

BigData – это..
• Работа с объемом данных, которые не влезает в
один Excel – файл?

• Способ продать клиенту старые тряпки в новой
упаковке?

упаковке?
• Спасительное средство, когда MySQL для моего
сайта тормозит?

упаковке?
• Спасительное средство, когда MySQL для моего
сайта тормозит?
• Совокупность методологий и технологий
построения систем, хранилищ и средств анализа
данных с высокой степенью горизонтального
масштабирования и «стрессоустойчивостью»?

У меня 1 млн записей в MySQL. Это
уже BigData?

У вас была SQL БД с медленными
запросами?
• А не пойти ли вам потюнить?

запросами?
• Зачем тюнить если есть Hadoop и Amazon?

запросами?
• А вы знаете сколько стоит Amazon?

запросами?
• А у вас есть статистика по запросам?

запросами?
• А вы профилировали хоть раз?

запросами?
• А вы профилировали хоть раз?
• А какой прогноз по объему данных на
ближайший год?

А сколько может выдержать наш
бэкенд? Надо измерять!

Устали тюнитьOracle? Давайте
поставим Cassandra 

Типичный EPAM BigData кластер
• 450 машин
• Master Nodes (24 ядра, 158 Gb RAM).
• Data Nodes (24|32 ядра, 96|128 Gb RAM).
• Средняя YARN Queue utilization 85% (по
дням).
• 12Pb – емкость хранения данных

Биг дата – это когда что-то
невероятно большое, да?

Нет, дело не только в размере
• У нас становится просто больше типов и
моделей данных, в том числе скрытых от нас
• Нам нужно так быстро обрабатывать
входящие данные, что через парус секунд
они станут никому не нужны и могут быть
просто удалены
• И да, нам иногда нужно что-то сложнее чем
отчет по остаткам на складах

Это просто данные, которые на
данный момент сложно …
• Хранить
• Обрабатывать
• Искать в них что-то
• Анализировать
• Передавать по сети
• Визуализировать

Как считать корректно лайки?

Parallel Computin vs
Distributed Computing
• Можно запустить на 1000 ядерной машине
• Но тогда нам нужен суперкомпьютер
• А можно каждой маленькой машинке
считать, хранить и обрабатывать свою
порцию данных отдельно!
• Круто, а кто писать будет всю
инфраструктуру?

Разработчик высоконагруженной
системы узнал о Hadoop

MapReduce job-ы что-то там делают,
а вы идете пить чай?

Придется учить Javvu, а я еще такой
молодой 

Бизнес торопит разработчика, а
разработчик запускает кластер

Дружите с DevOps/сисадминами!

Инфраструктурные задачи
• Настройка/оптимизация SQL/NoSQL – систем

• Непрерывная интеграция всего хозяйства

• Плавность смены версий в вашем ToolBox

• Батюшка – деплой

• Матушка – ошибки в логах

• 24*7 выход чего-то из строя

• 24*7 выход чего-то из строя
• Ну или кредитка для Amazon ^__^

Если вы умеете извлекать
интересные факты из своих данных,
то за вами придут

Machine Learning vs
Traditional Programming

Как организован процесс
разработки?

Но кто пригодится для такой
работы?

Специалисты
• Бывший backend – разработчик как личинка
Hadoop/Spark девелопера

• Бывший сисадмин как личинка
DevOps/Infrastrucure Specialist

• Быший 1С-ник как BI/Data Warehouse
Specialist

Specialist
• Бывший математик как Data Scientist

Specialist
• Бывший математик как Data Scientist
• … ну и менеджер, с техническим
бэкгранудом

Морозоустойчивое решение – самое
главное, алгоритмы затюним после!

Есть что спросить/рассказать?
• https://twitter.com/zaleslaw
• https://twitter.com/BigDataRussia
• http://vk.com/big_data_russia Big Data Russia
• http://vk.com/java_jvm

2015-12-05 Алексей Зиновьев - Когда все данные станут большими...

Recommended

Recommended

More Related Content

What's hot

What's hot (17)

Viewers also liked

Viewers also liked (10)

Similar to 2015-12-05 Алексей Зиновьев - Когда все данные станут большими...

Similar to 2015-12-05 Алексей Зиновьев - Когда все данные станут большими... (20)

More from HappyDev

More from HappyDev (20)

2015-12-05 Алексей Зиновьев - Когда все данные станут большими...