Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

HappyDev'15 Keynote: Когда все данные станут большими...

549 views

Published on

Этот момент обязательно наступит, если ваш проект, ваш бизнес сделаны не для того, чтобы вспыхнуть Фениксом в пламени бюджетов. Его важно не пропустить и начать обряд масштабирования как можно раньше.
Однако, не для каждой ситуации может подойти простое натравливание Hadoop на ваши логи, перелив данных из PostgreSQL в Cassandra или беспощадный тюнинг nginx и JVM.
Всегда стоит идти от задач, от представления о системе аналитики или от определенного заранее уровня отзывчивости системы. В этом докладе я хотел бы сосредоточиться не на инструментарии, столь важном для разработчика, а, напротив, поговорить о различных типах вопросов и болей с которыми приходят к нам заказчики в реальном мире, где никому нет дела до ваших результатов на Kaggle (онлайн-олимпиада по анализу данных) и синтетических тестов производительности, а также о процессе поиска ответов на эти вопросы. В реальном мире конечная идея приложения может измениться до неузнаваемости в один момент.
Приходите, разберем как хорошие случаи, так и типичные ошибки в построении приложений.
Для кого хорошо подойдет данный доклад: для тех, кто не слишком знаком с концепцией BigData, либо хорошо знаком с инструментарием разработчика, но нет определенной ясности в том, а для чего все это нужно. Ну и если вы идете на мастер-класс, то заходите, лишним не будет.

Published in: Technology

HappyDev'15 Keynote: Когда все данные станут большими...

  1. 1. Когда все данные станут большими... Зиновьев Алексей Java/BigData тренер в EPAM
  2. 2. Контакты • https://twitter.com/zaleslaw • https://twitter.com/BigDataRussia • http://vk.com/big_data_russia Big Data Russia • http://vk.com/java_jvm
  3. 3. Каждые 60 секунд в мире …
  4. 4. Данные с мобильных девайсов – золотая жила!
  5. 5. Мы стали хранить и анализировать то, что раньше казалось ерундой
  6. 6. BigData – это.. • Работа с объемом данных, которые не влезает в один Excel – файл?
  7. 7. BigData – это.. • Работа с объемом данных, которые не влезает в один Excel – файл? • Способ продать клиенту старые тряпки в новой упаковке?
  8. 8. BigData – это.. • Работа с объемом данных, которые не влезает в один Excel – файл? • Способ продать клиенту старые тряпки в новой упаковке? • Спасительное средство, когда MySQL для моего сайта тормозит?
  9. 9. BigData – это.. • Работа с объемом данных, которые не влезает в один Excel – файл? • Способ продать клиенту старые тряпки в новой упаковке? • Спасительное средство, когда MySQL для моего сайта тормозит? • Совокупность методологий и технологий построения систем, хранилищ и средств анализа данных с высокой степенью горизонтального масштабирования и «стрессоустойчивостью»?
  10. 10. У меня 1 млн записей в MySQL. Это уже BigData?
  11. 11. У вас была SQL БД с медленными запросами? • А не пойти ли вам потюнить?
  12. 12. У вас была SQL БД с медленными запросами? • А не пойти ли вам потюнить? • Зачем тюнить если есть Hadoop и Amazon?
  13. 13. У вас была SQL БД с медленными запросами? • А не пойти ли вам потюнить? • Зачем тюнить если есть Hadoop и Amazon? • А вы знаете сколько стоит Amazon?
  14. 14. У вас была SQL БД с медленными запросами? • А не пойти ли вам потюнить? • Зачем тюнить если есть Hadoop и Amazon? • А вы знаете сколько стоит Amazon? • А у вас есть статистика по запросам?
  15. 15. У вас была SQL БД с медленными запросами? • А не пойти ли вам потюнить? • Зачем тюнить если есть Hadoop и Amazon? • А вы знаете сколько стоит Amazon? • А у вас есть статистика по запросам? • А вы профилировали хоть раз?
  16. 16. У вас была SQL БД с медленными запросами? • А не пойти ли вам потюнить? • Зачем тюнить если есть Hadoop и Amazon? • А вы знаете сколько стоит Amazon? • А у вас есть статистика по запросам? • А вы профилировали хоть раз? • А какой прогноз по объему данных на ближайший год?
  17. 17. А сколько может выдержать наш бэкенд? Надо измерять!
  18. 18. Устали тюнитьOracle? Давайте поставим Cassandra 
  19. 19. Типичный EPAM BigData кластер • 450 машин • Master Nodes (24 ядра, 158 Gb RAM). • Data Nodes (24|32 ядра, 96|128 Gb RAM). • Средняя YARN Queue utilization 85% (по дням). • 12Pb – емкость хранения данных
  20. 20. Биг дата – это когда что-то невероятно большое, да?
  21. 21. Нет, дело не только в размере • У нас становится просто больше типов и моделей данных, в том числе скрытых от нас • Нам нужно так быстро обрабатывать входящие данные, что через парус секунд они станут никому не нужны и могут быть просто удалены • И да, нам иногда нужно что-то сложнее чем отчет по остаткам на складах
  22. 22. Это просто данные, которые на данный момент сложно … • Хранить • Обрабатывать • Искать в них что-то • Анализировать • Передавать по сети • Визуализировать
  23. 23. Как считать корректно лайки?
  24. 24. Parallel Computin vs Distributed Computing • Можно запустить на 1000 ядерной машине • Но тогда нам нужен суперкомпьютер • А можно каждой маленькой машинке считать, хранить и обрабатывать свою порцию данных отдельно! • Круто, а кто писать будет всю инфраструктуру?
  25. 25. Разработчик высоконагруженной системы узнал о Hadoop
  26. 26. MapReduce job-ы что-то там делают, а вы идете пить чай?
  27. 27. Придется учить Javvu, а я еще такой молодой 
  28. 28. Бизнес торопит разработчика, а разработчик запускает кластер
  29. 29. Дружите с DevOps/сисадминами!
  30. 30. Инфраструктурные задачи • Настройка/оптимизация SQL/NoSQL – систем
  31. 31. Инфраструктурные задачи • Настройка/оптимизация SQL/NoSQL – систем • Непрерывная интеграция всего хозяйства
  32. 32. Инфраструктурные задачи • Настройка/оптимизация SQL/NoSQL – систем • Непрерывная интеграция всего хозяйства • Плавность смены версий в вашем ToolBox
  33. 33. Инфраструктурные задачи • Настройка/оптимизация SQL/NoSQL – систем • Непрерывная интеграция всего хозяйства • Плавность смены версий в вашем ToolBox • Батюшка – деплой
  34. 34. Инфраструктурные задачи • Настройка/оптимизация SQL/NoSQL – систем • Непрерывная интеграция всего хозяйства • Плавность смены версий в вашем ToolBox • Батюшка – деплой • Матушка – ошибки в логах
  35. 35. Инфраструктурные задачи • Настройка/оптимизация SQL/NoSQL – систем • Непрерывная интеграция всего хозяйства • Плавность смены версий в вашем ToolBox • Батюшка – деплой • Матушка – ошибки в логах • 24*7 выход чего-то из строя
  36. 36. Инфраструктурные задачи • Настройка/оптимизация SQL/NoSQL – систем • Непрерывная интеграция всего хозяйства • Плавность смены версий в вашем ToolBox • Батюшка – деплой • Матушка – ошибки в логах • 24*7 выход чего-то из строя • Ну или кредитка для Amazon ^__^
  37. 37. Инфраструктурные задачи • Настройка/оптимизация SQL/NoSQL – систем • Непрерывная интеграция всего хозяйства • Плавность смены версий в вашем ToolBox • Батюшка – деплой • Матушка – ошибки в логах • 24*7 выход чего-то из строя • Ну или кредитка для Amazon ^__^
  38. 38. Если вы умеете извлекать интересные факты из своих данных, то за вами придут
  39. 39. Machine Learning vs Traditional Programming
  40. 40. Как организован процесс разработки?
  41. 41. Но кто пригодится для такой работы?
  42. 42. Специалисты • Бывший backend – разработчик как личинка Hadoop/Spark девелопера
  43. 43. Специалисты • Бывший backend – разработчик как личинка Hadoop/Spark девелопера • Бывший сисадмин как личинка DevOps/Infrastrucure Specialist
  44. 44. Специалисты • Бывший backend – разработчик как личинка Hadoop/Spark девелопера • Бывший сисадмин как личинка DevOps/Infrastrucure Specialist • Быший 1С-ник как BI/Data Warehouse Specialist
  45. 45. Специалисты • Бывший backend – разработчик как личинка Hadoop/Spark девелопера • Бывший сисадмин как личинка DevOps/Infrastrucure Specialist • Быший 1С-ник как BI/Data Warehouse Specialist • Бывший математик как Data Scientist
  46. 46. Специалисты • Бывший backend – разработчик как личинка Hadoop/Spark девелопера • Бывший сисадмин как личинка DevOps/Infrastrucure Specialist • Быший 1С-ник как BI/Data Warehouse Specialist • Бывший математик как Data Scientist • … ну и менеджер, с техническим бэкгранудом
  47. 47. Морозоустойчивое решение – самое главное, алгоритмы затюним после!
  48. 48. Есть что спросить/рассказать? • https://twitter.com/zaleslaw • https://twitter.com/BigDataRussia • http://vk.com/big_data_russia Big Data Russia • http://vk.com/java_jvm

×