Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

А.Левенчук -- аппаратное ускорение аналитики в BigData

3,216 views

Published on

Доклад А.Левенчука "Аппаратное ускорение аналитики в больших данных" на конференции BigData, 15 сентября 2017г.

Published in: Data & Analytics
  • Dating direct: ❶❶❶ http://bit.ly/369VOVb ❶❶❶
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Follow the link, new dating source: ♥♥♥ http://bit.ly/369VOVb ♥♥♥
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

А.Левенчук -- аппаратное ускорение аналитики в BigData

  1. 1. Аппаратное ускорение аналитики в больших данных Анатолий Левенчук BigData 15 сентября 2017г.
  2. 2. [Тут обычно делают нудный рассказ, почему для аналитики больших данных нужна большая скорость вычислений] • Во-первых, … • Во-вторых, … • … • Лучше быть здоровым и богатым, чем бедным и больным. С быстрыми (x1000) и дешёвыми (x40) вычислениями невозможное становится возможным. 2 Типичный график сравнения производительности с участием аппаратного ускорения https://www.mapd.com/
  3. 3. Платформенный стек аналитики больших данных 3 Платформа приложений АНАЛИТИКА БОЛЬШИХ ДАННЫХ ТУТ Аналитические фреймворки СУБД CPU Оптимизаторы (драйверы) GPU/ FPGA Устройства GPU/FPGA Подрывноеобепечение Подрывнойспрос Спасибо играющим в компьютерные игры за их подрывной спрос, который дал нам такое подрывное обеспечение как GPU COMMODITY
  4. 4. Кто работает с FPGA? Реляционщики! Ryft Netezza Swarm64 4 Scalable Data Accelerator (SDA) PCIe card: от x10 на IBM PureData System for Analytics Ryft One, Ryft Cloud --up to x200
  5. 5. IBM PureData System for Analytics Технология Netezza (c 1999 года): The appliance integrates through standard ODBC, JDBC and OLE DB interfaces. FPGAs are used for data decompression, data filtering and early SQL projections and restrictions. 5https://www.ibm.com/us-en/marketplace/puredata-system-for-analytics/
  6. 6. Неожиданность: GPU  GPGPU 6 • 2009 – Fermi architecture у NVIDIA, CUDA-архитектура • 2011 – придумали ускорять deep learning на CUDA • 2012 – придумали ускорять базы данных на CUDA • 2017 – Volta architecture: 5120 CUDA Cores, 16GB HBM2@900GB/s, 300GB/s NVLink • Бонус: интеграция с IBM Power8 (OpenPOWER): brings x3 faster moving data s TESLA V100
  7. 7. Где данные?! https://db-engines.com/en/ranking_categories 7 Интересны: • реляционные (80% всего) • графовые (700% роста за 5 лет)
  8. 8. GPU и реляционные базы данных MapD PG-Strom Kinetica SQReam Brytlyt BlazingDB 8 In-database analytics: • Deep learning in-database: уже есть! Очень быстрые: • x300 по сравнению с «традиционными» • x50 по сравнению с in-memory • x5 по сравнению с кластерами https://www.kinetica.com/blog/tensorflow-distributed-deep-learning/
  9. 9. Графовые базы: становятся уместны 9 Графовые базы: • Лучше реляционных, но • Плохо масштабируются на CPU • Медленней реляционных x10 С GPU они: • быстрее CPU решений x700-x1800 • x40 дешевле на 1G traverse Edges/sec https://www.blazegraph.com
  10. 10. Худшие продукты на рынке? • We verified these technologies can provide faster queries with cheaper infrastructures than usual CPU- based alternatives. Specially for typical “Select … where … group by…” clauses with variable filters and aggregations. However funcionality is actually quite limited and not enough robust for our requirements. And we’ve got significant problems with complex queries. https://labs.beeva.com/gpus-and-analytical-databases-the-beginning-of-a-beautiful-friendship-8f5e590601c5 10
  11. 11. Дилемма инноватора: бойтесь худших продуктов! (Clayton Christensen из Гарварда) 11 Х а р а к т е р и с т и к и Время Характеристики лучших продуктов На рынке Характеристики худших продуктов на рынке http://web.mit.edu/6.933/www/Fall2000/teradyne/clay.html
  12. 12. Спасибо за внимание Анатолий Левенчук, http://ailev.ru ailev@asmp.msk.su 12

×