Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

1 big data oracle digi oct

1,754 views

Published on

Oracle

Published in: Data & Analytics

1 big data oracle digi oct

  1. 1. Большие данные на предприятиях Подводные камни и как на них не наткнуться Андрей Пивоваров Руководитель группы перспективных технологий 2
  2. 2. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – 3 Big Data – это новые возможности, ставшие доступными, благодаря новым технологиям или подходам к обработке больших объемов данных
  3. 3. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Почему Большие Данные стали использовать на «традиционных» предприятиях? • Технологии, раньше используемые только в веб-проектах (Hadoop, NoSQL) стали достаточно зрелыми – Не обязательно держать штат программистов, чтобы ими пользоваться • Появились новые возможности для получения конкурентных преимуществ: – Глубокий анализ поведения клиентов – Высокоточная реклама – Объединение и анализ данных из многих источников, в том числе неструктурированных – Анализ мошенничеств – и т.д. • Big Data технологии позволяют существенно удешевить хранение и обработку данных
  4. 4. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | CaixaBank, Испания CaixaBank - крупнейший финансовый институт Испании, дочка Сберегательного банка Испании, la Caixa 13,7 миллиона клиентов 5 920 отделений 367 миллиардов евро актив Задачи Получение максимальной выгоды от имеющейся информации о заказчиках, полученной по любому из существующих каналов (офисы, интернет, телефон, банковские системы, терминалы…) Создание новой модели унифицированных корпоративных данных и дополнительных возможностей аналитики на основе новой Information Management Architecture Примеры использования • Идентификация возможноcтей для cross-selling и up-selling • Разработка персонифицированных предложений для клиентов • Управление рисками и повышение лояльности к бренду • Улучшенный анализ мошенничества • Отслеживание новых нормативных и регуляторных требований Лучше понимать клиента, анализируя все возможные данные о нём CaixaBank назван самым инновационным банком в мире - World’s Most Innovative Bank at the 2013 Global Banking Innovation Awards (Ноябрь 2013)
  5. 5. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Отличия традиционных предприятий от интернет-проектов в контексте Больших данных • Бизнес предприятия не построен вокруг создания кластеров • Большие данные начинают использоваться как новые возможности, дополняющие существующие системы • Значительные наработки и инвестиции в области реляционных СУБД и отсутствие или небольшой опыт в областях типа Hadoop – Отсюда обязательное требование по интеграции ТБД с реляционными базами, системами бизнес-анализа и т.д. • Пользователи требуют обеспечить работу с Большими данными как с обычной СУБД, используя привычные инструменты
  6. 6. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Направления работы корпорации Oracle в области Больших данных • Оптмизированные программно-аппаратные комплексы для Больших данных на базе Cloudera Hadoop Distribution • Интеграция данных в Hadoop/NoSQL и традиционных реляционных данных • Разработка собственной Oracle NoSQL Database и других продуктов • Оптимизация (ускорение доступа) к данным • Безопасность • Визуализация Больших данных • Методология построения систем Больших данных на основе практического проектного опыта
  7. 7. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Big Data Management System SOURCES РЕЗЕРВУАР ДАННЫХ ХРАНИЛИЩЕ ДАННЫХ Oracle Database Oracle Industry Models Oracle Advanced Analytics Oracle Spatial & Graph Big Data Appliance Apache Flume Oracle GoldenGate Oracle Event Processing Cloudera Hadoop Oracle Big Data SQL Oracle NoSQL Oracle R Advanced Analytics for Hadoop Oracle R Distribution Oracle Database In-Memory, Multi-tenant Oracle Industry Models Oracle Advanced Analytics Oracle Spatial & Graph Exadata Oracle GoldenGate Oracle Event Processing Oracle Data Integrator Oracle Big Data Connectors Oracle Data Integrator/ GoldenGate БИЗНЕС АНАЛИТИКА
  8. 8. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Преимущества построения систем с резервуаром данных 1 Дешевое хранение Только значимые и актуальные данные живут в реляционном ХД Гибкость В резервуаре хранятся любые данные, не нужна предопредленная структура и модель хранения Data Warehouse Традиционные источники данных Новые источники Резервуар данных Хранилище данных Предварительная обработка данных на распределенном кластере
  9. 9. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Hadoop • Apache Hadoop - распределенная масштабируемая вычислительная архитектура • Одна из самых популярных платформ для хранения и обработки больших объемов данных • Подходит для аналитических задач • Очень быстро развивается • Oracle совместно с Cloudera производит программно аппаратный комплекс для Hadoop (и Oracle NoSQL DB)
  10. 10. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Подводные камни мира Больших данных • Hadoop – это не только дешево, но кластер – это множество узлов, которые нужно инсталлировать, сопровождать, управлять и т.д. • Недооценка сложностей, которые возникают при переходе от «песочниц» к проекту масштаба предприятия – Возможность использования кучи дешевого железа – хорошо, но имеет свою цену • Недооценка недостатков Hadoop – Hadoop предназначен для загрузки больших кусков данных – Нет транзакций и т.д. • Недооценка сложности интеграции данных из двух миров (реляционного и Hadoop)
  11. 11. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | BIG DATA Appliance
  12. 12. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Big Data Appliance X5-2 •Готовый Hadoop или Oracle NoSQL DB кластер •Совместно тестируется разработчиками Oracle и Cloudera •Оптимизирован для высочайшей производительности •Единое окно техподдержки по всей системе, включая ПО Cloudera •До 864TB в одной стойке –Возможны также конфигурации 1/3 и 2/3 стойки
  13. 13. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Big Data Appliance X5-2 Sun Oracle X5-2L Servers. На каждом: • 2 * 18 Core Intel Xeon E5 Processors • 128 GB Memory • 48TB Disk space Программное обеспечение(4.1): • Oracle Linux6.5, Oracle JDK 7u72 • Oracle Big Data SQL 1.1* • Cloudera Distribution of Apache Hadoop 5.3 – EDH Edition • Cloudera Manager 5.3 • Oracle R Distribution 3.1.1-2 • Oracle NoSQL Database CE 3.2.4 * Oracle Big Data SQL is separately licensed
  14. 14. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Что вам НЕ придется делать с Big Data Appliance (1/2) • Подбирать и оптимизировать компоненты – сервера, диски, количество дисков, процессоры, сети, память и т.п. • Заключать отдельный договор о поддержке с Cloudera • Собирать кластер • Настраивать сетевые коммутаторы • Инсталлировать операционную систему на каждом узле и • Отслеживать и устанавливать оптимальные версии драйверов и прошивок для каждого компонента • Настраивать операционную систему для оптимальной производительности (у нас же очень много данных!) • Настраивать Java
  15. 15. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Что вам НЕ придется делать с Big Data Appliance (2/2) • Инсталлировать дополнительное ПО от Cloudera • Тестировать работоспособность и производительность каждого узла кластера • Заниматься самостоятельно трудоемкой процедурой многуровнего апгрейда и патчирования BIOS, OS, Java, Hadoop и т.п. • И просто следить за тем, что нужно что-то проапгрейдить • Изучать как это все сделать без остановки и прерывания работы пользователей • Заниматься дизайном перебансировки кластера при его расширении • И т.д. и т.п.
  16. 16. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Big Data SQL
  17. 17. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Разные подходы – разные преимущества 1 0 1 2 3 4 5 Мощь инструментов Встроенный функционал ACID транизакции Безопасность Разнообразие форматов данных Разреженные данные Простота ETL Стоимость хранения Простота загрузки Взаимодействие с другими системами Hadoop RDBMS • У Hadoop свои плюсы • У СУБД свои
  18. 18. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Недостатки существующих систем Больших данных • Для работы с Hadoop и реляционными базами данных требуются разные навыки • Существующие механизмы доступа к данным в Hadoop функционально ограничены или работают медленно • Конечные пользователи используют разные инструменты для работы с Hadoop и реляционными базами
  19. 19. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 0 1 2 3 4 5 Мощь инструментов Встроенный функционал ACID транизакции Безопасность Разнообразие форматов данных Разреженные данные Простота ETL Стоимость хранения Простота загрузки Взаимодействие с другими системами Hadoop RDBMS Цель Есть ли возможность объединить два мира? 2 Как это сделать? И как это использовать?
  20. 20. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | SQL
  21. 21. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | SQL существует и спользуется уже более 40 лет SELECT dept, sum(salary) FROM emp, dept WHERE dept.empid = emp.empid GROUP BY dept
  22. 22. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Apache Hive • Apache Hive – Один из самых популярных проектов для обработки данных над Hadoop – Инфраструктура, эмулирующая реляционную СУБД над Hadoop – Есть SQL-подобный язык HiveQL – Позволяет строить аналог свербольших хранилищ данных в Hadoop
  23. 23. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | SQL on Hadoop – не только Hive Stinger
  24. 24. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | HiveQL: SQL очень ограничен • Basic functions – round, sqrt, floor, ceiling, concat, lower, upper, etc. • Aggregate functions – count, sum, min, max, avg, variance, stddev, covar, etc. • Windowing functions – lag, lead, first, last, row_number, dense_rank, cume_dist, percent_rank, ntile SQL Ограничения: • Подзапросы • Объединения • Стат функции
  25. 25. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | next = lineNext.getQuantity(); } if (!q.isEmpty() && (prev.isEmpty() || (eq(q, prev) && gt(q, next)))) { state = "S"; return state; } if (gt(q, prev) && gt(q, next)) { state = "T"; return state; } if (lt(q, prev) && lt(q, next)) { state = "B"; return state; } if (!q.isEmpty() && (next.isEmpty() || (gt(q, prev) && eq(q, next)))) { state = "E"; return state; } if (q.isEmpty() || eq(q, prev)) { state = "F"; return state; } return state; } private boolean eq(String a, String b) { if (a.isEmpty() || b.isEmpty()) { return false; } return a.equals(b); } private boolean gt(String a, String b) { if (a.isEmpty() || b.isEmpty()) { return false; } return Double.parseDouble(a) > Double.parseDouble(b); } private boolean lt(String a, String b) { if (a.isEmpty() || b.isEmpty()) { return false; } return Double.parseDouble(a) < Double.parseDouble(b); } public String getState() { return this.state; } } BagFactory bagFactory = BagFactory.getInstance(); @Override public Tuple exec(Tuple input) throws IOException { long c = 0; String line = ""; String pbkey = ""; V0Line nextLine; V0Line thisLine; V0Line processLine; V0Line evalLine = null; V0Line prevLine; boolean noMoreValues = false; String matchList = ""; ArrayList<V0Line> lineFifo = new ArrayList<V0Line>(); boolean finished = false; DataBag output = bagFactory.newDefaultBag(); if (input == null) { return null; } if (input.size() == 0) { return null; } Object o = input.get(0); if (o == null) { return null; } //Object o = input.get(0); if (!(o instanceof DataBag)) { int errCode = 2114; Сравнение Oracle SQL c HiveQL Simplified, sophisticated, standards based syntax SELECT first_x, last_z FROM ticker MATCH_RECOGNIZE ( PARTITION BY name ORDER BY time MEASURES FIRST(x.time) AS first_x, LAST(z.time) AS last_z ONE ROW PER MATCH PATTERN (X+ Y+ W+ Z+) DEFINE X AS (price < PREV(price)), Y AS (price > PREV(price)), W AS (price < PREV(price)), Z AS (price > PREV(price) AND z.time - FIRST(x.time) <= 7 )) 250+ строк на Java UDF 12 строк на Oracle SQL В 20 раз меньше кода Поиск шаблона (W) в биржевых данных 10:00 10:05 10:10 10:15 10:20 10:25 Ticker
  26. 26. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Данные хранятся во многих местах Транзакции RelationalHadoop Логи NoSQL Профили клиентов SQL
  27. 27. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Big Data SQL Новая технология для обращения к данным в Hadoop из Oracle Database Запросы кOracle, Hadoop иNoSQL Oracle SQL Oracle NoSQLDB HDFS DataNode Oracle NoSQLDB HDFS DataNode OracleDatabase StorageServer OracleDatabase StorageServer •Для пользователя не важно, где лежат данные – в Oracle или в Hadoop •Использование данных в Hadoop любыми BI инструментами •Все возможности языка SQL Oracle •Использование наработок Exadata •Интеграция Big Data Appliance и Exadata
  28. 28. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Потенциал для запросов к любой системе Расширение на любой источник в будущем Ит.д.…
  29. 29. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Интеграция больших данных
  30. 30. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Подходы к интеграции больших данных ETLETL HDFS Традиционные ETL инструменты Spark Sqoop Sqoop Hive Pig Manual Code Ручное кодирование Spark Sqoop Hive Pig ODI Oozie Sqoop Oracle Data Integrator GG
  31. 31. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Data Integrator Не требуется отдельный ETL сервер Логический и физический дизайн разделены Физическое выполнение кода SQL, Hive, Pig, Spark Использование Oozie или ODI Java Agent Библиотека операторов Возмоно определять свои функции
  32. 32. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Enterprise Metadata Management ETL BI Dashboards App ETL ETL Как считаются продажи? Что произойдет, если я поменяю эту таблицу? Какие отчеты используют данные с этого сервера? Sys Admin Руководитель Разрабочик BI Из какой системы пришли данные? Польщователь Какой отчет использует эти данные? CDC Hadoop Data Lake Data Steward Можно ли доверять источнику? ETL разрабочтик Я хочу провести эксперимент. Какие данные у меня есть в наличии? Data Scientist GG
  33. 33. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Big Data Discovery
  34. 34. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Проблемы аналитической обработки Больших Данных Сложность инструментария • Hadoop инструменты рассчитаны на экспертов • Существующие BI инструменты не рассчитаны на Hadoop • Нишевые инструменты имеют ограниченную функциональность 80% усилий тратится на подготовку данных Неопределенность данных • Большой объем, гибкая структура • Полезность данных не очевидна • Значительные усилия по подготовке данных Зависимость от высоко- квалифицированных экспертов
  35. 35. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Требуется новый подход Быстрой трансформации и обогащения данных для эффективной работы с ними Снятия барьеров с Больших данных для исследования и поиска новых возможностей Единый интуитивный визуальный интерфейс для ... Поиска и изучения для понимания потенциала данных find explore transform discover share
  36. 36. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 3 Oracle Big Data Discovery Визуализация данных Hadoop find explore transform discover share
  37. 37. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | КаталогOracle Big Data Discovery Понять потенциал Больших Данных 4 • Доступ к интерактивному каталогу данных, расположенных в Hadoop • Удобный поиск и навигация в наборах данных • Суммарная информация о наборах данных; описания, теги пользователей
  38. 38. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | ИзучениеOracle Big Data Discovery Понять потенциал Больших Данных 4 • Визуализация статистической информации по всем атрибутам • Сортировака атрибутов на основе потенциала данных • Распределение данных, качество данных и выбросы • Понимание корелляции между атрибутами
  39. 39. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 4 Oracle Big Data Discovery Разблокировать Большие Данные • Drag&drop интрефейс для создания аналитических приложений • Использование поисковых возможностей и фасетной навигации • Объединение различных данных для более глубокого анализа • Поиск новых патернов, закономерностей в интерактивном визуальном аналитическом интерфейсе Исследование
  40. 40. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Information Management Reference architecture
  41. 41. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Information Management Reference Architecture Уровеньдоступакданным Бизнес аналитика Информаци- онные сервисы Простота и скорость загрузки данных Стоимость запроса к данным Уровень производительного доступа Фундаментальный слой данных (3N форма) Хранилище первичной информации Data Science Первичная информация хранится без всяких изменений Данные очищены, организованы в некоторую структуру, но абстрагированы от бизнес процессов Данные организованы в соответствии с требованиями бизнес процессов, для достижения максимальной производительности Исследование данных Среда разработки Исследование данных, выявление новых закономерностей Разработка взаимодействия всех слоев приложения Источники данных Мультиструктурные источники Контент Docs Web & Social Media SMS Структурированные Данные (из реляционных источников) Мастер данные Планирование и бюджетирование
  42. 42. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | При создании Oracle IM Ref Architecture учитывается: • Мультивендорный ландшафт заказчиков • Хранилища данных и аналитика постоянно эволюционируют • Существование разных типов данных (структурированные, неструктурированные) и подходов к их обработке • Необходимость не только обработки исторических данных, но и существование задач реагирования в режиме близком к реальному времени (Fast Data) • Необходимость хранения исходных данных • Необходимость создания «песочниц» для экспериментов
  43. 43. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 5 Есть вопросы? Andrey.Pivovarov@oracle.com
  44. 44. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 5
  45. 45. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Exadata Database Machine
  46. 46. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Exadata X5 • Машина для СУБД Oracle – Хранилища данных – OLTP – Смешанные нагрузки – Консолидация • Высочайшая производительность СУБД Oracle – Exadata Software используется для предобработки данных прямо на уровне системы хранения • До 672TB в одной стойке • Exadata позволяет использовать новейшие технологии: – In Memory Database Option – Колоночное хранение данных – Опционально – 100% хранение данных на Flash
  47. 47. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Exadata X5-2 Hardware  2-Socket Database Servers – Fastest Xeon chips, 18-core, 256 GB to 768 GB DRAM  InfiniBand Network – 40 Gb InfiniBand внутренняя сеть – 10 Gb or 1 Gb Ethernet для внешей связи  2-Socket Storage Servers – 16 ядер на сервере для предобработки данных на СХД – Extreme Flash (EF) Storage  12.8 TB Ultra-Fast PCI Flash Drives или – High Capacity (HC) Storage  6.4 TB Ultra-Fast PCI Flash Cards + 48 TB SAS disks 5
  48. 48. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Примеры конфигураций Exadata для рахличных нагрузок 5 16 Database Servers + 5 High Capacity Storage Servers DB In-Memory Machine Extreme Flash OLTP Machine 8 Database Servers + 8 Extreme Flash Storage Servers Data Warehousing Machine Много серверов БД, много памяти несколько серверов хранения 100% Flash хранение данных для OLTP систем Большой объем хранилища Большое количество серверов БД 576 DB Cores 13.3 TB RAM 32 TB Flash 240 TB Disk 288 DB Cores 2 TB RAM 102 TB Flash 288 DB Cores 224 Storage Cores 90 TB Flash 672 TB Disk 8 Database Servers + 14 High Capacity Storage Servers
  49. 49. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Масштабируемость Exadata Тысячи процессорных ядер Петабайты данных
  50. 50. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | • Захват и анализ данных с сенсоров • Огромные объем данных в единицу времени Ускорение летных испытаний для сокращения времени поставки новых самолетов Ускорение летных испытаний Solution components: Real-Time Decisions, Event Processing Solution Components: BDA and NoSQL
  51. 51. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Рецепты: Поиск ошибок и мошенничеств • 8 миллионов рецептов обрабатывается каждый день • Поиск неправильного использования препаратов • Интеграция структурированных и неструктурированных данных • Геоаналитика У мненьшение количества ошибок и мошенничеств Solution components:, BI Foundation, Endeca, Advanced Analytics – ‘R’ statistical analysis & data mining, Exalytics, Exadata
  52. 52. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | • 18M учеников и 42 000 школ • Аналитика поведения учеников и учителей • Комбинация RDBMS и Hadoop • Цель – сделать образование более эффективным Улучшение аналитики для системы образования Трансформация образования в Турции Solution components: Real-Time Decisions, Event Processing Solution Components: 2 BDA, 2 Exadata, 2 Exalogic, 2 Exalytics, IDM
  53. 53. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | • Аналитика и предложеия в реальном времени • Использование Event Processing • Сервис предоставляется внешним партнерам • Генерация новых доходов Геомаркетинг для предоставления новых услуг Монетизация данных
  54. 54. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | •Как вам удалось изменить счет с 1-8 на 9-8? Oracle Big Data в Oracle Team USA Мы взломали код •300 сенсоров на яхте •выдают 2 ГБ данных за одну гонку

×