This document summarizes a presentation on business intelligence and Greenplum database architecture. It discusses Greenplum's shared-nothing architecture, query processing, resource management, high availability features, backup and restore, and expanding the system. Troubleshooting techniques for issues like memory usage, locks, orphan processes, and catalog problems are also covered. The presentation includes Q&A sections.
White Paper: Backup and Recovery of the EMC Greenplum Data Computing Applian...EMC
This White Paper explores backing up EMC Greenplum Data Computing Appliance data to Data Domain systems and how to effectively exploit Data DomainTs leading-edge technology.
PyMADlib - A Python wrapper for MADlib : in-database, parallel, machine learn...Srivatsan Ramanujam
These are slides from my talk @ DataDay Texas, in Austin on 30 Mar 2013
(http://2013.datadaytexas.com/schedule)
Favorite and Fork PyMADlib on GitHub: https://github.com/gopivotal/pymadlib
MADlib: http://madlib.net
This is the presentation I made on the Hadoop User Group Ireland meetup in Dublin. It covers the main ideas of both MPP, Hadoop and the distributed systems in general, and also how to chose the best option for you
Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...Hortonworks
How do you turn data from many different sources into actionable insights and manufacture those insights into innovative information-based products and services?
Industry leaders are accomplishing this by adding Hadoop as a critical component in their modern data architecture to build a data lake. A data lake collects and stores data across a wide variety of channels including social media, clickstream data, server logs, customer transactions and interactions, videos, and sensor data from equipment in the field. A data lake cost-effectively scales to collect and retain massive amounts of data over time, and convert all this data into actionable information that can transform your business.
Join Hortonworks and Informatica as we discuss:
- What is a data lake?
- The modern data architecture for a data lake
- How Hadoop fits into the modern data architecture
- Innovative use-cases for a data lake
Технологии Больших Данных для банков и страховых компаний. Какие задачи решают? Как монетизировать Большие Данные? Бизнес-кейсы и конкретные примеры. Концепция 3D профиля клиента. Точная сегментация и персонифицированный маркетинг. Управление данными на Oracle Big Data Appliance
Уверенные позиции Dell в производстве систем хранения данных, серверов и сетевых технологий позволили создать комплексные решения по развёртыванию и управлению элементами ЦОД как единым целым.
This document summarizes a presentation on business intelligence and Greenplum database architecture. It discusses Greenplum's shared-nothing architecture, query processing, resource management, high availability features, backup and restore, and expanding the system. Troubleshooting techniques for issues like memory usage, locks, orphan processes, and catalog problems are also covered. The presentation includes Q&A sections.
White Paper: Backup and Recovery of the EMC Greenplum Data Computing Applian...EMC
This White Paper explores backing up EMC Greenplum Data Computing Appliance data to Data Domain systems and how to effectively exploit Data DomainTs leading-edge technology.
PyMADlib - A Python wrapper for MADlib : in-database, parallel, machine learn...Srivatsan Ramanujam
These are slides from my talk @ DataDay Texas, in Austin on 30 Mar 2013
(http://2013.datadaytexas.com/schedule)
Favorite and Fork PyMADlib on GitHub: https://github.com/gopivotal/pymadlib
MADlib: http://madlib.net
This is the presentation I made on the Hadoop User Group Ireland meetup in Dublin. It covers the main ideas of both MPP, Hadoop and the distributed systems in general, and also how to chose the best option for you
Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...Hortonworks
How do you turn data from many different sources into actionable insights and manufacture those insights into innovative information-based products and services?
Industry leaders are accomplishing this by adding Hadoop as a critical component in their modern data architecture to build a data lake. A data lake collects and stores data across a wide variety of channels including social media, clickstream data, server logs, customer transactions and interactions, videos, and sensor data from equipment in the field. A data lake cost-effectively scales to collect and retain massive amounts of data over time, and convert all this data into actionable information that can transform your business.
Join Hortonworks and Informatica as we discuss:
- What is a data lake?
- The modern data architecture for a data lake
- How Hadoop fits into the modern data architecture
- Innovative use-cases for a data lake
Технологии Больших Данных для банков и страховых компаний. Какие задачи решают? Как монетизировать Большие Данные? Бизнес-кейсы и конкретные примеры. Концепция 3D профиля клиента. Точная сегментация и персонифицированный маркетинг. Управление данными на Oracle Big Data Appliance
Уверенные позиции Dell в производстве систем хранения данных, серверов и сетевых технологий позволили создать комплексные решения по развёртыванию и управлению элементами ЦОД как единым целым.
Аналитический обзор рынка Больших Данных от IPOboardIpo Board
Данный аналитический обзор посвящен рынку Больших Данных.
В обзоре освящена текущая ситуация на международном и российском рынках.
Также описаны тенденции рынка и его прогноз.
От больших данных к знаниям: преимущества для операторов связиElizaveta Alekseeva
Операторы связи обладают огромными объемами данных об абонентах: об их контактах, использовании Интернета и приложений, истории путешествий и даже о том, как долго они добираются до работы. Чтобы извлечь из всего этого пользу, операторы должны объединить в одно решение все компоненты, помогающие преобразовать данные в знания
От Больших данных к знаниям: преимущества для операторов связиYuri Yashkin
Для операторов связи Большие данные — это возможность создать систему аналитики для более эффективной эксплуатации своих сетей, оценить выгоду от предоставления тех или иных услуг и обеспечить индивидуальный подход к клиентам. И директора по маркетингу, и вице-президенты по эксплуатации сетей, и руководители бизнес-подразделений в равной степени стремятся принимать решения, основываясь на результатах обработки значительных объемов информации. Такие компании ожидают, что их маркетологи смогут предложить им комплексные аналитические выводы, подготовленные с учетом данных, имеющихся в их ИТ- и сетевой инфраструктурах. В данном документе рассматриваются все преимущества преобразования данных операторов связи в знания. Этот процесс охватывает источники информации, инструменты сбора данных, аналитические СУБД с быстрым доступом и, наконец, сценарии использования бизнес-аналитики с представлением и визуализацией результатов и прогнозов
Юрий Гальчевский, Евгений Осинский: "Почему современному банку нужны облачные...De Novo
Доклад руководителя службы ИТ ПАО «БАНК АВАНГАРД» Юрия Гальчевского и руководителя отдела продаж облачных сервисов De Novo Евгения Осинского на технологическом практикуме "Облака без лишних слов", 06.07.2016
My presentation at OSPconf. Big Data Forum 2015 in Moscow on Informatica products and solutions in Big Data space: datawarehouse offload, managed data lake, big data Customer MDM, streaming analytics platform.
Презентация DataScoring: Big Data и кредитный скорингAnton Vokrug
DataScoring: Выдача потребительских кредитов на сегодняшний день одно из самых популярных и приоритетных направлений в финансовом секторе, но и требующее максимального внимания. Выдача кредитов потенциально неплатёжеспособным заемщикам способно нанести банку или кредитной организации существенный финансовый ущерб, поэтому к этому процессу необходимо подходить системно, наладив автоматический и эффективный процесс скоринга заемщиков.
Эту проблему и решает наш продукт:
1. Эффективный скоринг потенциального заемщика на основе анализа «больших данных».
2. Получение дополнительной статистики на основе анализа массива финансовых данных для дальнейшей коммуникации с клиентами.
3. Работа с кредитным портфелям клиента для минимизации просрочки и недопущения пропуска платежей по кредитам.
В процессе разработки программного обеспечения мы используем стек технологий от компании Microsoft: .Net, Azure cloud, C#, а также технологии CUDA.
Наши алгоритмы и модели анализа построены на основе: (1) группы самообучающихся нейронных сетей; (2) системы нормализации входных параметров и семантический анализатор для разбора текстовой информации; (3) составления психологического портрета потенциального клиента; (4) методов кластеризации данных; (5) классических скоринговых системах.
Аналитический обзор рынка Больших Данных от IPOboardIpo Board
Данный аналитический обзор посвящен рынку Больших Данных.
В обзоре освящена текущая ситуация на международном и российском рынках.
Также описаны тенденции рынка и его прогноз.
От больших данных к знаниям: преимущества для операторов связиElizaveta Alekseeva
Операторы связи обладают огромными объемами данных об абонентах: об их контактах, использовании Интернета и приложений, истории путешествий и даже о том, как долго они добираются до работы. Чтобы извлечь из всего этого пользу, операторы должны объединить в одно решение все компоненты, помогающие преобразовать данные в знания
От Больших данных к знаниям: преимущества для операторов связиYuri Yashkin
Для операторов связи Большие данные — это возможность создать систему аналитики для более эффективной эксплуатации своих сетей, оценить выгоду от предоставления тех или иных услуг и обеспечить индивидуальный подход к клиентам. И директора по маркетингу, и вице-президенты по эксплуатации сетей, и руководители бизнес-подразделений в равной степени стремятся принимать решения, основываясь на результатах обработки значительных объемов информации. Такие компании ожидают, что их маркетологи смогут предложить им комплексные аналитические выводы, подготовленные с учетом данных, имеющихся в их ИТ- и сетевой инфраструктурах. В данном документе рассматриваются все преимущества преобразования данных операторов связи в знания. Этот процесс охватывает источники информации, инструменты сбора данных, аналитические СУБД с быстрым доступом и, наконец, сценарии использования бизнес-аналитики с представлением и визуализацией результатов и прогнозов
Юрий Гальчевский, Евгений Осинский: "Почему современному банку нужны облачные...De Novo
Доклад руководителя службы ИТ ПАО «БАНК АВАНГАРД» Юрия Гальчевского и руководителя отдела продаж облачных сервисов De Novo Евгения Осинского на технологическом практикуме "Облака без лишних слов", 06.07.2016
My presentation at OSPconf. Big Data Forum 2015 in Moscow on Informatica products and solutions in Big Data space: datawarehouse offload, managed data lake, big data Customer MDM, streaming analytics platform.
Презентация DataScoring: Big Data и кредитный скорингAnton Vokrug
DataScoring: Выдача потребительских кредитов на сегодняшний день одно из самых популярных и приоритетных направлений в финансовом секторе, но и требующее максимального внимания. Выдача кредитов потенциально неплатёжеспособным заемщикам способно нанести банку или кредитной организации существенный финансовый ущерб, поэтому к этому процессу необходимо подходить системно, наладив автоматический и эффективный процесс скоринга заемщиков.
Эту проблему и решает наш продукт:
1. Эффективный скоринг потенциального заемщика на основе анализа «больших данных».
2. Получение дополнительной статистики на основе анализа массива финансовых данных для дальнейшей коммуникации с клиентами.
3. Работа с кредитным портфелям клиента для минимизации просрочки и недопущения пропуска платежей по кредитам.
В процессе разработки программного обеспечения мы используем стек технологий от компании Microsoft: .Net, Azure cloud, C#, а также технологии CUDA.
Наши алгоритмы и модели анализа построены на основе: (1) группы самообучающихся нейронных сетей; (2) системы нормализации входных параметров и семантический анализатор для разбора текстовой информации; (3) составления психологического портрета потенциального клиента; (4) методов кластеризации данных; (5) классических скоринговых системах.
А.Челебаев - Хранение и обработка больших объемов данных
1. Хранение и обработка больших объемов данных
EMC GREENPLUM
Александр Челебаев
Директор департамента информационных технологий
Нижний Новгород, 2013 год
In 2000, we generated 2 exabytes or 2000 PB of new information.
Fast forward to 2011, the amount of information we’ve generated everyday is 2 exabytes! What’s behind this data deluge?
Программные приложения были центром притяжения последние несколько десятилетий.
Если мы посмотрим на вертикаль индустрии, то увидим, что приложения являются центром и определяют достаточно специфические конфигурации оборудования и ПО вокруг себя. Ларри Эллисон утверждает, что OracleDatabase работает на оборудовании Sun в два раза быстрее, чем на сравнимом оборудовании IBM POWER, и обещает 10 млн долл. любому, кто это опровергнет)))))
С увеличением цифровых массивов увеличивается и их вязкость. При этом большой физический размер делает данные достаточно неповоротливым объектом. Даже несмотря на существующие высокопроизводительные сети со скоростью 10Gbe – потребуется до 10 дней , чтобы передать данные объемом 1 Петабайт.
Каковы тенденции сегодняшнего дня? Данные становятся новым центром притяжения. Данные стали рассматриваться индивидуально.Повышение затрат на ИТ, бурный рост объемов данных и постоянно изменяющаяся конкурентная среда ускорили появление новых подходов к созданию эффективных систем анализа данных.
Greenplum работает с удивительной группой клиентов, помогая имувеличивать свой бизнес за счет обработки аналитических данных и свободно чувствовать себя в эре Больших Данных. Эти промышленные лидеры и инновационные мыслители делают необыкновенные вещи с платформой Greenplum. Как вы можете видеть, EMC работает с компаниями в разных отраслях промышленности и вертикалей. Все, начиная от финансов, розничной торговли, связи , Интернет. Независимо от сектора, компании, использующие Greenplum открывают для себя новые пути развития в разных направлениях.
Во первых, понятие Big Data – не уникально для любой конкретной отрасли, хотя отличия конечно присутствуют.Данный слайд показывает случаи, когда компании используют аналитическую обработку больших данных для получения бизнес преимуществ.Примеры:- К примеру, авиакомпания или телефонная компания предлагает Вам вознаграждение или скидку. Может быть, скорее всего, после того, как несколько дней назад Вы имели неприятный опыт на одном из своих рейсов. Как они это делают?- Ретейлер предлагает Вам продукцию со свойствами и по цене наиболее близкой к той какую бы Вы действительно хотели увидеть. По цене лучше, чем вы видели в магазине или на любимом вебсайте онлайн покупок. - Подразделение Вашей компании отвечающее за PR предоставляет Вам исчерпывающую информацию о клиентах и их возможной неудовлетворенности бизнес процессами.- Ваш врач не в состоянии предсказать как Вы лично будете реагировать на тот или иной курс лечения?- Вы видите все меньше и меньше пропущенных вызовов на своем мобильном телефоне?- Ваша энергетическая (домоуправляющая) компания предлагает точную оценку того насколько экономично вы используете ресурсы?А так же многое другое, что Вы не смогли бы увидеть или Вам не хотелось бы этим заниматься, но Вы хотели бы пользоваться преимуществами, при условии, что предоставляемый сервис не будет слишком навязчивым:How some stores are experimenting with video face recognition to present instantaneous ads to you as you shop their store?The broker who trades stocks for your mutual fund manager is “silently watching” that fund manager to assure he’s not setting up trades beyond “normal” behaviorВ случае, если вы берете кредит и соответствующими органами банка принимаются во внимание ваша кредитоспособность, последние банковские операции, социальные привычки, наклонности , факторы риска и тд. , вряд ли у человека дающего аппрув на разрешение той или иной финансовой транзакции, одобрение ипотечного кредита и т.д вызовет восторг факт вашего онлайн обсуждения последних совершенных прыжков с парашютом.Аналитика работает во всех сферах. Бизнес использующий силу комплексной аналитики на обширных полях информации – становится сильнее и гибче.
Архитектура MPP может существовать в двух качествах – это sharednothing и sharedeverything. В первом случае, каждый узел не разделяет системные ресурсы с другими узлами, выделяя и используя необходимые ему ресурсы самостоятельно. Во втором случае узел использует разделяемые ресурсы, обращаясь к некоему механизму для получения необходимых ему ресурсов.