Модернизация хранилища данных для использования передовой аналитикиElizaveta Alekseeva
Устаревшее хранилище данных сильно «тормозит» и обходится слишком дорого? Даже если вам очень хочется выбросить его на помойку, не делайте этого: вы рискуете совершить не просто ошибку, а очень дорогостоящую ошибку. Просто замените платформу СУБД с построчным хранением данных на более современную – с поколоночным.
Модернизация хранилища данных для использования передовой аналитикиYuri Yashkin
Обновление хранилища, предназначенного для обработки и анализа больших объемов данных, не должно нарушать функционирования вашей информационной среды. Благодаря низкой стоимости, высокой скорости и масштабируемости массивно-параллельной архитектуры колоночная база данных, в частности HPE Vertica, способна стать важнейшим элементом гибридной архитектуры Больших данных.
Основы OLAP. Вебинар Workaround в SoftengiSoftengi
16 декабря 2014 года сообщество Workaround в Softengi провело первый вебинар "Основы OLAP", докладчиком которого был Юрий Марков, архитектор решений с 15-летним опытом в ИТ.
О чем:
Данные != Информация
Хранилища информации как источник информации для принятия решений
Архитектура хранилищ данных
Реализация OLAP на примере Microsoft SQL Server
Для кого: разработчики баз данных, аналитики, IT-специалисты.
Организатор: семинары Workaround в Softengi. Стартовали в феврале 2014 года как закрытые Архитектурные семинары для сотрудников (https://www.youtube.com/user/softengi ). В октябре 2014 года стали открытыми семинарами Workaround (он же «костыль» или обходной прием) для разработчиков и архитекторов ПО.
This presentation was created by me for the course of Information technology in 2012. It contains detailed description of OLAP technology and basic description of OLTP technology.
Модернизация хранилища данных для использования передовой аналитикиElizaveta Alekseeva
Устаревшее хранилище данных сильно «тормозит» и обходится слишком дорого? Даже если вам очень хочется выбросить его на помойку, не делайте этого: вы рискуете совершить не просто ошибку, а очень дорогостоящую ошибку. Просто замените платформу СУБД с построчным хранением данных на более современную – с поколоночным.
Модернизация хранилища данных для использования передовой аналитикиYuri Yashkin
Обновление хранилища, предназначенного для обработки и анализа больших объемов данных, не должно нарушать функционирования вашей информационной среды. Благодаря низкой стоимости, высокой скорости и масштабируемости массивно-параллельной архитектуры колоночная база данных, в частности HPE Vertica, способна стать важнейшим элементом гибридной архитектуры Больших данных.
Основы OLAP. Вебинар Workaround в SoftengiSoftengi
16 декабря 2014 года сообщество Workaround в Softengi провело первый вебинар "Основы OLAP", докладчиком которого был Юрий Марков, архитектор решений с 15-летним опытом в ИТ.
О чем:
Данные != Информация
Хранилища информации как источник информации для принятия решений
Архитектура хранилищ данных
Реализация OLAP на примере Microsoft SQL Server
Для кого: разработчики баз данных, аналитики, IT-специалисты.
Организатор: семинары Workaround в Softengi. Стартовали в феврале 2014 года как закрытые Архитектурные семинары для сотрудников (https://www.youtube.com/user/softengi ). В октябре 2014 года стали открытыми семинарами Workaround (он же «костыль» или обходной прием) для разработчиков и архитекторов ПО.
This presentation was created by me for the course of Information technology in 2012. It contains detailed description of OLAP technology and basic description of OLTP technology.
Бизнес-ориентированное хранение данных – синхронизация потребностей бизнеса с...Fujitsu Russia
Бизнес-ориентированное хранение данных – синхронизация потребностей бизнеса с возможностями современного хранилища.
Рекорды производительности и их применимость в реальной жизни.
Александр Яковлев, Product manager Storage, FUJITSU Россия и СНГ
Продукт HP Vertica является системой управления базами данных, работающей по принципам массивной параллельной обработки и разработанной специально для хранения и обработки больших объемов данных.
HP Vertica поддерживает язык SQL, стандартные интерфейсы доступа к данным ODBC, JDBC, ADO.NET, а также содержащий множество коннекторов к различным инструментам бизнес-аналитики и анализа данных.
Кластер СУБД HP Vertica состоит из узлов стандартной архитектуры x86, объединенных сетевым соединением. Все узлы кластера являются равноценными, любой из узлов кластера может принимать и обслуживать запросы пользователей, а также выполнять загрузку данных.
СУБД 2013 Лекция №1 "Введение и начало проектирования"Technopark
Технопарк Mail.ru Group, МГТУ им. Н.Э. Баумана. Курс "Базы данных". Лекция №1 "Введение и начало проектирования"
Лектор - Павел Щербинин.
В лекции обсуждаются значение и роли баз данных в IT, даются определения БД и СУБД. Затем рассказывается о реляционной модели данных, об основах реляционной алгебры. Далее говорится непосредственно о проектировании БД: каковы критерии оценки модели данных, особенности концептуального проектирования, этапы проектирования, что такое логическое проектирование. Остальная часть лекции посвящена типам данных MySQL: NULL, целые числа, числа с плавающей точкой, бинарные, строки, дата и время.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9obOz5K695ugYuiOOCBciEi
Бизнес-ориентированное хранение данных – синхронизация потребностей бизнеса с...Fujitsu Russia
Бизнес-ориентированное хранение данных – синхронизация потребностей бизнеса с возможностями современного хранилища.
Рекорды производительности и их применимость в реальной жизни.
Александр Яковлев, Product manager Storage, FUJITSU Россия и СНГ
Продукт HP Vertica является системой управления базами данных, работающей по принципам массивной параллельной обработки и разработанной специально для хранения и обработки больших объемов данных.
HP Vertica поддерживает язык SQL, стандартные интерфейсы доступа к данным ODBC, JDBC, ADO.NET, а также содержащий множество коннекторов к различным инструментам бизнес-аналитики и анализа данных.
Кластер СУБД HP Vertica состоит из узлов стандартной архитектуры x86, объединенных сетевым соединением. Все узлы кластера являются равноценными, любой из узлов кластера может принимать и обслуживать запросы пользователей, а также выполнять загрузку данных.
СУБД 2013 Лекция №1 "Введение и начало проектирования"Technopark
Технопарк Mail.ru Group, МГТУ им. Н.Э. Баумана. Курс "Базы данных". Лекция №1 "Введение и начало проектирования"
Лектор - Павел Щербинин.
В лекции обсуждаются значение и роли баз данных в IT, даются определения БД и СУБД. Затем рассказывается о реляционной модели данных, об основах реляционной алгебры. Далее говорится непосредственно о проектировании БД: каковы критерии оценки модели данных, особенности концептуального проектирования, этапы проектирования, что такое логическое проектирование. Остальная часть лекции посвящена типам данных MySQL: NULL, целые числа, числа с плавающей точкой, бинарные, строки, дата и время.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9obOz5K695ugYuiOOCBciEi
1. Вводная часть: базовые понятия и определения
1.1. Что такое “файл”
1.2. Роль файлов в современном мире, миф о ненужности файлов
1.3. Файловое хранилище АКА файловая система
1.3.1. внутреннее устройство
1.3.1.1. винтажные и журналируемые. зачем нужен журнал
1.3.1.2. плоские и иерархические
1.3.1.3. контроль доступа
1.3.2. POSIX
1.3.2.1. произвольное чтение
1.3.2.2. произвольная запись
1.3.2.3. атомарные операции
1.3.3. bells and whistles
1.3.3.1. сжатие, шифрование, дедупликация
1.3.3.2. snapshots
1.4. кеширование чтения и записи
2. HighLoad - это сеть
2.1. что вообще такое “HighLoad”, или “ведет ли кроилово к попадалову”
2.2. протоколы доступа: stateless и stateful
2.3. отказоустойчивость и ее двуличие
2.3.1. целостность данных
2.3.2. бесперебойные запись и чтение
2.4. Теорема CAP
3. Так в чем проблема?
3.1. Берем большую-пребольшую СХД и…
3.1.1. локальный кеш?!
3.1.2. конкурентная запись?!!
3.1.3. Берем OCFS2 и…
3.1.3.1. Как “падают виртуалки”?!
3.1.3.2. И почему так медленно?
3.1.4. А еще большую-пребольшую СХД довольно трудно получить в свое распоряжение
3.2. Берем CEPH/Lustre/LeoFS и…
3.2.1. Почему так медленно?!
3.2.2. Что значит “ребалансинг”?!
3.3. И немного о резервном копировании
3.3.1. Резервное копирование - это не отказоустойчивость
3.4. И снова про атомарные операции
3.5. Так почему все-таки нельзя просто сложить файлы в базу?
4. Что же делать?
4.1. В первую очередь это зависит от того, какова наша задача
4.1.1. А надо ли экономить?
4.1.2. POSIX - нужен ли он?
4.1.3. Большие файлы - нужны ли они?
4.1.4. Атомарные операции - нужны ли они?
4.1.5. Версионирование - нужно ли версионирование?
4.1.6. Насколько большим должно быть наше хранилище?
4.1.7. И собираемся ли мы удалять файлы?
4.1.8. И каков будет профиль нагрузки?
4.2. I’m feeling lucky - для некоторых сочет�
Обзорный доклад про базовое внутреннее устройство любого современного поискового движка. Про сжатые списки документов и позиций, как затем с ними работает поиск совпадающих документов (и разные операторы), как устроено ранжирование найденных документов, как бывают устроены и работают с фильтрацией и агрегацией дополнительные (нетекстовые) атрибуты документов. По возможности, упоминание всех известных вариантов реализаций (как, вообще, можно, как сделано в Sphinx, как в Lucene).
Знакомство с виртуализацией данных для профессионалов в области данныхDenodo
Watch full webinar here: https://buff.ly/3OETC08
По данным аналитической компании Gartner, "к 2022 году 60% предприятий включат виртуализацию данных в качестве основного метода доставки данных в свою интеграционную архитектуру". Компания Gartner назвала Denodo лидером в Магическом квадранте 2020 года по инструментам интеграции данных.
В ходе этого 1,5-часового занятия вы узнаете, как виртуализация данных революционизирует бизнес и ИТ-подход к доступу, доставке, потреблению, управлению и защите данных, независимо от возраста вашей технологии, формата данных или их местонахождения. Эта зрелая технология устраняет разрыв между ИТ и бизнес-пользователями и обеспечивает значительную экономию средств и времени.
**ФОРМАТ
Онлайн-семинар продолжительностью 1 час 30 минут.
Благодаря записи вы можете выполнять упражнения в своем собственном темпе.
**ДЛЯ КОГО ЭТОТ СЕМИНАР?
ИТ-менеджеры / архитекторы
Специалисты по анализу данных / аналитики
CDO
**СОДЕРЖАНИЕ
В программе: введение в суть виртуализации данных, примеры использования, реальные примеры из практики клиентов и демонстрация возможностей платформы Denodo Platform:
Интеграция и предоставление данных быстро и легко с помощью платформы Denodo Platform 8.0
Оптимизатор запросов Denodo предоставляет данные в режиме реального времени, по запросу, даже для очень больших наборов данных
Выставлять данные в качестве "сервисов данных" для потребления различными пользователями и инструментами
Каталог данных: Открывайте и документируйте данные с помощью нашего Каталога данных
пространства для самостоятельного доступа к данным.
Виртуализация данных играет ключевую роль в управлении и обеспечении безопасности данных в вашей организации
**ПОВЕСТКА
Введение в виртуализацию данных
Примеры использования и примеры из практики клиентов
Архитектура - Управление и безопасность
Производительность
Демо
Следующие шаги: как самостоятельно протестировать и внедрить платформу
Интерактивная сессия вопросов и ответов
Знакомство с виртуализацией данных для профессионалов в области данныхDenodo
Watch full webinar here: https://buff.ly/3SDOwnX
По данным аналитической компании Gartner, "к 2022 году 60% предприятий включат виртуализацию данных в качестве основного метода доставки данных в свою интеграционную архитектуру". Компания Gartner назвала Denodo лидером в Магическом квадранте 2020 года по инструментам интеграции данных.
В ходе этого 1,5-часового занятия вы узнаете, как виртуализация данных революционизирует бизнес и ИТ-подход к доступу, доставке, потреблению, управлению и защите данных, независимо от возраста вашей технологии, формата данных или их местонахождения. Эта зрелая технология устраняет разрыв между ИТ и бизнес-пользователями и обеспечивает значительную экономию средств и времени.
**ФОРМАТ
Онлайн-семинар продолжительностью 1 час 30 минут. Благодаря записи вы можете выполнять упражнения в своем собственном темпе.
**ДЛЯ КОГО ЭТОТ СЕМИНАР?
ИТ
менеджеры / архитекторы
Специалисты по анализу данных / аналитики
CDO
**СОДЕРЖАНИЕ
В программе: введение в суть виртуализации данных, примеры использования, реальные примеры из практики клиентов и демонстрация возможностей платформы Denodo Platform:
Интеграция и предоставление данных быстро и легко с помощью платформы Denodo Platform 8.0
Оптимизатор запросов Denodo предоставляет данные в режиме реального времени, по запросу, даже для очень больших наборов данных
Выставлять данные в качестве "сервисов данных" для потребления различными пользователями и инструментами
Каталог данных: Открывайте и документируйте данные с помощью нашего Каталога данных - пространства для самостоятельного доступа к данным.
Виртуализация данных играет ключевую роль в управлении и обеспечении безопасности данных в вашей организации
**ПОВЕСТКА
Введение в виртуализацию данных
Примеры использования и примеры из практики клиентов
Архитектура
Управление и безопасность
Производительность
Демо
Следующие шаги: как самостоятельно протестировать и внедрить платформу
Интерактивная сессия вопросов и ответов
Построение Data Mesh на основе Виртуальных ДанныхDenodo
Watch full webinar here: https://buff.ly/48QyYTv
Упростите проектирование инфраструктуры данных вашего предприятия, чтобы оптимизировать процесс принятия решений, расширить возможности экспертов в области данных и повысить согласованность.
Присоединяйтесь к этому вебинару, чтобы узнать, как архитектура Data Mesh, поддерживаемая Виртуализацией Данных, позволяет организациям предоставлять информацию, которая:
Очищена и подготовлена
Зависит от предметной области, но потребляется организацией в целом
В режиме реального времени, по требованию и в режиме самообслуживания.
Полностью управляемая, защищенная, надежная и заслуживающая доверия
Учитывает потребности различных подразделений предприятия.
Подходы к построению хранилищ данных в крупных организацияхСбертех | SberTech
6-7 июня на мероприятии Startup Village в Сколково прошла серия митапов, организованных совместно Сбербанком и СберТехом. Вашему вниманию - серия презентационных материалов с мероприятия.
Бизнес-контекст, совместная работа и согласованность для интеллектуального уп...Andrew Sovtsov
Вебинар компании Embarcadero.
ER/Studio — это основной компонент реализации программы управления корпоративных данными. Быстрая и точная интерпретация данных, совместное и многократное их использование помогают повысить качество принимаемых решений. CONNECT делает средства для работы с базами данных более интеллектуальными, на лету дополняя данные бизнес-контекстом и функциями совместной работы, что повышает эффективность работы организации
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСYury Petrov
В докладе я постараюсь донести до аудитории общую концепцию построения инфраструктуры Big Data, которую многие не видят.
Будут и инсайты и самый главный из них это то, что за долгое время работы с Big Data я таки вывел определение для этого термина
Druid is one useful and popular tool in the Big Data world. It is this OLAP system that allows you to efficiently process, store and query data. Which confirms the demand for Druid among tools in the Big Data processing environment.
With Vladimir Iordanov we will talk about how Druid works, what it consists of and what its capabilities are. Vladimir will introduce us to the Druid components, talk about the cluster architecture, how data processing is going on.
1. Хранилище данных
Хранилище данных (англ. Data Warehouse) — предметно-
ориентированная информационная база данных, специально
разработанная и предназначенная для подготовки отчётов и
бизнес-анализа с целью поддержки принятия решений в
организации. Строится на базе систем управления базами
данных и систем поддержки принятия решений.
2. • Данные, поступающие в хранилище данных,
как правило, доступны только для чтения.
Данные из OLTP-системы копируются в
хранилище данных таким образом, чтобы
построение отчётов и OLAP-анализ не
использовал ресурсы транзакционной системы
и не нарушал её стабильность. Как правило,
данные загружаются в хранилище с
определённой периодичностью, поэтому
актуальность данных может несколько
отставать от OLTP-системы.
4. Принципы организации хранилища
• Проблемно-предметная ориентация. Данные
объединяются в категории и хранятся в соответствии с
областями, которые они описывают, а не с
приложениями, которые они используют.
• Интегрированность. Данные объединены так, чтобы
они удовлетворяли всем требованиям предприятия в
целом, а не единственной функции бизнеса.
• Некорректируемость. Данные в хранилище данных не
создаются: т.е. поступают из внешних источников, не
корректируются и не удаляются.
• Зависимость от времени. Данные в хранилище точны
и корректны только в том случае, когда они привязаны к
некоторому промежутку или моменту времени.
5. Дизайн хранилищ данных
Нормализованные хранилища
данных
• В нормализованных хранилищах,
данные находятся в предметно
ориентированных таблицах третьей
нормальной формы. Нормализованные
хранилища характеризуются как
простые в создании и управлении,
недостатки нормализованных хранилищ
– большое количество таблиц как
следствие нормализации, из-за чего для
получения какой-либо информации
нужно делать выборку из многих таблиц
одновременно, что приводит к
ухудшению производительности
системы. Для решения этой проблемы
используются денормализованные
таблицы - витрины данных, на основе
которых уже выводятся отчетные
формы. При громадных объемах данных
могут использовать несколько уровней
«витрин»/«хранилищ».
Хранилища с измерениями
• Хранилища с измерениями используют схему
«звезда» или схему «снежинка». При этом в центре
«звезды» находятся данные (Таблица фактов),
а измерения образуют лучи звезды. Различные
таблицы фактов совместно используют таблицы
измерений, что значительно облегчает операции
объединения данных из нескольких предметных
таблиц фактов (Пример – факты продаж и поставок
товара). Таблицы данных и соответствующие
измерениями образуют архитектуру «шина».
Измерения часто создаются в третьей нормальной
форме, в том числе, для протоколирования изменения
в измерениях. Основным достоинством хранилищ с
измерениями является простота и понятность для
разработчиков и пользователей, также, благодаря
более эффективному хранению данных и
формализованным измерениям, облегчается и
ускоряется доступ к данным, особенно при сложных
анализах. Основным недостатком является более
сложные процедуры подготовки и загрузки данных, а
также управление и изменение измерений данных.
• При достаточно большом объеме данных схемы
«звезда» и «снежинка» также дают снижение
производительности при соединениях с измерениями.
6. Процессы работы с данными
Источниками данных могут быть:
• Традиционные системы регистрации операций
• Отдельные документы
• Наборы данных
Операции с данными:
• Извлечение – перемещение информации от источников данных в
отдельную БД, приведение их к единому формату.
• Преобразование – подготовка информации к хранению в
оптимальной форме для реализации запроса, необходимого для
принятия решений.
• Загрузка – помещение данных в хранилище, производится атомарно,
путем добавления новых фактов или корректировкой существующих.
• Анализ – OLAP, Data Mining, сводные отчёты.
• Представление результатов анализа.
7. Вся эта информация используется в словаре метаданных. В словарь
метаданных автоматически включаются словари источников данных. Здесь
же форматы данных для их последующего согласования, периодичность
пополнения данных, согласованность во времени.
Задача словаря метаданных состоит в том, чтобы освободить разработчика
от необходимости стандартизировать источники данных.
Создание хранилищ данных не должно противоречить действующим
системам сбора и обработки информации.
Специальные компоненты словарей должны обеспечивать своевременное
извлечение из словарей и обеспечить преобразование к единому формату
на основе словаря метаданных.
Логическая структура данных хранилища данных отличается от структуры
данных источников данных.
8. Для разработки эффективного процесса преобразования
необходима хорошо проработанная модель корпоративных
данных и модель технологии принятия решений.
Данные для пользователя удобно представлять в
многоразмерных БД, где в качестве измерения могут выступать
время, цена или географический регион.
Кроме извлечения данных из БД, принятия решений важен
процесс извлечения знаний, в соответствии с
информационными потребностями пользователя.
С точки зрения пользователя в процессе извлечения знаний из
БД должны решаться след. преобразования: данные →
информация → знания → полученные решения.
9. Облачное хранилище данных
• Облачное хранилище
данных (англ. cloud storage) — модель
онлайн-хранилища, в котором данные
хранятся на многочисленных
распределённых в сети серверах,
предоставляемых в пользование
клиентам, в основном, третьей
стороной. В отличие от модели
хранения данных на собственных
выделенных серверах, приобретаемых
или арендуемых специально для
подобных целей, количество или
какая-либо внутренняя структура
серверов клиенту, в общем случае, не
видна. Данные хранятся и
обрабатываются в так
называемом облаке, которое
представляет собой, с точки зрения
клиента, один большой виртуальный
сервер. Физически же такие серверы
могут располагаться удалённо друг от
друга географически, вплоть до
расположения на разных континентах.
10. Преимущества облачных хранилищ
• Клиент платит только за то место в хранилище, которое
фактически использует, но не за аренду сервера, все
ресурсы которого он может и не использовать.
• Клиенту нет необходимости заниматься
приобретением, поддержкой и обслуживанием
собственной инфраструктуры по хранению данных, что,
в конечном счёте, уменьшает общие издержки
производства.
• Все процедуры по резервированию и сохранению
целостности данных производятся провайдером
облачного центра, который не вовлекает в этот процесс
клиента.
11. Потенциальные вопросы
• Безопасность при хранении и пересылке данных является
одним из основных вопросов при работе с облаком, особенно в
отношении конфиденциальных, приватных данных.
• Общая производительность при работе с данными
в облаке может быть ниже таковой при работе с локальными
копиями данных.
• Надёжность и своевременность получения и доступности
данных в облаке очень сильно зависит от многих
промежуточных параметров, в основном таких, как каналы
передачи данных на пути от клиента к облаку,
вопрос последней мили, вопрос о надлежащем качестве
работы интернет-провайдера клиента, вопрос о доступности
самого облака в данный момент времени.
12. Облачные шлюзы
• Облачные шлюзы — технология, которая может
быть использована для более удобного
представления облака клиенту. К примеру, с
помощью соответствующего программного
обеспечения, хранилище в облаке может быть
представлено для клиента как локальный диск на
компьютере. Таким образом, работа с данными
в облаке для клиента становится абсолютно
прозрачной. И при наличии хорошей, быстрой связи
с облаком клиент может даже не замечать, что
работает не с локальными данными у себя на
компьютере, а с данными, хранящимися,
возможно, за много сотен километров от него.