сервисы персонализации на основе данныхRoman Zykov
Персонализация как сервис на основе данных
Персонализация на основе данных о пользователях играет все большую роль в аналитических CRM системах. Самым первым шагом важно понять, какой продукт или сервис на основе данных вы готовы предложить своим клентам. Далее в докладе будут рассмотрены следующие вопросы:
Достаточно ли у вас данных для персонализации продукта?
Как оценить успешность проекта по персонализации?
Как подружить аналитический и операционный CRM?
Какие основные причины провала таких проектов?
Самостоятельная разработка или outsource?
Насколько важен вопрос правильных технологий?
Где место сегментации клиентов?
В докладе будут вкратце разобраны некоторые примеры российских и зарубежных компаний.
сервисы персонализации на основе данныхRoman Zykov
Персонализация как сервис на основе данных
Персонализация на основе данных о пользователях играет все большую роль в аналитических CRM системах. Самым первым шагом важно понять, какой продукт или сервис на основе данных вы готовы предложить своим клентам. Далее в докладе будут рассмотрены следующие вопросы:
Достаточно ли у вас данных для персонализации продукта?
Как оценить успешность проекта по персонализации?
Как подружить аналитический и операционный CRM?
Какие основные причины провала таких проектов?
Самостоятельная разработка или outsource?
Насколько важен вопрос правильных технологий?
Где место сегментации клиентов?
В докладе будут вкратце разобраны некоторые примеры российских и зарубежных компаний.
Управление кредитным риском - Количественная оценка в соответствии с требованиями регулирования Базель II. Петров Александр Владимирович, Управляющий Директор, Департамент Банковских Рисков, Газпромбанк, Модератор Межбанковской Постоянно Действующей Рабочей Группы по вопросам Компоненты 1, Базеля 2 при АРБ и ЦБ РФ
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...WG_ Events
В докладе Игорь продемонстрирует архитектуру хранилища, базирующуюся на технологиях от Cloudera и Oracle. Он расскажет об опыте интеграции множества источников данных с помощью самописных решений и использованием специализированных инструментов, как Apache NiFi. Выступление заинтересует технических специалистов, которые уже знакомы со стеком Hadoop.
Интересуетесь анализом данных? Присоединяйтесь к нашей группе на Facebook: https://www.facebook.com/groups/DataTalks/
Движение по хрупкому дну / Сергей Караткевич (servers.ru)Ontico
Сегодня Интернет увлечен микросервисами, контейнерами и immutable-инфраструктурой. Очень сложно не поддаться искушению внедрить что-то подобное в компании, в которой вы работаете сейчас. Я попытаюсь отговорить вас использовать эти технологии во вред приложению, себе и бизнесу компании в целом. Я расскажу о типовом проекте, который был запущен в 20 странах за 4 месяца, проблемах, которые я встретил, и выводах, которые я сделал.
- Почему микросервисы не спасут, а похоронят ваш проект.
Я расскажу на основе собственного опыта, почему не стоит увлекаться микросервисами для небольших проектов, почему благие намерения — упрощение деплоя и увеличение числа деплоев, увеличение доступности и улучшение масштабирования ведут к отсутствию гибкости и критическому уменьшению стабильности системы.
- Почему ваша система слишком сложна для своих задач.
Я расскажу, почему не стоит усложнять систему, почему, скорее всего, ваша система слишком сложна для задач, которые она решает и почему вы не контролируете то, что происходит в системе. Я объясню, почему вы потратите все свое время на отладку сложной системы, вместо того чтобы решать задачи бизнеса.
- Почему Docker используется неправильно.
Будут предоставлены реальные примеры использования Docker для нового проекта и для портированного проекта, я объясню, с какими проблемами сталкиваются операторы при работе с Docker на живых примерах, объясню, почему вы, скорее всего, используете Docker неправильно, и предложу варианты, как этого избежать.
- Почему immutable слишком статичен для вашей компании.
Я расскажу про свой опыт работы с immutable и объясню, почему, на мой взгляд, переход к подобной инфраструкт
Data Lake vs. Data Warehouse: Which is Right for Healthcare?Health Catalyst
The data lake style of a data warehouse architecture is a flexible alternative to a traditional data warehouse. It allows for unstructured data. When a warehousing approach requires that the data be in a structured format, there are constraints on the analyses that can be performed because not all of the data can be structured early. The data lake concept is very similar to our Late-Binding approach in that data lakes are our source marts. We increase the efficiency and effectiveness of these through: 1. Metadata, 2. Source Mart Designer, and 3. Subject Area Mart Designer.
Управление кредитным риском - Количественная оценка в соответствии с требованиями регулирования Базель II. Петров Александр Владимирович, Управляющий Директор, Департамент Банковских Рисков, Газпромбанк, Модератор Межбанковской Постоянно Действующей Рабочей Группы по вопросам Компоненты 1, Базеля 2 при АРБ и ЦБ РФ
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...WG_ Events
В докладе Игорь продемонстрирует архитектуру хранилища, базирующуюся на технологиях от Cloudera и Oracle. Он расскажет об опыте интеграции множества источников данных с помощью самописных решений и использованием специализированных инструментов, как Apache NiFi. Выступление заинтересует технических специалистов, которые уже знакомы со стеком Hadoop.
Интересуетесь анализом данных? Присоединяйтесь к нашей группе на Facebook: https://www.facebook.com/groups/DataTalks/
Движение по хрупкому дну / Сергей Караткевич (servers.ru)Ontico
Сегодня Интернет увлечен микросервисами, контейнерами и immutable-инфраструктурой. Очень сложно не поддаться искушению внедрить что-то подобное в компании, в которой вы работаете сейчас. Я попытаюсь отговорить вас использовать эти технологии во вред приложению, себе и бизнесу компании в целом. Я расскажу о типовом проекте, который был запущен в 20 странах за 4 месяца, проблемах, которые я встретил, и выводах, которые я сделал.
- Почему микросервисы не спасут, а похоронят ваш проект.
Я расскажу на основе собственного опыта, почему не стоит увлекаться микросервисами для небольших проектов, почему благие намерения — упрощение деплоя и увеличение числа деплоев, увеличение доступности и улучшение масштабирования ведут к отсутствию гибкости и критическому уменьшению стабильности системы.
- Почему ваша система слишком сложна для своих задач.
Я расскажу, почему не стоит усложнять систему, почему, скорее всего, ваша система слишком сложна для задач, которые она решает и почему вы не контролируете то, что происходит в системе. Я объясню, почему вы потратите все свое время на отладку сложной системы, вместо того чтобы решать задачи бизнеса.
- Почему Docker используется неправильно.
Будут предоставлены реальные примеры использования Docker для нового проекта и для портированного проекта, я объясню, с какими проблемами сталкиваются операторы при работе с Docker на живых примерах, объясню, почему вы, скорее всего, используете Docker неправильно, и предложу варианты, как этого избежать.
- Почему immutable слишком статичен для вашей компании.
Я расскажу про свой опыт работы с immutable и объясню, почему, на мой взгляд, переход к подобной инфраструкт
Data Lake vs. Data Warehouse: Which is Right for Healthcare?Health Catalyst
The data lake style of a data warehouse architecture is a flexible alternative to a traditional data warehouse. It allows for unstructured data. When a warehousing approach requires that the data be in a structured format, there are constraints on the analyses that can be performed because not all of the data can be structured early. The data lake concept is very similar to our Late-Binding approach in that data lakes are our source marts. We increase the efficiency and effectiveness of these through: 1. Metadata, 2. Source Mart Designer, and 3. Subject Area Mart Designer.
- Как начать развивать систему аналитики в компании, не имея армию data-инженеров.
- Как перейти из состояния «я не понимаю какие квадратики на этой схеме нужны для моих задач» и при этом не уйти в R&D на несколько месяцев.
- Как реализовать потоковую обработку данных на PHP (~40К записей в минуту).
- Какие технические решения применяли в нашем решении и какие факторы учитывали в принятии решений.
Презентация с мероприятия https://habr.com/ru/company/tuturu/blog/426059/
Druid is one useful and popular tool in the Big Data world. It is this OLAP system that allows you to efficiently process, store and query data. Which confirms the demand for Druid among tools in the Big Data processing environment.
With Vladimir Iordanov we will talk about how Druid works, what it consists of and what its capabilities are. Vladimir will introduce us to the Druid components, talk about the cluster architecture, how data processing is going on.
Центр решений ФОРС. Презентации продуктов и технологий. Демонстрационный зал аппаратных средств. Проведение тренингов и тестирований. Проработка и оптимизация решений на стеке Oracle. Oracle Big Data Appliance
Всеволод Поляков "История одного мониторинга"Fwdays
«Мир изменился… Я чувствую это в воде… Я чувствую это в земле…»
Галадриэль
«Какой-то отсталый у неё мониторинг»
Сева Поляков
В этом докладе я хочу рассказать вам историю о современном мониторинге, на примере выбора для моего текущего проекта. Когда нужен prometheus, когда нужен SaaS и почему графит не умрёт. Также я постараюсь пройтись по всем новинкам и важным изменениям в современном мире мониторинга.
Модернизация хранилища данных для использования передовой аналитикиElizaveta Alekseeva
Устаревшее хранилище данных сильно «тормозит» и обходится слишком дорого? Даже если вам очень хочется выбросить его на помойку, не делайте этого: вы рискуете совершить не просто ошибку, а очень дорогостоящую ошибку. Просто замените платформу СУБД с построчным хранением данных на более современную – с поколоночным.
Доклад от Parallels:
Методики тестировния производительности database-centric приложений
Описание: При работе над сложными продуктами в database-centric приложениях изменения в коде и тем более в SQL запросах к базе данных могут приводить к неожиданным падениям производительности или же деградации производительности приложения с ростом размера базы данных. Поэтому важно уметь как можно быстрее отлавливать и исправлять причины таких деградаций.
Доклад о том, как устроен процесс мониторинга производительности продукта автоматизации хостинга и облачных сервисов Parallels Automation, для которого определяющим фактором является производительность базы данных.
Компания покажет, как анализирует планы исполнения SQL запросов внутри PostgreSQL, как проверяет насколько быстро и эффективно в целом работают SQL запросы, как определяет стратегию дальнейшей оптимизации.
Модернизация хранилища данных для использования передовой аналитикиYuri Yashkin
Обновление хранилища, предназначенного для обработки и анализа больших объемов данных, не должно нарушать функционирования вашей информационной среды. Благодаря низкой стоимости, высокой скорости и масштабируемости массивно-параллельной архитектуры колоночная база данных, в частности HPE Vertica, способна стать важнейшим элементом гибридной архитектуры Больших данных.
Презентация аналитической системы для ритейла СуперМаг BIОникс Софт
СуперМаг BI отвечает на основные вопросы:
Что будет происходить - прогнозные отчеты.
Почему это происходит - статистические отчеты.
Что следует предпринять - сигналы.
Как часто, как много, где и когда - отчеты "на лету".
Что произошло - простые отчеты.
Основная задача BI - повышение конкурентноспособности, повышение удовлетворенности клиента и оптимизация работы.
Знакомство с виртуализацией данных для профессионалов в области данныхDenodo
Watch full webinar here: https://buff.ly/3OETC08
По данным аналитической компании Gartner, "к 2022 году 60% предприятий включат виртуализацию данных в качестве основного метода доставки данных в свою интеграционную архитектуру". Компания Gartner назвала Denodo лидером в Магическом квадранте 2020 года по инструментам интеграции данных.
В ходе этого 1,5-часового занятия вы узнаете, как виртуализация данных революционизирует бизнес и ИТ-подход к доступу, доставке, потреблению, управлению и защите данных, независимо от возраста вашей технологии, формата данных или их местонахождения. Эта зрелая технология устраняет разрыв между ИТ и бизнес-пользователями и обеспечивает значительную экономию средств и времени.
**ФОРМАТ
Онлайн-семинар продолжительностью 1 час 30 минут.
Благодаря записи вы можете выполнять упражнения в своем собственном темпе.
**ДЛЯ КОГО ЭТОТ СЕМИНАР?
ИТ-менеджеры / архитекторы
Специалисты по анализу данных / аналитики
CDO
**СОДЕРЖАНИЕ
В программе: введение в суть виртуализации данных, примеры использования, реальные примеры из практики клиентов и демонстрация возможностей платформы Denodo Platform:
Интеграция и предоставление данных быстро и легко с помощью платформы Denodo Platform 8.0
Оптимизатор запросов Denodo предоставляет данные в режиме реального времени, по запросу, даже для очень больших наборов данных
Выставлять данные в качестве "сервисов данных" для потребления различными пользователями и инструментами
Каталог данных: Открывайте и документируйте данные с помощью нашего Каталога данных
пространства для самостоятельного доступа к данным.
Виртуализация данных играет ключевую роль в управлении и обеспечении безопасности данных в вашей организации
**ПОВЕСТКА
Введение в виртуализацию данных
Примеры использования и примеры из практики клиентов
Архитектура - Управление и безопасность
Производительность
Демо
Следующие шаги: как самостоятельно протестировать и внедрить платформу
Интерактивная сессия вопросов и ответов
14. Виды BI решений в организации
Персональный Командный Организационный
15. BI Semantic Model
Персональный
PowerPivot for Excel
Командный
PowerPivot for Sharepoint
Организационный
Analysis Services
Пользовательские инструменты
Analytics, Reports, Scorecards,
Dashboards, приложения
Источники данных
БД, LOB-приложения, OData Feeds,
Spreadsheets, Text Files
BI Semantic Model
Модель данных
Бизнес-логика
и запросы
Доступ к данным
Гибкость Широта возможностей Масштабируемость
21. Процесс разработки
1. Создать проект
2. Импортировать данные, создав таблицы
3. Задать связи между таблицами
4. Расширить модель с помощью вычислимых колонок, иерархий,
мер, KPIs и перспектив
5. Скрыть таблицы, колонки и меры от клиентских приложений
6. Задать секционирование для таблиц
7. Задать роли
8. Развернуть проект на сервере SSAS
21
24. Сопровождение готового решения
• Tabular databases управляются в SQL Server Management Studio
(SSMS)
• Возможности включают:
• Восстановление из рабочей книги PowerPivot
• Управление строками соединения (connection strings)
• Добавление и управление секциями таблиц
• Добавление и управление ролями
• Обработка (Processing) баз данных, таблиц и секций таблиц
• Создание скриптов для баз данных, объектов и команд
24
28. Масштабируемость
Tabular Multidimensional
Технология In-Memory (x-Velocity) Пре-агрегирует данные
Может хранить большой объем данных Может хранить очень большой объем
данных
Нет агрегаций, хранение на основе
колонок
Используются агрегации для ускорения
запросов
Сжатие данных порядка 10x Сжатие данных порядка 3x
30. Производительность
Как быстро возвращается результат?
• Агрегированные данные (Aggregate Data)
• Детализированные данные (Detail Data)
• «Кэшированный» результат (Cache Results)
31. Производительность
Tabular Multidimensional
Быстрее Пре-агрегирует данные
Не требуется настройка
производительности
Может хранить очень большой объем
данных
Лучше возвращает данные низкой
гранулированности
Использование агрегатов увеличивает
производительность запросов
Значительно быстрее Tabular когда
использует «разогретый кэш» (Warm
Cache)
32. Время разработки
• Дизайн измерений (Dimension Design)
• Создание вычислений (Calculation Creation)
• Ключевые показатели эффективности (Key Performance Indicators)
33. Время разработки
Tabular Multidimensional
Быстрая разработка Длинный цикл планирования и разработки
Можно создать на основе модели Power
Pivot
Требует модель измерений
Не требует модели измерений
Более простой интерфейс для создания
модели
35. Обучение
Как быстро кто-то сможет освоить новую технологию?
• Требуются тренинги (обучение)
• Используются существующие знания
36. Обучение
Tabular Multidimensional
Используется DAX (Data Analysis Expressions)
для запросов
Используется MDX (Multi-Dimensional
Expressions) для запросов
Легко изучить если знаете формулы Excel Сложно изучить, но есть Benefits (Navigating
Hierarchies)
38. Итого
выберитеTabular…
• Если у вас короткий процесс разработки
• Если вы работаете с Plethora of Memory
• Если ваша модель данных проста
• Если у вас много Disparate Data Sources
• Если пользователю надо делать запросы к большому количеству детальных данных
выберите Multidimensional…
• Если вы используете SQL Server 2008 R2 или более раннюю версию
• Если вы имеете много-терабайтный источник данных
• Если вы имеете сложную модель данных (Complex Data Model)
• Если вам нужны возможности доступные только в Multidimensional (Actions, Data
Mining, Writeback, Translations)
39. Сравнение возможностей
Multidimensional Tabular Power Pivot
Actions Yes No No
Aggregations Yes No No
Calculated Measures Yes Yes Yes
Custom Assemblies Yes No No
Custom Rollups Yes No No
Distinct Count Yes Yes (via DAX) Yes (via DAX)
Drillthrough Yes Yes Yes
Hierarchies Yes Yes Yes
KPIs Yes Yes Yes
Linked objects Yes No Yes (linked tables)
Many-to-many relationships Yes No No
Parent-child Hierarchies Yes Yes (via DAX) Yes (via DAX)
Partitions Yes Yes No
Perspectives Yes Yes Yes
Semi-additive Measures Yes Yes Yes
Translations Yes No No
User-defined Hierarchies Yes Yes Yes
Writeback Yes No No
40. Матрица принятия решения
9 8 8 3 2 4 34
26% 24% 24% 9% 6% 12% 100%
Масштабируемость Безопасность
Производитель
ность
"Гибкость"
источников
данных
Простота языка
запросов
Время
разработки
Очки
Multidimensional 80 70 80 20 40 20 63
Tabular 60 70 50 70 80 70 63
PowerPivot for SharePoint 40 20 40 70 80 80 45
PowerPivot 20 10 20 70 80 80 33
41. «Место под солнцем» для BISM
MOLAP
PowerPivot
BISM
масштабируемость*
удобство использования
2 GB
100 GB
5 TB
источник: Thomas Kejser, SQLCAT
ROLAP
50 TB
масштабируемость=
- хорошая поддержка для конкурентных запросов
- независимость от доступной памяти
- хорошая «ремонтопригодность»
42. Ресурсы
• Microsoft SQL Server 2012 Analysis Services: The BISM Tabular Model
• SSAS Team Blog
• Books Online for SQL Server – Analysis Services
• PowerPivotPro
• PowerPivot BI Semantic Model
42