SlideShare a Scribd company logo
1 of 28
Download to read offline
Особенности построения хранилища на
ClickHouse
Когда стоит выбирать CLickHouse | Case #1
Много фактов без обновлений:
1) Web-аналитика
2) Реклама (Ad-tech)
3) E-commerce and finance
4) Мониторинг
5) Телеком, анализ логов
Когда стоит выбирать CLickHouse | Case #1
Когда стоит выбирать CLickHouse | Case #1
1) Таблица фактов шардирована на кластер.
2) Партиционирована по времени.
3) В таблицу фактов только дописываем новые события.
4) Словари должны помещаться в памяти одного сервера.
Когда стоит выбирать CLickHouse | Case #1
Таблица фактов.
Борьба с слабоструктурированными данными – массивы и вложенные структуры.
- Событие – строка.
- Все остальные параметры события укладываем в колонки. Колонок может быть много.
- Если есть что-то очень специфичное для конкретного события и редко нужно при
запросах – укладываем в массив или вложенную структуру.
Когда стоит выбирать ClickHouse | Case #1
Таблица фактов.
Борьба с слабоструктурированными данными – массивы и вложенные структуры.
Когда стоит выбирать ClickHouse | Case #1
Таблица фактов.
Борьба с слабоструктурированными данными – массивы и вложенные структуры.
Когда стоит выбирать ClickHouse | Case #1
Таблица фактов.
Борьба с слабоструктурированными данными – массивы и вложенные структуры.
Когда стоит выбирать ClickHouse | Case #1
Таблица фактов.
Борьба с слабоструктурированными данными – массивы и вложенные структуры.
Когда стоит выбирать ClickHouse | Case #1
Таблица фактов.
Борьба с слабоструктурированными данными – массивы и вложенные структуры.
Когда стоит выбирать ClickHouse | Case #1
Когда стоит выбирать ClickHouse | Case #1
Когда стоит выбирать ClickHouse | Case #1
ARRAY JOIN
Когда стоит выбирать ClickHouse | Case #1 - Воронки
Расчёт воронки:
Нужно проанализировать переходы пользователя по страницам.
Подсчёт суммы переходов для последовательности страниц 1 → 2 → 3 .
Переходы должны производиться последовательно.
Когда стоит выбирать ClickHouse | Case #1 - Воронки
Функция высшего порядка.
Позволяет описать лямбда-функцию для передачи в функцию
высшего порядка.
Когда стоит выбирать ClickHouse | Case #1 - Воронки
Функция высшего порядка.
Позволяет описать лямбда-функцию для передачи в функцию
высшего порядка.
Когда стоит выбирать ClickHouse | Case #1 - Воронки
Когда стоит выбирать ClickHouse | Case #1 - Воронки
Когда стоит выбирать ClickHouse | Case #1 - Воронки
Когда стоит выбирать ClickHouse | Case #1 - Воронки
Когда стоит выбирать ClickHouse | Case #1 - Воронки
Когда стоит выбирать ClickHouse | Case #1 - Воронки
Когда стоит выбирать ClickHouse | Case #2
Витрины данных:
- Нет JOIN с спилами.
- Очень хорошо переносит клиентскую нагрузку.
- Легко масштабировать.
- Быстрая агрегация витрин
- ODBC, JDBC, HTTP клиентские интерфейсы.
Когда стоит выбирать ClickHouse | Case #2
КХД
MARTS
BI / Ad-hoc
100s QPS
WHERE / GROUP BY
QUICK MART
Batch
Microbatch
ADQM | Support
24x7
5x8
Первая линия
• Приём заявок
• Приоритезация
• Решение простых кейсов
• Наполнение базы знаний
Входящий запрос
Вторая линия
• Сложные инциденты, добавление
нового функционала.
• Консалтинг
Третья линия
• Bugfix
• Доработки продукта на уровне ядра.
Наши доработки в ClickHouse
• ORC input format
• Доработка коннектора к HDFS
• Аутентификация в Kerberos
• для HDFS и Zookeeper (в разработке)
Наши доработки вокруг ClickHouse
• Мониторинг
• Деплой
• Прокси для запросов с ldap-аутентификацией
• и разграничением доступа.
ADQM | Support
Доступен везде:
В облакеOn-premise
QA
Коняев Андрей
ka@arenadata.io
Структура хранения данных | На диске

More Related Content

Similar to Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и ограничения

Аналитическая инфраструктура оптимизации рекламной сети (Александр Зайцев)
Аналитическая инфраструктура оптимизации рекламной сети (Александр Зайцев)Аналитическая инфраструктура оптимизации рекламной сети (Александр Зайцев)
Аналитическая инфраструктура оптимизации рекламной сети (Александр Зайцев)Ontico
 
Построение системы аналитики
Построение системы аналитикиПостроение системы аналитики
Построение системы аналитикиИлья Середа
 
Обзор перспективных баз данных для highload / Юрий Насретдинов
Обзор перспективных баз данных для highload / Юрий НасретдиновОбзор перспективных баз данных для highload / Юрий Насретдинов
Обзор перспективных баз данных для highload / Юрий НасретдиновOntico
 
Andrii Gryshchenko: "An Overview of CQRS and Event Sourcing"
Andrii Gryshchenko: "An Overview of CQRS and Event Sourcing"Andrii Gryshchenko: "An Overview of CQRS and Event Sourcing"
Andrii Gryshchenko: "An Overview of CQRS and Event Sourcing"LogeekNightUkraine
 
Микросервисная архитектура на базе CoreOS и Kubernetes
Микросервисная архитектура на базе CoreOS и KubernetesМикросервисная архитектура на базе CoreOS и Kubernetes
Микросервисная архитектура на базе CoreOS и KubernetesDenis Izmaylov
 
Tag Management (рекламный контейнер)
Tag Management (рекламный контейнер)Tag Management (рекламный контейнер)
Tag Management (рекламный контейнер)Michail Гаркунов
 
Всеволод Поляков "История одного мониторинга"
Всеволод Поляков "История одного мониторинга"Всеволод Поляков "История одного мониторинга"
Всеволод Поляков "История одного мониторинга"Fwdays
 
Распространенные ошибки применения баз данных (Сергей Аверин)
Распространенные ошибки применения баз данных (Сергей Аверин)Распространенные ошибки применения баз данных (Сергей Аверин)
Распространенные ошибки применения баз данных (Сергей Аверин)Ontico
 
Распространенные ошибки применения баз данных
Распространенные ошибки применения баз данныхРаспространенные ошибки применения баз данных
Распространенные ошибки применения баз данныхSergey Xek
 
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...Uptime community
 
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...Uptime Community
 
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...Fwdays
 
High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)Pavel Alexeev
 
Семантическое ядро рунета
Семантическое ядро рунетаСемантическое ядро рунета
Семантическое ядро рунетаCEE-SEC(R)
 
«1С-Битрикс: Управление сайтом»: платформа для интернет-магазина
«1С-Битрикс: Управление сайтом»:  платформа для интернет-магазина«1С-Битрикс: Управление сайтом»:  платформа для интернет-магазина
«1С-Битрикс: Управление сайтом»: платформа для интернет-магазинаBurbon.ru
 
(2 часть) 1С-Битрикс. Производительность проекта. Архитектура проекта «Битрик...
(2 часть) 1С-Битрикс. Производительность проекта. Архитектура проекта «Битрик...(2 часть) 1С-Битрикс. Производительность проекта. Архитектура проекта «Битрик...
(2 часть) 1С-Битрикс. Производительность проекта. Архитектура проекта «Битрик...ForkConf
 
CloudsNN 2013 Демидов Александр. Как жить в облаке без админов?
CloudsNN 2013 Демидов Александр. Как жить в облаке без админов?CloudsNN 2013 Демидов Александр. Как жить в облаке без админов?
CloudsNN 2013 Демидов Александр. Как жить в облаке без админов?Clouds NN
 
4.Подключаем сайт к 1C. Петров Роман
4.Подключаем сайт к 1C. Петров Роман4.Подключаем сайт к 1C. Петров Роман
4.Подключаем сайт к 1C. Петров Романdirectline-sib
 
Highload++2013: TopGun - архитектура терабитной платформы DPI
Highload++2013: TopGun - архитектура терабитной платформы DPIHighload++2013: TopGun - архитектура терабитной платформы DPI
Highload++2013: TopGun - архитектура терабитной платформы DPILeonid Yuriev
 

Similar to Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и ограничения (20)

Аналитическая инфраструктура оптимизации рекламной сети (Александр Зайцев)
Аналитическая инфраструктура оптимизации рекламной сети (Александр Зайцев)Аналитическая инфраструктура оптимизации рекламной сети (Александр Зайцев)
Аналитическая инфраструктура оптимизации рекламной сети (Александр Зайцев)
 
Построение системы аналитики
Построение системы аналитикиПостроение системы аналитики
Построение системы аналитики
 
Обзор перспективных баз данных для highload / Юрий Насретдинов
Обзор перспективных баз данных для highload / Юрий НасретдиновОбзор перспективных баз данных для highload / Юрий Насретдинов
Обзор перспективных баз данных для highload / Юрий Насретдинов
 
Andrii Gryshchenko: "An Overview of CQRS and Event Sourcing"
Andrii Gryshchenko: "An Overview of CQRS and Event Sourcing"Andrii Gryshchenko: "An Overview of CQRS and Event Sourcing"
Andrii Gryshchenko: "An Overview of CQRS and Event Sourcing"
 
Микросервисная архитектура на базе CoreOS и Kubernetes
Микросервисная архитектура на базе CoreOS и KubernetesМикросервисная архитектура на базе CoreOS и Kubernetes
Микросервисная архитектура на базе CoreOS и Kubernetes
 
Tag Management (рекламный контейнер)
Tag Management (рекламный контейнер)Tag Management (рекламный контейнер)
Tag Management (рекламный контейнер)
 
Всеволод Поляков "История одного мониторинга"
Всеволод Поляков "История одного мониторинга"Всеволод Поляков "История одного мониторинга"
Всеволод Поляков "История одного мониторинга"
 
Распространенные ошибки применения баз данных (Сергей Аверин)
Распространенные ошибки применения баз данных (Сергей Аверин)Распространенные ошибки применения баз данных (Сергей Аверин)
Распространенные ошибки применения баз данных (Сергей Аверин)
 
Распространенные ошибки применения баз данных
Распространенные ошибки применения баз данныхРаспространенные ошибки применения баз данных
Распространенные ошибки применения баз данных
 
CQRS innovations
CQRS innovationsCQRS innovations
CQRS innovations
 
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...
 
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуаль...
 
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...
 
High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)
 
Семантическое ядро рунета
Семантическое ядро рунетаСемантическое ядро рунета
Семантическое ядро рунета
 
«1С-Битрикс: Управление сайтом»: платформа для интернет-магазина
«1С-Битрикс: Управление сайтом»:  платформа для интернет-магазина«1С-Битрикс: Управление сайтом»:  платформа для интернет-магазина
«1С-Битрикс: Управление сайтом»: платформа для интернет-магазина
 
(2 часть) 1С-Битрикс. Производительность проекта. Архитектура проекта «Битрик...
(2 часть) 1С-Битрикс. Производительность проекта. Архитектура проекта «Битрик...(2 часть) 1С-Битрикс. Производительность проекта. Архитектура проекта «Битрик...
(2 часть) 1С-Битрикс. Производительность проекта. Архитектура проекта «Битрик...
 
CloudsNN 2013 Демидов Александр. Как жить в облаке без админов?
CloudsNN 2013 Демидов Александр. Как жить в облаке без админов?CloudsNN 2013 Демидов Александр. Как жить в облаке без админов?
CloudsNN 2013 Демидов Александр. Как жить в облаке без админов?
 
4.Подключаем сайт к 1C. Петров Роман
4.Подключаем сайт к 1C. Петров Роман4.Подключаем сайт к 1C. Петров Роман
4.Подключаем сайт к 1C. Петров Роман
 
Highload++2013: TopGun - архитектура терабитной платформы DPI
Highload++2013: TopGun - архитектура терабитной платформы DPIHighload++2013: TopGun - архитектура терабитной платформы DPI
Highload++2013: TopGun - архитектура терабитной платформы DPI
 

More from Global Innovation Labs

Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...Global Innovation Labs
 
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоцийОльга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоцийGlobal Innovation Labs
 
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...Global Innovation Labs
 
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...Global Innovation Labs
 
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...Global Innovation Labs
 
Евгений Линник. БКС. GIGO — секреты очистки данных
Евгений Линник. БКС. GIGO — секреты очистки данныхЕвгений Линник. БКС. GIGO — секреты очистки данных
Евгений Линник. БКС. GIGO — секреты очистки данныхGlobal Innovation Labs
 
Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для с...
Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для с...Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для с...
Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для с...Global Innovation Labs
 
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerce
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerceПетр Ермаков. LAMODA. Автоматическая валидация контента в e-commerce
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerceGlobal Innovation Labs
 
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...Global Innovation Labs
 
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...Global Innovation Labs
 
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниАлександр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниGlobal Innovation Labs
 
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...Global Innovation Labs
 
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...Global Innovation Labs
 
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщины
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщиныЕкатерина Артюгина. ex MAIL.ru. Что выбирают женщины
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщиныGlobal Innovation Labs
 
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...Global Innovation Labs
 
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...Global Innovation Labs
 
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...Global Innovation Labs
 
Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
 Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компанийGlobal Innovation Labs
 
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...Global Innovation Labs
 
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...Global Innovation Labs
 

More from Global Innovation Labs (20)

Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
Наталья Полковникова. Кардио ИИ. Построение системы распознавания коронарных ...
 
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоцийОльга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций
Ольга Перепелкина. NeurodataLab. Особенности машинного распознавания эмоций
 
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для а...
 
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...
Артем Артемов. Когнитивные системы. Учет неизвестных признаков нейромодели на...
 
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...
 
Евгений Линник. БКС. GIGO — секреты очистки данных
Евгений Линник. БКС. GIGO — секреты очистки данныхЕвгений Линник. БКС. GIGO — секреты очистки данных
Евгений Линник. БКС. GIGO — секреты очистки данных
 
Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для с...
Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для с...Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для с...
Егор Матешук. МаксимаТелеком. Не Spark’ом единым — полезные инструменты для с...
 
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerce
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerceПетр Ермаков. LAMODA. Автоматическая валидация контента в e-commerce
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerce
 
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
 
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
 
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниАлександр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
 
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
 
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
 
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщины
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщиныЕкатерина Артюгина. ex MAIL.ru. Что выбирают женщины
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщины
 
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
 
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
 
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
 
Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
 Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
 
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
 
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
 

Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и ограничения

  • 2. Когда стоит выбирать CLickHouse | Case #1 Много фактов без обновлений: 1) Web-аналитика 2) Реклама (Ad-tech) 3) E-commerce and finance 4) Мониторинг 5) Телеком, анализ логов
  • 4. Когда стоит выбирать CLickHouse | Case #1 1) Таблица фактов шардирована на кластер. 2) Партиционирована по времени. 3) В таблицу фактов только дописываем новые события. 4) Словари должны помещаться в памяти одного сервера.
  • 5. Когда стоит выбирать CLickHouse | Case #1 Таблица фактов. Борьба с слабоструктурированными данными – массивы и вложенные структуры. - Событие – строка. - Все остальные параметры события укладываем в колонки. Колонок может быть много. - Если есть что-то очень специфичное для конкретного события и редко нужно при запросах – укладываем в массив или вложенную структуру.
  • 6. Когда стоит выбирать ClickHouse | Case #1 Таблица фактов. Борьба с слабоструктурированными данными – массивы и вложенные структуры.
  • 7. Когда стоит выбирать ClickHouse | Case #1 Таблица фактов. Борьба с слабоструктурированными данными – массивы и вложенные структуры.
  • 8. Когда стоит выбирать ClickHouse | Case #1 Таблица фактов. Борьба с слабоструктурированными данными – массивы и вложенные структуры.
  • 9. Когда стоит выбирать ClickHouse | Case #1 Таблица фактов. Борьба с слабоструктурированными данными – массивы и вложенные структуры.
  • 10. Когда стоит выбирать ClickHouse | Case #1 Таблица фактов. Борьба с слабоструктурированными данными – массивы и вложенные структуры.
  • 13. Когда стоит выбирать ClickHouse | Case #1 ARRAY JOIN
  • 14. Когда стоит выбирать ClickHouse | Case #1 - Воронки Расчёт воронки: Нужно проанализировать переходы пользователя по страницам. Подсчёт суммы переходов для последовательности страниц 1 → 2 → 3 . Переходы должны производиться последовательно.
  • 15. Когда стоит выбирать ClickHouse | Case #1 - Воронки Функция высшего порядка. Позволяет описать лямбда-функцию для передачи в функцию высшего порядка.
  • 16. Когда стоит выбирать ClickHouse | Case #1 - Воронки Функция высшего порядка. Позволяет описать лямбда-функцию для передачи в функцию высшего порядка.
  • 17. Когда стоит выбирать ClickHouse | Case #1 - Воронки
  • 18. Когда стоит выбирать ClickHouse | Case #1 - Воронки
  • 19. Когда стоит выбирать ClickHouse | Case #1 - Воронки
  • 20. Когда стоит выбирать ClickHouse | Case #1 - Воронки
  • 21. Когда стоит выбирать ClickHouse | Case #1 - Воронки
  • 22. Когда стоит выбирать ClickHouse | Case #1 - Воронки
  • 23. Когда стоит выбирать ClickHouse | Case #2 Витрины данных: - Нет JOIN с спилами. - Очень хорошо переносит клиентскую нагрузку. - Легко масштабировать. - Быстрая агрегация витрин - ODBC, JDBC, HTTP клиентские интерфейсы.
  • 24. Когда стоит выбирать ClickHouse | Case #2 КХД MARTS BI / Ad-hoc 100s QPS WHERE / GROUP BY QUICK MART Batch Microbatch
  • 25. ADQM | Support 24x7 5x8 Первая линия • Приём заявок • Приоритезация • Решение простых кейсов • Наполнение базы знаний Входящий запрос Вторая линия • Сложные инциденты, добавление нового функционала. • Консалтинг Третья линия • Bugfix • Доработки продукта на уровне ядра. Наши доработки в ClickHouse • ORC input format • Доработка коннектора к HDFS • Аутентификация в Kerberos • для HDFS и Zookeeper (в разработке) Наши доработки вокруг ClickHouse • Мониторинг • Деплой • Прокси для запросов с ldap-аутентификацией • и разграничением доступа.
  • 26. ADQM | Support Доступен везде: В облакеOn-premise