Talksum Data Stream Router™
Новый подход к работе с большими данными

1

Confidential Information of Talksum, Inc.
Проблемы работы с большими данными
Для работы с Большими Данными требуются не только новые системы
хранения и системы бизнес-аналитики (BI). Необходим современный
подход к архитектуре и управлению данными.

• Проблема: Тяжело одновременно справляться с нарастающими
объемами данных и реагировать на меняющиеся требования к этим
данным.
• Сложность решения: Разнообразные источники генерируют огромные
массивы информации; данные быстро устаревают; часто имеет смысл
ограничиться сохранением только явных аномалий данных; во многих
случаях можно урезать данные без потери информации; доступные
решения для Больших Данных требуют специальных технических
навыков.

• Стоимость решения: Расходы на обработку данных (персонал, время,
инфраструктура) быстро растут, делая
традиционные решения обработки данных
непозволительно дорогими.

2

Confidential Information of Talksum, Inc.
Решение Talksum
Новый, современный подход к управлению данными и аналитике с
акцентом на скорость, простоту, экономичность

• Скорость: Решение обслуживает текущие и будущие инициативы
Big Data в реальном времени, оптимизирует инфраструктуру
Больших Данных.
• Простота: Упрощение процесса управления данными. Данные
легко отслеживать, анализировать и маршрутизировать в
реальном времени, одновременно снижая затраты на сбор
данных, ETL и интеграцию.
• Экономичность: Высокоэффективное решение,
требующее минимальных ресурсов, а значит и
снижающее затраты.

3

Confidential Information of Talksum, Inc.
Принцип работы Talksum Data Stream Router
Скорость | Простота | Эффективность

Intake

4

Confidential Information of Talksum, Inc.

•
•
•
•
•
•
•
•

Transform
Filter
Data Reduce
Monitor/Alert
Aggregate
Enrich
Analyze
Route

Store
Обработка данных
BI
Tool s

An al yt i c
Apps

Talksum Data Processor&Router
Ext er n al St or age

Syst em
Logs

Dat a Cach e

NoSQL

AWS

App
Dat a

Devi ce
St at s

Devi ce
St at s

Transform
Filter
Aggregate
Count
Reduce

Hadoop

SQL Dat a
War eh ou se

Th i r d Par t y
API

Ot h er
Dat a

Real -Ti me
Oper at i on s
Mon i t or i n g & Al er t s

Devi ce

Remot e
Si t es

5

Confidential Information of Talksum, Inc.
Talksum Data Stream Router – Маршрутизатор Данных

Refined Data Stream

Refined Data Stream

Логи
приложений

Unix Logs – RFC3164 UDP/TCP
Netflow – UDP – NG v.5, 8, 9, 10

Прикладные
данные

Patient Records (HL7) XML/ASN.1
Transportation (BSM) SAE J2735

Данные извне
B2B/M2M
Соцсети
и доступные
данные

6

Клиент B:
Агрегированные данные

Refined Data Stream

Клиент C:
Динамический Поток

Apache Common Logging – Files
SNMP - UDP

Системные
логи

Данные
сенсоров и
телематики

Клиент A:
Суммированные данные

I2C, CAN, SNMP, Serial

XML, JSON, File, HTTP REST

Twitter, RSS,
CAP (Weather Alerts)

Confidential Information of Talksum, Inc.

Talksum
Data Stream
Router
(TDSR)
• Нормализация
данных
• Синтаксический
Анализ
• Фильтры
• Метрики и
Счетчики
• ETL/PTL
без сохранения
• Выходные потоки
асинхронны
• Верификация
Протокола

Indexed, Mapped, Reduced
Ordered, Sorted Data Streams

Bulk Data Streams
(Lightly Ordered
and Filtered)

• Object Data Stores
• Indexed Data Caches
• NoSQL Data
Warehouses

• SQL Warehouse
• Bulk Data Stores
• File Storage
Talksum Data Stream Router
Talksum Data Stream Router реализует новый подход к
управлению данными и аналитике
1. Транслирует входные данные в реальном времени…
2. …конвертируя в гибко управляемые потоки данных
3. …фильтруя и маршрутизируя по контенту

4. …и по корреляции событий из разных доменов
5. …продолжая пополнять существующие системы хранения и
бизнес аналитики.

7

Confidential Information of Talksum, Inc.
Вход – Логика транспорта протоколов
• Транспортные протоколы (TCP, UDP, PGM)
• Прикладные (Application) протоколы (HTTP, RFC3164, SNMP,
ZeroMQ)
• Форматы сериализации (JSON, BSON, ASN.1, Protobuf,
MessagePack)
• API Анализатора (Parser API) позволяет легко создавать
синтаксические анализаторы для сообщений прикладного
уровня
• Расширенные возможности управления – чтобы упростить
добавление логики
• Цель – конвертация данных, приходящих в разнообразных
форматах, разными способами транспорта, в потоки данных
8

Confidential Information of Talksum, Inc.
Фильтрация, Маршрутизация, Агрегация

• Техники Filter, Pivot, и Мap Reduction применяются «на лету»,
без промежуточного сохранения
• Фильтрация по значению, контексту, состоянию

• Сложная фильтрация нескольких потоков
• Функции Гистограммы для сжатия и сокращения размеров
данных

9

Confidential Information of Talksum, Inc.
Трансформация
• “Realtime ETL” для различных потоков данных
• Создание новых сообщений, созданных из свойств
существующих сообщений и статического текста
• Создание SQL команд для вывода во внешние реляционные
БД
• Генерация «атомных» инкрементных команд MongoDB для
простых агрегаций
• Генерация сообщений Redis

10

Confidential Information of Talksum, Inc.
Выход
• MongoDB
• Redis
• Elasticsearch
• HDFS
• PostgreSQL
• MySQL
• REST API

11

Confidential Information of Talksum, Inc.

• Маршрутизация через
параллельные каналы для
максимизации пропускной
способности
• Создание сообщений из любых
доступных атрибутов
• Детальные метрики для каждого
маршрута
Вопросы?
Дмитрий Артемьев
dmitrya@talksum.com
+7 985 7746502
12

Confidential Information of Talksum, Inc.

Talksum dec2013 rus_generic

  • 1.
    Talksum Data StreamRouter™ Новый подход к работе с большими данными 1 Confidential Information of Talksum, Inc.
  • 2.
    Проблемы работы сбольшими данными Для работы с Большими Данными требуются не только новые системы хранения и системы бизнес-аналитики (BI). Необходим современный подход к архитектуре и управлению данными. • Проблема: Тяжело одновременно справляться с нарастающими объемами данных и реагировать на меняющиеся требования к этим данным. • Сложность решения: Разнообразные источники генерируют огромные массивы информации; данные быстро устаревают; часто имеет смысл ограничиться сохранением только явных аномалий данных; во многих случаях можно урезать данные без потери информации; доступные решения для Больших Данных требуют специальных технических навыков. • Стоимость решения: Расходы на обработку данных (персонал, время, инфраструктура) быстро растут, делая традиционные решения обработки данных непозволительно дорогими. 2 Confidential Information of Talksum, Inc.
  • 3.
    Решение Talksum Новый, современныйподход к управлению данными и аналитике с акцентом на скорость, простоту, экономичность • Скорость: Решение обслуживает текущие и будущие инициативы Big Data в реальном времени, оптимизирует инфраструктуру Больших Данных. • Простота: Упрощение процесса управления данными. Данные легко отслеживать, анализировать и маршрутизировать в реальном времени, одновременно снижая затраты на сбор данных, ETL и интеграцию. • Экономичность: Высокоэффективное решение, требующее минимальных ресурсов, а значит и снижающее затраты. 3 Confidential Information of Talksum, Inc.
  • 4.
    Принцип работы TalksumData Stream Router Скорость | Простота | Эффективность Intake 4 Confidential Information of Talksum, Inc. • • • • • • • • Transform Filter Data Reduce Monitor/Alert Aggregate Enrich Analyze Route Store
  • 5.
    Обработка данных BI Tool s Anal yt i c Apps Talksum Data Processor&Router Ext er n al St or age Syst em Logs Dat a Cach e NoSQL AWS App Dat a Devi ce St at s Devi ce St at s Transform Filter Aggregate Count Reduce Hadoop SQL Dat a War eh ou se Th i r d Par t y API Ot h er Dat a Real -Ti me Oper at i on s Mon i t or i n g & Al er t s Devi ce Remot e Si t es 5 Confidential Information of Talksum, Inc.
  • 6.
    Talksum Data StreamRouter – Маршрутизатор Данных Refined Data Stream Refined Data Stream Логи приложений Unix Logs – RFC3164 UDP/TCP Netflow – UDP – NG v.5, 8, 9, 10 Прикладные данные Patient Records (HL7) XML/ASN.1 Transportation (BSM) SAE J2735 Данные извне B2B/M2M Соцсети и доступные данные 6 Клиент B: Агрегированные данные Refined Data Stream Клиент C: Динамический Поток Apache Common Logging – Files SNMP - UDP Системные логи Данные сенсоров и телематики Клиент A: Суммированные данные I2C, CAN, SNMP, Serial XML, JSON, File, HTTP REST Twitter, RSS, CAP (Weather Alerts) Confidential Information of Talksum, Inc. Talksum Data Stream Router (TDSR) • Нормализация данных • Синтаксический Анализ • Фильтры • Метрики и Счетчики • ETL/PTL без сохранения • Выходные потоки асинхронны • Верификация Протокола Indexed, Mapped, Reduced Ordered, Sorted Data Streams Bulk Data Streams (Lightly Ordered and Filtered) • Object Data Stores • Indexed Data Caches • NoSQL Data Warehouses • SQL Warehouse • Bulk Data Stores • File Storage
  • 7.
    Talksum Data StreamRouter Talksum Data Stream Router реализует новый подход к управлению данными и аналитике 1. Транслирует входные данные в реальном времени… 2. …конвертируя в гибко управляемые потоки данных 3. …фильтруя и маршрутизируя по контенту 4. …и по корреляции событий из разных доменов 5. …продолжая пополнять существующие системы хранения и бизнес аналитики. 7 Confidential Information of Talksum, Inc.
  • 8.
    Вход – Логикатранспорта протоколов • Транспортные протоколы (TCP, UDP, PGM) • Прикладные (Application) протоколы (HTTP, RFC3164, SNMP, ZeroMQ) • Форматы сериализации (JSON, BSON, ASN.1, Protobuf, MessagePack) • API Анализатора (Parser API) позволяет легко создавать синтаксические анализаторы для сообщений прикладного уровня • Расширенные возможности управления – чтобы упростить добавление логики • Цель – конвертация данных, приходящих в разнообразных форматах, разными способами транспорта, в потоки данных 8 Confidential Information of Talksum, Inc.
  • 9.
    Фильтрация, Маршрутизация, Агрегация •Техники Filter, Pivot, и Мap Reduction применяются «на лету», без промежуточного сохранения • Фильтрация по значению, контексту, состоянию • Сложная фильтрация нескольких потоков • Функции Гистограммы для сжатия и сокращения размеров данных 9 Confidential Information of Talksum, Inc.
  • 10.
    Трансформация • “Realtime ETL”для различных потоков данных • Создание новых сообщений, созданных из свойств существующих сообщений и статического текста • Создание SQL команд для вывода во внешние реляционные БД • Генерация «атомных» инкрементных команд MongoDB для простых агрегаций • Генерация сообщений Redis 10 Confidential Information of Talksum, Inc.
  • 11.
    Выход • MongoDB • Redis •Elasticsearch • HDFS • PostgreSQL • MySQL • REST API 11 Confidential Information of Talksum, Inc. • Маршрутизация через параллельные каналы для максимизации пропускной способности • Создание сообщений из любых доступных атрибутов • Детальные метрики для каждого маршрута
  • 12.
    Вопросы? Дмитрий Артемьев dmitrya@talksum.com +7 9857746502 12 Confidential Information of Talksum, Inc.