Apache IoTDB 工业互联网时序数据库 meetup-2019.12

Apache IoTDB
工业互联网时序数据库系统
清华大学软件学院
大数据系统软件国家工程实验室
Apache IoTDB Team: Xiangdong Huang

Outline
• 为什么开发时序数据库系统
• IoTDB介绍
• 基于RocketMQ与IoTDB的应用示例

第四次工业革命来袭，大数据成为关键生产资料
德国工业4.0 美国工业互联网
数据的整合分析和使
用是关键能力
先进的数据分析能力
是关键要素
中国工业互联网
工业互联网本质：
数据+模型

机器设备产生的时序数据构成了工业大数据的主体
机器设备数据
产业链跨界数据
环境气象地理
工业
大数据
工业信息化数据
图纸
视频模型
文档

时间序列数据普遍存在
穿戴设备无人驾驶
在设备远程运维、数字画像、健康评估、故障预测、备件调度、生产工艺控制与改进等多方面有着重要的应用前景

Network
MQ Database
queryinsertion
save data
locally
Network
analysis
CPU
工业场景下时间序列采集与应用
数据赋能工业

How to Manage Time Series Data
Network
MQ Database
queryinsertion
save data
locally
Network
analysis

大规模时序数据的特点
占用空间极大
数据总吞吐量大
产生速度快且不间断
时序数据存储的需求
【全时全量】
保证数据全时全量存储
【高效写入】
保证数据库可以承受高吞吐写入
【紧凑存储】
对数据进行有效压缩减少磁盘空间占用
超过20,000个风机
一个风机约有120~510传感器
采集频率从0.00167 Hz 到 50Hz 不等
需求与挑战：提升工业时序数据利用率，从有效存储开始

需求与挑战：支撑复杂工业场景，克服领域技术难点
§ 场景1：由于网络延迟、设备故障等原因数
据无法完全保序到达
§ 场景2：由于设备故障、损坏等原因，在进
行分析等操作前需要对错误数据进行修正
§ 场景3：清理过时数据或无效、无用数据
时序数据数据乱序操作的需求
数据库需要支持时间序列数据的乱序写入
数据库需要支持时间序列数据的批量更新
数据库需要支持时间序列数据的清理删除
排口有大量取值异常的
采样点，例如PH值超
过10,000
该排口连续164天缺失
上报PH值

时序数据管理（超高性能、超多序列）
• 单表列数上限
• MySQL InnoDB 为1017列
• 单表行数不易过多
• 小于1000万行
• 水平、垂直分表；分库
关
系
数
据
库
键
值
数
据
库
• 可管理海量条时间序列
• 查询受限
• 按时间维度的查询
• 按值维度的查询
• 多序列的时间对齐查询
基于关系数据库
基于PG开发的插件
•时序数据自动分区
•查询计划做优化
•定制并行查询
随着导入时间的增加
导入速率不断下降
基于键值数据库
基于Hbase/Cassandra
•时序分区键
•定时任务构建索引
压缩不友好，查询不友好
原生时序数据库
基于LSM机制的时序库
•专属文件结构
•专属查询优化
一些工业场景下
性能下降
时
序
数
据
库

时序数据分析（需求一）
早高峰（7-9点）增加上行发车班次，减少下行发车班次
晚高峰（17-21点）增加下行发车班次，减少上行发车班次
其他时间段运营班次存在压缩空间
多序列对齐比较

时序数据分析（性能）
批量使用历史数据，漫长的ETL
Database
insertion
analysis
• 查询友好
• 写入友好
• 分析友好
ETL
KairosDB：导出每辆车每天3000种的数据：1小时
气象大数据系统：大量时间花费在数据获取上

需求与挑战：面向工业应用场景，提升数据处理能力
模式匹配
聚合查询数据
十亿点数数十毫秒查询
查询延迟低、时效高
TB 级数据百毫秒查询
指定查询过滤条件
按时间、设备、传感器类型等过滤
序列对齐查询
多序列按时间维度对齐
序列填充查询
空值填充
时序分割
数字水印
Say No to ETL
高通量写入高效压缩

面向工业互联网的高性能轻量级时序数据库
清华数为工业互联网时序数据库
- > Apache IoTDB
– 工业领域千万条量级时间序列管理
– 单节点万亿数据点管理
– 单节点数十TB级时间序列数据管理
– 支持Hadoop、Spark、Matlab、
Grafana等多种生态
中国高校目前唯一Apache基金会项目

Apache IoTDB的功能特点
• 多种服务形式
• 终端
• 本地控制器
• 数据中心
• 灵活部署
• 开箱即用
• 支持数据实时写入/写出
• 支持便捷友好的分析
高效的数据持久化扩展的时间序列操作
收集
存储
处理学习
应用
覆盖数据全生命周期丰富/低延迟的数据查询与现有生态系统集成
• 高速写入
• 每秒3000万点（单机）
• 高压缩比
• 1.37bits/点 [1]
• 有损和无损压缩
• 支持百万时间序列
• 快速过滤数据
• TB级数据百毫秒
查询
• 聚合查询数据
• 十亿点数十毫秒
查询
• 时序分段
• 时序表达
• 子序列匹配
• 时频转换
• 可视化
• MatLab
• Spark
• MapReduce
• Grafana
• Kafka

产品形态：灵活适配“云-网-端”计算环境
终端
部署在嵌入式终端设备的时序
“数据文件”
为时序数据而生的zip文件
支持高性能写入，高压缩比存
储，支持简单查询
场控
部署在工控机等边缘计算设备
的时序“数据库”
高效丰富的时间序列查询引擎
提供增删改查，以及聚合查询
时序对齐等高级功能
数据中心
部署在云端数据中心的
时序“数据仓库”
与大数据分析框架无缝集成
支持时序数据处理，挖掘分析
与机器学习

Visualization
(Manual data
explore)
Analysis with Matlab
(small data set)
Integration with other systems
Big data analysis
18

技术架构
国际领先技术
- 高效聚合索引
（CKIM 2016）
- 时序模式检测
（WAIM 2018）
- 子序列匹配
（ICDE 2019）
- …
20

20
直接将数据存储成为分析友好的结构

高压缩与高吞吐
Raw data:
- 12 Bytes per point
- 112 GB totally
Others
Others

2. 索引结构实现特殊查询
CIKM 2016: PISA: An Index for Aggregating Big Time Series Data
Only records root nodes in memory and build virtual trees,
for reducing memory cost and disk I/O
22
Fast Aggregation Method for Time Series

IoTDB典型应用：某地铁运维监控
…
144 列车
13台 KairosDB
13台 Cassandra
3200 测点/500 ms/列车
一台
IoTDB实例
300 列车
3200 测点/200 ms/列车
升级
更
少
硬
件
，
更
高
性
能
144
列车
300
列车
500
毫秒采样
200
毫秒采样
13
台服务器
1
台服务器
仅1台IoTDB实现
日增4140亿
数据点管理

其他应用
商飞
InfluxDB(可能)丢失了大量数据
IoTDB保存了数据细节

Concepts in IoTDB (The Schema)
Device (i.e., Data source)
• A machine instance
Measurement (e.g., sensor)
• A device can have many measurements
Time Series
• Device + Measurement
• is represented as a path that begins with root, like
“root.Cadillac_XT5.USA.CA.7BTC409.fuelRemain”
Storage Group (SG)
• A storage group can have many devices
• Storage groups have independent resources
(threads and files) to increase parallelism and
reduce competitions for locks.
Cadillac XT5

The schema mapping 1
root.Cadillac_XT5.USA.CA.7BTC409.fuelRemain
root.Cadillac_XT5.USA.CA.7BTC409.speed
root.Cadillac_XT5.USA.NV.6BAC321.speed
country state device name timestamp fuelRemain speed
USA CA 7BTC409 t1 5.0 120
USA CA 7BTC409 t2 4.9 109
USA CA 6BAC321 t1 NULL 50
USA CA 6BAC321 t3 NULL 65
Table Name: Cadillac_XT5 (RDB schema or NoSQL like Cassandra)
Tags and Fields in InfluxDB, KariosDB, OpenTSDB…
Table Storage group
Dimension
Column
Device，timestamp
Metric
Column
Measurement
OLTP SchemaIoTDB Schema

The schema mapping 2
root.Cadillac_XT5.USA.CA.7BTC409.fuelRemain
root.Cadillac_XT5.USA.CA.7BTC409.speed
root.Cadillac_XT5.USA.NV.6BAC321.speed
timestamp fuelRemain speed
t1 5.0 120
t2 4.9 109
Table Name: USA.CA.7BTC409
Tags and Fields in InfluxDB, KariosDB, OpenTSDB…
timestamp speed
t1 50
t3 65
Table Name: USA.NV.6BAC321
Database: root.Cadillac_XT5
Database Storage
group
Table Device
Column Measurement
/ Sensor

实战案例
• 场景：300辆地铁列车，每辆列车3200个传感器数据
• 建模：
• 例子：
• 一号线的8号车的温度计： metro.line1.No8.thermometer
Storage group 地铁线路（如一号线）
Device 列车编号
Measurement / Sensor 具体传感器（温度计）

Set Storage Group
SET STORAGE GROUP TO root.ln;
Create Timeseries
CREATE TIMESERIES root.ln.wf01.wt01.temperature WITH DATATYPE=FLOAT, ENCODING=RLE
Insert Data
INSERT INTO root.ln.wf02.wt02(timestamp, status) VALUES (1, true);
Delete Data
DELETE FROM root.ln.wf02.wt02.status WHERE time < 1000;
Query Data (Filter, Aggregation, Group by time interval)
SELECT count(status), max_value(temperature) FROM root.ln.wf01.wt01 GROUP BY (1h, [2017-
11-03T00:00:00, 2017-11-03T23:00:00]);
SQL in IoTDB

Set Storage Group
SET STORAGE GROUP TO root.ln;
SET STORAGE GROUP TO root.sgcc;
Show Storage Group
SHOW STORAGE GROUP;
Delete Storage Group
DELETE STORAGE GROUP TO root.ln;
Storage Group Statement

Create Timeseries
CREATE TIMESERIES root.ln.wf01.wt01.status WITH DATATYPE=BOOLEAN, ENCODING=PLAIN
CREATE TIMESERIES root.ln.wf01.wt01.temperature WITH DATATYPE=FLOAT, ENCODING=RLE
CREATE TIMESERIES root.ln.wf02.wt02.hardware WITH DATATYPE=TEXT, ENCODING=PLAIN
CREATE TIMESERIES root.ln.wf02.wt02.status WITH DATATYPE=BOOLEAN, ENCODING=PLAIN
CREATE TIMESERIES root.sgcc.wf03.wt01.status WITH DATATYPE=BOOLEAN, ENCODING=PLAIN
CREATE TIMESERIES root.sgcc.wf03.wt01.temperature WITH DATATYPE=FLOAT, ENCODING=RLE
Show Timeseries
SHOW TIMESERIES root
SHOW TIMESERIES root.ln
Other Timeseries Operation
COUNT TIMESERIES root
DELETE TIMESERIES root.ln.wf01.wt01
Timeseries Statement

Insert Data
INSERT INTO root.ln.wf01.wt01(timestamp, status) VALUES (1, true);
INSERT INTO root.ln.wf02.wt02(timestamp, status, hardware, temperature, software, type)
VALUES (1, false, “v1”, 12.0, “v2”, 3);
Delete Data
DELETE FROM root.ln.wf02.wt02.status WHERE time < 1000;
DELETE FROM root.ln.wf02.wt02.* WHERE time < 1000;
Insert and Delete Data

Select a Column of Data Based on a Time Interval
SELECT temperature FROM root.ln.wf01.wt01 WHERE time < 2017-11-01T00:08:00.000;
Choose Multiple Columns of Data for Different Devices According to Multiple Time Intervals
SELECT wf01.wt01.status, wf02.wt02.hardware FROM root.ln WHERE (time > 2017-11-
01T00:05:00.000 and time < 2017-11-01T00:12:00.000) or (time >= 2017-11-01T16:35:00.000 and
time <= 2017-11-01T16:37:00.000);
Query Data

Down-Frequency Aggregate Query
SELECT count(status), max_value(temperature) FROM root.ln.wf01.wt01 WHERE time > 2017-11-
03T06:00:00 and temperature > 20 GROUP BY (1h, [2017-11-03T00:00:00, 2017-11-03T23:00:00]);
Automated Fill
SELECT temperature FROM root.ln.wf03.wt01 WHERE time = 2017-11-01T16:37:50.000
FILL(float[previous, 1m])
Query Data

Supported data type
• Boolean
• Int
• Long
• Float
• Double
• String
• GPS (TODO) -> for trajectory data management
• Array (TODO) -> for unstructured data management

Count Nodes Statement
COUNT NODES root LEVEL=2
COUNT NODES root.ln.wf01 LEVEL=3
Show Devices Statement
SHOW DEVICES
Show Child Paths of Root Statement
SHOW CHILD PATHS
Show Child Paths Statement
SHOW CHILD PATHS root
SHOW CHILD PATHS root.ln.wf01
Metadata Related Statement

Set TTL
SET TTL to root.ln 3600000
Unset TTL
UNSET TTL to root.ln
TTL Statement

Using JDBC to write data
set storage group
create timeseries
insert data
https://iotdb.apache.org/#/Documents/progress/chap4/sec2

Using Session API to write Data
(more efficient)
set storage group
create timeseries
insert data

Using Session API to write Data in Batch
(more efficient)
Set Measurement
Build batch
Insert

Using JDBC to Query Data
raw data query
aggregation query
down sampling query
print result

Using Spark to Analyze Data in Tsfile
create table
sql query
read TsFile
write to TsFile

Using Spark to Analyze Data in IOTDB
create table
sql query
Query IOTDB
import org.apache.iotdb.spark.db._
val df = spark.read.format("org.apache.iotdb.spark.db")
.option("url","jdbc:iotdb://127.0.0.1:6667/")
.option("sql","select * from root").load
df.createOrReplaceTempView("iotdb_table")
val newDf = spark.sql("select * from iotdb_table")

Using Hive to Analyze Data in Tsfile
• hive> CREATE EXTERNAL TABLE IF NOT EXISTS only_sensor_1( time_stamp TIMESTAMP,
sensor_1 BIGINT) ROW FORMAT SERDE 'org.apache.iotdb.hive.TsFileSerDe'STORED AS
INPUTFORMAT 'org.apache.iotdb.hive.TSFHiveInputFormat'
OUTPUTFORMAT 'org.apache.iotdb.hive.TSFHiveOutputFormat’
LOCATION '/data/data/sequence/root.baic2.WWS.leftfrontdoor/’
TBLPROPERTIES ('device_id'='root.baic2.WWS.leftfrontdoor.plc1');
• hive> set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
• hive> select * from only_sensor_1 limit 10;
Create table
Set format
query

Store Data in HDFS
• build server and Hadoop module
• copy the target jar of Hadoop module into server target lib folder
• Edit user config in iotdb-engine.properties

Using Grafana to Visualize Data
• Install simple-json-datasource plugin
• Config iotdb-grafana-connector
• application.properties
• Start iotdb-grafana-connector
• java -jar iotdb-grafana-0.8.0.war
• Add IoTDB data source(Simplejson)
• choose connector IP
• Config dashboard and Enjoy!

A Process to Manage Time Series Data
data source
or
JDBC / Session API
JDBC / Session API
Grafana-Adaptor Spark-TsFile-AdaptorJDBC
Analysis with Big Data Framework
(big data set)
Analysis with Matlab
(small data set)
Visualization
(Manual data explore)

实例
RocketMQ Consumer
data source
RocketMQ Producer
通过JDBC / Session API
创建storage group
创建时间序列
向IoTDB插入数据
获取原始数据
将数据打包为Message
代码示例：https://github.com/apache/incubator-iotdb/pull/676

RocketMQ Producer
Get data to be inserted
Send message to
Consumer

RocketMQ Consumer
Set consumer group
name and name server
address
Connect to IoTDB using
Session API
Set Storage Groups
Create Timeseries

RocketMQ Consumer
Insert data into IoTDB
Orderly consume
messages

注意事项
• 通过设备来进行分区
• 鼓励调整存储组数量
同一个device顺序消费
数据

关于存储组数量的调优
• 如果客户端数量大于存储组；那增大并发的效果不明显；因为锁的粒度是存储组粒
度；内存允许范围内，存储组越多越好；
• （0.8-0.9版本）存储组数量怎么估计：
一个存储组对应了一段内存缓冲。总内存有限的情况下，存储组的数量决定了每个
存储组可用的内存大小，同时存储组内存越大，查询越友好。
• 存储组内存大小多大合适？取决于应用：如果一个存储组1天才能写10MB，那
10MB对一个存储组就够了；如果一个存储组1天能写100G，那尽量让存储组内存
在256M、512M甚至更大。(小存储组不会报错，但是查询性能会下降)

加入我们
• 期待各位加入
• mail list:
• 订阅信息，发送邮件至：
dev-subscribe@iotdb.incubator.apache.org
• 讨论与反馈，发送邮件至：
• dev@iotdb.apache.org
• BUG反馈，提交至：
• https://issues.apache.org/jira/projects/I
OTDB/issues/IOTDB
• 官方网站： https://iotdb.apache.org
• 钉钉用户交流群：
IoTDB v0.9.1 is coming soon！

Apache IoTDB 工业互联网时序数据库 meetup-2019.12

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Apache IoTDB 工业互联网时序数据库 meetup-2019.12

Similar to Apache IoTDB 工业互联网时序数据库 meetup-2019.12 (20)

More from jixuan1989

More from jixuan1989 (6)

Apache IoTDB 工业互联网时序数据库 meetup-2019.12