Apache IoTDB 时序数据库架构优势与选型指南

在过去的大数据架构选型中，当我们提到'海量时序数据存储'时，脑海中浮现的第一个方案往往是：Hadoop + HBase + OpenTSDB。

这套方案在互联网时代通过了考验，但在面对工业物联网（IIoT）、车联网以及新能源场景时，却显得越来越'重'。

今天，我想从架构演进和底层原理的角度，聊聊为什么 Apache IoTDB 会成为下一代时序数据库选型的'版本答案'。

在 2015 年左右，为了存储传感器数据，我们维护了一套庞大的 Hadoop 集群。虽然 HBase 的写入性能强悍，但我们在实际运维中遇到了一系列痛点：

架构过重，运维噩梦：为了存点电表数据，我们需要维护 HDFS、Zookeeper、HBase RegionServer 等一系列组件。任何一个环节抖动，都会导致写入失败。
压缩率不够极致：HBase 本质上是 KV 存储，它并不理解'时间序列'数据的特征。虽然有 Snappy/Gzip，但面对浮点数（Float/Double）序列，压缩效果远不如专用的二阶差分算法。

聚合查询慢：如果我想查询'过去一年的平均温度'，OpenTSDB 需要把所有点扫描出来再计算，I/O 开销巨大。

Apache IoTDB (Internet of Things Database) 的出现，恰恰解决了上述痛点。它不再依赖 Hadoop 生态，单机即可运行，同时也支持分布式集群。

不同于通用的 RocksDB 或 HBase，IoTDB 对 LSM-Tree (Log-Structured Merge Tree) 进行了针对性改造。它将数据分为顺序数据（Sequence）和乱序数据（Unsequence）。

内存满写入请求预写日志 WAL MemTable 内存表刷盘操作顺序 TsFile 乱序 TsFile 合并 Compaction 合并后的 TsFile

这种分离设计，保证了在处理高达 90% 的顺序写入场景下，磁盘几乎全是顺序写（Sequential Write），性能直接拉满。

如果说 LSM 是骨架，那么 TsFile 就是 IoTDB 的灵魂。

很多数据库底层还在用 Parquet 或 ORC，但 TsFile 是专门为时序设计的。它的层级结构如下：

成本维度	传统文档型数据库 (MongoDB)	Apache IoTDB	收益分析
磁盘空间	50 TB	~4.5 TB	存储成本降低 90%，TsFile 的压缩算法功不可没。
服务器节点	20 台高配机器	3 台普通机器	硬件投入减少 85%，不再需要大内存维持索引。
运维人力	需专职 DBA 维护	开发人员兼职即可	架构简单，没有复杂的 Sharding 逻辑。

更多推荐文章