从 HTAP 到 AI 加速,KingbaseES 的技术演进之路
KingbaseES 通过行列混合存储与四级并行架构实现 HTAP 能力,支持事务与分析在同一副本上运行。当前版本在国产硬件优化及多语法兼容方面表现成熟,但在资源隔离与向量检索 GA 方面仍有提升空间。未来规划包括自研向量引擎 kdb_vector 及 GPU 协同加速,旨在构建兼顾性能与合规的全栈数据底座。

KingbaseES 通过行列混合存储与四级并行架构实现 HTAP 能力,支持事务与分析在同一副本上运行。当前版本在国产硬件优化及多语法兼容方面表现成熟,但在资源隔离与向量检索 GA 方面仍有提升空间。未来规划包括自研向量引擎 kdb_vector 及 GPU 协同加速,旨在构建兼顾性能与合规的全栈数据底座。

Gartner 在 2014 年提出 Hybrid Transactional/Analytical Processing (HTAP),意在打破事务处理与分析之间的墙,在同一数据副本上同时完成 OLTP 与 OLAP,从而在业务瞬间做出决策。
| 难题 | 说明 | 常见解法 | 典型产品思路 |
|---|---|---|---|
| 性能隔离 | 大量读写混跑时,分析查询易拖慢事务响应 | 双存储引擎 / 读写分离 / 向量化执行 | 行 - 列双存储、冷热分层 |
| 数据新鲜度 | 分析所见必须是最新写入 | 内存共享、增量复制、MVCC | 行 + 列同步刷新、向量增量索引 |
KingbaseES 通过 ADC (Analytical Distributed Cluster) 组件引入行列混合存储与四级并行(分片 - 节点 - 实例-CPU 指令),在同一集群内针对 TP/AP 不同表分区或列落地不同格式,并在存储层做 5–10 × 压缩,降低 IO 与内存占用。这一设计使其可以:
| 维度 | 关键能力 | 官方说明(摘要) |
|---|---|---|
| 多语法兼容 | Oracle / MySQL / SQL Server / PostgreSQL 方言 | 一套软件兼容多种语法,迁移无忧 |
| 多模数据 | 关系、JSON、全文、GIS、时序 | 多模一体化存储,模型间可混合访问 |
| 高可用形态 | 单机、共享存储 RAC、RWC 读写分离、ADC 分布式 | 同一产品线内多形态集群,高可用 99.999 % |
| 国产硬件优化 | 龙芯/飞腾/鲲鹏 CPU 深度调优 | 官方在国产 CPU 上实测 TPC-C 230 万 tpmC |
不足
| 项目 | 现状 | 潜在影响 |
|---|---|---|
| 事务 - 分析资源隔离 | 依赖节点角色划分 + CGroup;缺乏细粒度 Workload 管理 | TP 高峰可能挤占 AP 算力,需手动调度 |
| 列存增量更新 | 由 WAL 推送触发批量刷新 | 对接毫秒级流处理场景时仍有延迟 |
| 原生物化视图 | 已支持但刷新方式以批处理为主 | 复杂多表联查仍需手动调优 |
| 能力 | 官方现状 | 评估 |
|---|---|---|
| 向量检索 | 内核级索引仍在社区实验阶段(kdb_vector),暂无企业版发布 | 适合 PoC,不宜直接上核心生产 |
| GPU/SIMD 加速 | 已在列存算子层做 SIMD 向量化;GPU 加速仅在路标规划中 | 算子层带宽提升明显,但与 GPU-offload 仍有差距 |
| 模型内推理 | 计划以 UDF 管理小模型,暂未公开文档 | 需等待官方 SDK / 放权 API |
KingbaseES 的 ADC (Analytical Distributed Cluster) 采用 协调器 + 工作节点 的非共享架构:
这种设计先保证横向扩展,再把单机算子推到 CPU 指令粒度,从底层释放 HTAP 并发潜力。
ADC 在 同一表 内引入 行 - 列双格式:
| 存储格式 | 典型负载 | 刷新策略 | 说明 |
|---|---|---|---|
| Row-Store (行存) | OLTP 高频点查 / 写入 | 实时写入 | 保证事务延迟毫秒级 |
| Column-Store (列存) | OLAP 扫描 / 聚合 | WAL 批量推送,分钟级同步 | 默认开启 5 – 10 × LZ4 压缩,带宽占用显著下降 |
通过元数据将两种 Page 映射到同一逻辑表:
ROW PARTITION -> 内核 MVCC & 索引
COL PARTITION -> 向量化 Scan & Agg
事务写入先落行存;WAL 异步刷新列存分区,保证 HTAP 单副本一致性。
官方在 2024 社区路演中公布了 kdb_vector 实验插件:
KNNSearch(<vec>, topN [, metric]),计划与 SQL89 兼容函数并存。当前插件尚处 Beta,企业版 GA 目标版本为 V9R2(官方 PPT《ADC Roadmap 2025》)。
| 版本 / 节点 | 里程碑 | 主要变更 | 价值 |
|---|---|---|---|
| V8R3 (2021) | 多进程重构 | 拆分 CN / DN,奠定 ADC 基座 | 横向扩展 |
| V8R6 (2023) | 行列混合、四级并行 | 列存页压缩、SIMD 算子 | HTAP 融合首发 |
| V9 GA (2024) | 资源组初版、异构 CPU 优化 | CGroup + NUMA 感知调度 | TP / AP 粗粒度隔离 |
| V9R2 规划 (2025) | kdb_vector、GPU 算子 | ANN 索引 + CUDA 加速 | AI 语义检索与向量分析 |
KingbaseES 选择 行列混存 + 四级并行 这条相对轻量的 HTAP 路径,先解决 TP / AP 共存与数据新鲜度,再向 向量检索与 GPU 加速 延伸。对于希望在一个平台里同时跑交易、报表、RAG 检索的用户,这条演进路线提供了连贯的升级通道。
KingbaseES TDC 是一款使用 KingbaseES 作为节点的存算分离分布式集群组件。TDC 集群完全兼容 KingbaseES 的应用开发能力,提供高可用性和跨地域多活,支持通过横向扩展提供更高的吞吐量、数据容量。适用于需要应用开发兼容、同时需要性能横向扩展的 TP 类核心业务场景。
KES Sharding 是一款功能强大、灵活易用的企业级分布式数据库软件,具备高度可扩展性,高可用性与容错性,支持数据分片与负载均衡,提供高效的数据查询与分析能力,以及强一致性完整性数据保障。可支撑各行业亿数据量级业务场景,帮助企业提升高并发和海量数据的极致处理能力,为用户提供高效、稳定、可靠的数据存储和处理服务。
KES ADC 是一款高性能、高扩展能力的分布式集群组件,支持大规模并行计算、非共享存储、库内压缩、在线扩容等技术,满足各行业对大量数据采集、数据存储、数据挖掘以及数据分析等各能力要求。该组件主要定位于数据分析类应用场景、可以处理 TB 级甚至更大存储量的数据,并能集成多种异构数据源进行数据分析和数据挖掘。
综上,KingbaseES 以 行列混存 + 四级并行 奠定 HTAP 能力,通过 ADC 在同一数据副本上并行承载事务、分析与向量检索,为国产数据库冲刺实时智能抢得先机。短期可借助 资源组细化隔离、列存秒级增量、向量索引 GA 等优化提升体验;中长期则应拥抱 GPU 算子与小模型下推,构建'一库统管'的数据底座。面向未来,HTAP 将成为政企数据架构默认选项,而 AI 加速将决定数据库平台天花板。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
在线格式化和美化您的 SQL 查询(它支持各种 SQL 方言)。 在线工具,SQL 美化和格式化在线工具,online
解析 INSERT 等受限 SQL,导出为 CSV、JSON、XML、YAML、HTML 表格(见页内语法说明)。 在线工具,SQL转CSV/JSON/XML在线工具,online
CSV 与 JSON/XML/HTML/TSV/SQL 等互转,单页多 Tab。 在线工具,CSV 工具包在线工具,online