从多库并存到一库多能：金仓 KingbaseES 融合架构实践

干数据库这行快十年了，我亲眼看着企业数据架构一步步从'单点系统'走向'多库并存'。早些年做项目，最让人头疼的就是数据竖井：交易系统用 Oracle，用户行为日志放 MongoDB，时序监控数据塞进 InfluxDB，图谱关系又得另起一套 Neo4j。每个库都有自己的语法、工具和运维体系，团队天天在不同数据库之间做同步和格式转换，一边折腾，一边还得担心一致性。

这几年'融合数据库'很热，但不少产品停留在多模接口层面。直到去年深度参与某城商行核心系统的分布式改造，用 金仓数据库 KingbaseES 跑完一轮后，我才真正理解什么叫'一库多能'。它不是把几个数据库的能力拼在一起，而是尽量让一个数据库原生承载多种数据模型、多类业务负载。

为什么是'一库多能'，不是'多库拼装'？

先看一个真实场景。银行客户要做实时反欺诈，需要在一次查询里同时关联：用户账户信息、近期交易流水、设备指纹、社交关系图谱，以及地理位置信息。按传统思路，这至少意味着跨五个数据库做联合查询。数据同步延迟、事务一致性、运维复杂度，任何一项都不轻松。

KingbaseES 的思路很直接：让一个数据库原生具备多种数据模型的处理能力。

这里的关键是'原生'，不是简单的插件式拼接。很多数据库也支持 JSON，但底层可能还是把它当文本处理，优化器并不真正理解 JSON 结构。KingbaseES 的做法更深入一些：从存储引擎层就区分数据模型，优化器能识别 JSONB 字段里的具体键值，也能为它建立 GIN 索引；时序数据不是简单挂个时间戳，而是按时间分区组织物理存储，并支持更适合时间窗口的下推和聚合。

我们做过一组对比：同样是'查询某个用户最近一周在特定区域的交易，并按交易对手关系网络做风险评分'这个需求——

传统多库方案：需要从 Oracle 抽交易数据、从 MongoDB 取设备信息、从图数据库计算关系网络，再交给 Spark 做关联分析，端到端延迟通常在 8 到 12 秒
KingbaseES 单库方案：一条 SQL 就能写完，执行时间稳定在 400 毫秒以内

性能差距主要来自两点：一是少了跨网络的数据搬运，二是优化器掌握的是完整数据视图，能生成更合理的执行计划。

KingbaseES 融合架构的三层思路

统一存储引擎：不是'什么都能存'这么简单

很多数据库会宣传多模存储，但底层还是一套老架构。KingbaseES 更像是做了分层处理：不同类型的数据，各走更适合自己的组织方式。

-- 建表时就能看出差别
CREATE TABLE user_behavior (
    user_id BIGINT PRIMARY KEY,
    reg_time TIMESTAMPTZ,
    -- JSONB 字段，底层是优化过的二进制格式
    device_info JSONB,
    -- 时序字段，按时间分区
    last_active_time TIMESTAMPTZ
) PARTITION BY RANGE (last_active_time);

-- 不同字段类型，底层组织方式也不同
-- device_info 可以按键值访问，不必每次都解析整段 JSON

我们做过测试，存储 10 万个用户的设备信息，平均每个 JSON 大约 2KB：

传统做法把 JSON 存成文本，查特定键值时往往要全表扫描并解析内容
KingbaseES 的 JSONB 可以把键值拆成更适合查询的结构，像 device_info->>'os_version' = 'Android' 这类条件，能够更精准地命中目标字段，IO 明显下降

空间数据这块也很实用。比如'最近 1 公里内的可疑交易设备数'这类需求，直接在数据库里做空间计算，比把坐标全取出来交给应用层算要省心得多：

SELECT COUNT(DISTINCT device_id)
 transactions
 ST_DWithin(
        device_location,
        ST_Point(, ),
        
      )
   transaction_time  NOW()   ;

从多库并存到一库多能：金仓 KingbaseES 融合架构实践