KWDB 运维实战：用 SQL 打通 Metrics 与 CMDB | 极客日志

SQLAI算法

KWDB 运维实战：用 SQL 打通 Metrics 与 CMDB

基于 KWDB 构建服务器监控系统，解决传统方案中指标存储与资产数据割裂的问题。通过建立 CMDB 关系表与 Metrics 时序表，利用标准 SQL 实现跨维度聚合分析。实测显示批量写入性能优异，支持 P95 计算、机架流量统计及僵死节点检测。相比 PromQL，SQL 降低了分析门槛，结合降采样策略可有效控制长周期存储成本，为 AIOps 提供统一数据底座。

狂少发布于 2026/3/16更新于 2026/7/2329 浏览

在互联网大厂，服务器监控是基础设施的命脉。一旦核心数据库或网关宕机，每分钟的损失可能高达数百万。

传统的监控方案在面对海量指标时各有痛点：Zabbix 擅长告警但历史数据存储能力弱；Prometheus 查询语言学习曲线陡峭且不易与业务数据进行关联分析。运维人员真正需要的是既能像 Prometheus 一样吞吐海量时序数据，又能像 MySQL 一样用标准 SQL 进行复杂关联查询。

本文将带你体验如何用 KWDB 3.1.0 搭建一个轻量级但高性能的服务器监控系统，用一个数据库搞定指标存储与资产管理。

场景设定

监控 500 台服务器的 CPU、内存、磁盘 IO 和网络流量。

核心挑战

高并发写入：每台服务器每 5 秒上报一次，每秒 100+ 次写入，且数据量随业务扩张线性增长。
复杂聚合：需要快速计算每台机器的 P95 CPU 使用率，甚至跨机架、跨业务线进行聚合分析。
长周期存储：需要保留 1 年的历史数据用于趋势分析和容量规划，这对存储成本提出了挑战。

架构设计

监控链路通常包含 Agent 采集、数据接收服务、数据库集群、可视化面板及报警中心。通过 HTTP 批量插入和 SQL 查询实现闭环。

建模实战：指标体系

一个优秀的监控系统，必须能打通固定资产与动态指标。

初始化环境

sudo /usr/local/kaiwudb/bin/kwbase sql \
  --certs-dir=/etc/kaiwudb/certs \
  --host=127.0.0.1:26257

CREATE DATABASE IF NOT EXISTS smart_ops;
USE smart_ops;

服务器资产表 (CMDB)

这是典型的关系型数据，存储服务器的静态属性。为什么不把这些信息直接写在时序表里？因为 rack_id（机架）、os_version（操作系统）等信息是所有指标共享的维度。将它们独立存储，既能节省存储空间（无需在每条指标数据中重复记录），又能支持灵活的维度变更（例如服务器迁移机架，只需改一张表）。

CREATE TABLE servers (
    hostname VARCHAR(50) PRIMARY KEY,  -- 主机名 (唯一)
    ip_address VARCHAR(20),            -- IP 地址
    rack_id VARCHAR(20),               -- 机架编号
    os_version VARCHAR(50),            -- 操作系统
    cpu_cores INT,                     -- CPU 核数
    mem_gb INT                         -- 内存大小
);

INSERT INTO servers 
(,,,,,),
(,,,,,),
(,,,,,),
(,,,,,);

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
SQL 美化和格式化
在线格式化和美化您的 SQL 查询（它支持各种 SQL 方言）。在线工具，SQL 美化和格式化在线工具，online

CREATE TABLE server_metrics (
    ts TIMESTAMP NOT NULL,             -- 时间戳
    hostname VARCHAR(50) NOT NULL,     -- 主机名 (Tag)
    cpu_usage DOUBLE,                  -- CPU 使用率 (%)
    mem_usage DOUBLE,                  -- 内存使用率 (%)
    disk_io_read DOUBLE,               -- 磁盘读 (MB/s)
    disk_io_write DOUBLE,              -- 磁盘写 (MB/s)
    net_in DOUBLE,                     -- 网络入 (Mbps)
    net_out DOUBLE,                    -- 网络出 (Mbps)
    PRIMARY KEY(ts, hostname)
);

import random
from datetime import datetime, timedelta

FILENAME = "ops_data.sql"
HOSTS = ['web-01','web-02','db-01','db-02']
START_TIME = datetime.now() - timedelta(hours=6)
INTERVAL_SECONDS = 5
TOTAL_POINTS = int(6*3600/ INTERVAL_SECONDS)

print(f"正在生成 {len(HOSTS)} 台服务器，过去 6 小时的监控数据...")
with open(FILENAME,"w") as f:
    f.write("USE smart_ops;\n")
    f.write("INSERT INTO server_metrics (ts, hostname, cpu_usage, mem_usage, disk_io_read, disk_io_write, net_in, net_out) VALUES\n")
    records = []
    for host in HOSTS:
        base_cpu = 20 if 'web' in host else 40
        base_mem = 40 if 'web' in host else 70
        for i in range(TOTAL_POINTS):
            ts = (START_TIME + timedelta(seconds=i*INTERVAL_SECONDS)).strftime('%Y-%m-%d %H:%M:%S')
            cpu = base_cpu + random.uniform(-10,30)
            if cpu > 100: cpu = 100
            mem = base_mem + random.uniform(-5,10)
            if mem > 100: mem = 100
            disk_r = random.uniform(0,100)
            disk_w = random.uniform(0,50)
            if 'db' in host:
                disk_r *= 2
                disk_w *= 3
            net_in = random.uniform(10,1000)
            net_out = random.uniform(10,1000)
            records.append(f"('{ts}', '{host}', {round(cpu,1)}, {round(mem,1)}, {round(disk_r,1)}, {round(disk_w,1)}, {round(net_in,1)}, {round(net_out,1)})")
    batch_size = 1000
    total = len(records)
    for i, record in enumerate(records):
        if (i + 1) % batch_size == 0 or i == total - 1:
            f.write(f"{record};\n")
            if i < total - 1:
                f.write("INSERT INTO server_metrics (ts, hostname, cpu_usage, mem_usage, disk_io_read, disk_io_write, net_in, net_out) VALUES\n")
        else:
            f.write(f"{record},\n")
print(f"生成完毕！总记录数：{total}")
print(f"请运行：time sudo /usr/local/kaiwudb/bin/kwbase sql --certs-dir=/etc/kaiwudb/certs --host=127.0.0.1:26257 < {FILENAME}")

USE smart_ops;
SELECT hostname,
       avg(cpu_usage) as avg_cpu,
       max(cpu_usage) as max_cpu
FROM server_metrics 
WHERE ts > now() - interval '1 hour'
GROUP BY hostname;

USE smart_ops;
SELECT s.rack_id,
       sum(m.net_in) as total_net_in,
       sum(m.net_out) as total_net_out
FROM server_metrics m 
JOIN servers s ON m.hostname = s.hostname 
WHERE m.ts > now() - interval '5 minute'
GROUP BY s.rack_id;

USE smart_ops;
SELECT s.hostname, s.ip_address, max(m.ts) as last_heartbeat
FROM servers s 
LEFT JOIN server_metrics m ON s.hostname = m.hostname 
GROUP BY s.hostname, s.ip_address 
HAVING max(m.ts) < now() - interval '5 minute' OR max(m.ts) IS NULL;

KWDB 运维实战：用 SQL 打通 Metrics 与 CMDB

架构设计

建模实战：指标体系

初始化环境

服务器资产表 (CMDB)

更多推荐文章

相关免费在线工具

性能指标表 (Metrics)

数据模拟：压测级脚本

业务场景实战

场景一：P95 性能分析

场景二：机架级负载均衡

场景三：僵死服务器检测

避坑指南

总结

更多推荐文章

相关免费在线工具

KWDB 运维实战：用 SQL 打通 Metrics 与 CMDB

架构设计

建模实战：指标体系

初始化环境

服务器资产表 (CMDB)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

性能指标表 (Metrics)

数据模拟：压测级脚本

业务场景实战

场景一：P95 性能分析

场景二：机架级负载均衡

场景三：僵死服务器检测

避坑指南

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具