KWDB 运维实战：用 SQL 打通 Metrics 与 CMDB 数据关联 | 极客日志

SQLAI算法

KWDB 运维实战：用 SQL 打通 Metrics 与 CMDB 数据关联

综述由AI生成介绍使用 KWDB 构建轻量级服务器监控系统的方案，通过标准 SQL 实现时序指标（Metrics）与资产信息（CMDB）的关联分析。内容包括架构设计、表结构设计、数据模拟脚本及 P95 性能分析、机架流量聚合、僵死服务器检测等实战场景。相比 Prometheus，该方案降低了查询门槛并打破了数据孤岛，支持长周期存储与多维聚合分析。

暖阳发布于 2026/3/30更新于 2026/5/2524 浏览

在互联网大厂，服务器监控（AIOps）是基础设施的命脉。传统的监控方案（如 Zabbix、Prometheus）在面对海量指标时各有痛点：Zabbix 擅长告警但历史数据存储能力弱；Prometheus 查询语言（PromQL）学习曲线陡峭且不易与业务数据（如 CMDB）进行关联分析。

运维人员真正需要的是：既能像 Prometheus 一样吞吐海量时序数据，又能像 MySQL 一样用标准 SQL 进行复杂关联查询。

本文将介绍如何用 KWDB 3.1.0 搭建一个轻量级但高性能的服务器监控系统，用一个数据库搞定'指标存储'与'资产管理'。

场景设定：监控 500 台服务器的 CPU、内存、磁盘 IO 和网络流量。
核心挑战：
1. 高并发写入：每台服务器每 5 秒上报一次，每秒 100+ 次写入，且数据量随业务扩张线性增长。
2. 复杂聚合：需要快速计算每台机器的 P95 CPU 使用率，甚至跨机架、跨业务线进行聚合分析。
3. 长周期存储：需要保留 1 年的历史数据用于趋势分析和容量规划，这对存储成本提出了挑战。

1. 架构设计

1.1 监控链路图

HTTP -> Batch Insert -> SQL Query -> SQL Alert 服务器 Agent - Telegraf -> 数据接收服务 -> KWDB 集群 -> Grafana 监控面板 -> 报警中心

2. 建模实战：指标体系

一个优秀的监控系统，必须能打通'固定资产'与'动态指标'。

2.1 初始化环境

sudo /usr/local/kaiwudb/bin/kwbase sql \
  --certs-dir=/etc/kaiwudb/certs \
  --host=127.0.0.1:26257

CREATE DATABASE IF NOT EXISTS smart_ops;
USE smart_ops;

2.2 服务器资产表 (CMDB)

这是典型的关系型数据，存储服务器的静态属性。思考：为什么不把这些信息直接写在时序表里？因为 rack_id（机架）、os_version（操作系统）等信息是所有指标共享的维度。将它们独立存储，既能节省存储空间（无需在每条指标数据中重复记录），又能支持灵活的维度变更（例如服务器迁移机架，只需改一张表）。

CREATE TABLE servers (
  hostname VARCHAR(50) PRIMARY KEY,      -- 主机名 (唯一)
  ip_address (),                
  rack_id (),                   
  os_version (),                
  cpu_cores ,                         
  mem_gb                              
);

 servers 
(,,,,,),
(,,,,,),
(,,,,,),
(,,,,,);

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
SQL 美化和格式化
在线格式化和美化您的 SQL 查询（它支持各种 SQL 方言）。在线工具，SQL 美化和格式化在线工具，online

CREATE TABLE server_metrics (
  ts TIMESTAMP NOT NULL,                 -- 时间戳
  hostname VARCHAR(50) NOT NULL,         -- 主机名 (Tag)
  cpu_usage DOUBLE,                      -- CPU 使用率 (%)
  mem_usage DOUBLE,                      -- 内存使用率 (%)
  disk_io_read DOUBLE,                   -- 磁盘读 (MB/s)
  disk_io_write DOUBLE,                  -- 磁盘写 (MB/s)
  net_in DOUBLE,                         -- 网络入 (Mbps)
  net_out DOUBLE,                        -- 网络出 (Mbps)
  PRIMARY KEY(ts, hostname)
);

import random
from datetime import datetime, timedelta

# 配置
FILENAME = "ops_data.sql"
HOSTS = ['web-01','web-02','db-01','db-02']
START_TIME = datetime.now() - timedelta(hours=6)
INTERVAL_SECONDS = 5  # 5 秒一个点
TOTAL_POINTS = int(6*3600/ INTERVAL_SECONDS)

print(f"正在生成 {len(HOSTS)} 台服务器，过去 6 小时的监控数据...")
with open(FILENAME,"w") as f:
    f.write("USE smart_ops;\n")
    f.write("INSERT INTO server_metrics (ts, hostname, cpu_usage, mem_usage, disk_io_read, disk_io_write, net_in, net_out) VALUES\n")
    records = []
    for host in HOSTS:
        # 模拟不同角色的负载特征
        base_cpu = 20 if 'web' in host else 40
        base_mem = 40 if 'web' in host else 70
        for i in range(TOTAL_POINTS):
            ts = (START_TIME + timedelta(seconds=i*INTERVAL_SECONDS)).strftime('%Y-%m-%d %H:%M:%S')
            # 波动
            cpu = base_cpu + random.uniform(-10,30)
            if cpu > 100: cpu = 100
            mem = base_mem + random.uniform(-5,10)
            if mem > 100: mem = 100
            disk_r = random.uniform(0,100)
            disk_w = random.uniform(0,50)
            # 数据库服务器 IO 更高
            if 'db' in host:
                disk_r *= 2
                disk_w *= 3
            net_in = random.uniform(10,1000)
            net_out = random.uniform(10,1000)
            records.append(f"('{ts}', '{host}', {round(cpu,1)}, {round(mem,1)}, {round(disk_r,1)}, {round(disk_w,1)}, {round(net_in,1)}, {round(net_out,1)})")
    # 批量写入
    batch_size = 1000
    total = len(records)
    for i, record in enumerate(records):
        if (i + 1) % batch_size == 0 or i == total - 1:
            f.write(f"{record};\n")
            if i < total - 1:
                f.write("INSERT INTO server_metrics (ts, hostname, cpu_usage, mem_usage, disk_io_read, disk_io_write, net_in, net_out) VALUES\n")
        else:
            f.write(f"{record},\n")
print(f"生成完毕！总记录数：{total}")
print(f"请运行：time sudo /usr/local/kaiwudb/bin/kwbase sql --certs-dir=/etc/kaiwudb/certs --host=127.0.0.1:26257 < {FILENAME}")

python3 gen_ops_data.py
sudo /usr/local/kaiwudb/bin/kwbase sql --certs-dir=/etc/kaiwudb/certs --host=127.0.0.1:26257 < ops_data.sql

USE smart_ops;
-- 简单的平均值可能掩盖毛刺，P95 更能反映真实压力
-- 注意：如果当前版本暂不支持 percentile_cont，可以使用 avg/max 替代
SELECT hostname,
       avg(cpu_usage) as avg_cpu,
       max(cpu_usage) as max_cpu
FROM server_metrics
WHERE ts > now() - interval '1 hour'
GROUP BY hostname;

USE smart_ops;
SELECT s.rack_id,
       sum(m.net_in) as total_net_in,
       sum(m.net_out) as total_net_out
FROM server_metrics m
JOIN servers s ON m.hostname = s.hostname
WHERE m.ts > now() - interval '5 minute'  -- 实时流量
GROUP BY s.rack_id;

USE smart_ops;
SELECT s.hostname, s.ip_address, max(m.ts) as last_heartbeat
FROM servers s
LEFT JOIN server_metrics m ON s.hostname = m.hostname
GROUP BY s.hostname, s.ip_address
HAVING max(m.ts) < now() - interval '5 minute' OR max(m.ts) IS NULL;

KWDB 运维实战：用 SQL 打通 Metrics 与 CMDB 数据关联

1. 架构设计

1.1 监控链路图

2. 建模实战：指标体系

2.1 初始化环境

2.2 服务器资产表 (CMDB)

更多推荐文章

相关免费在线工具

2.3 性能指标表 (Metrics)

3. 数据模拟：压测级脚本

4. 业务场景实战

场景一：P95 性能分析

场景二：机架级负载均衡 (Rack Traffic Analysis)

场景三：僵死服务器检测

5. 避坑指南

总结

更多推荐文章

相关免费在线工具

KWDB 运维实战：用 SQL 打通 Metrics 与 CMDB 数据关联

1. 架构设计

1.1 监控链路图

2. 建模实战：指标体系

2.1 初始化环境

2.2 服务器资产表 (CMDB)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 性能指标表 (Metrics)

3. 数据模拟：压测级脚本

4. 业务场景实战

场景一：P95 性能分析

场景二：机架级负载均衡 (Rack Traffic Analysis)

场景三：僵死服务器检测

5. 避坑指南

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具