基于 Go 与 LLM 的智能 AIOps 监控系统实战

前言

在云计算与微服务架构日益复杂的当下，传统的基于静态阈值的服务器监控系统正面临严峻挑战。海量的告警噪音与滞后的故障定位能力，促使运维体系向 AIOps（人工智能运维）转型。本文将详细阐述如何利用高性能的 Go 语言结合大语言模型 API，从零构建一个具备智能分析能力的服务器监控探针。我们将深入探讨 Linux 内核信息采集机制、Go 语言并发编程模式以及大模型服务的工程化集成。

环境准备

构建高效监控系统的基石在于一个稳定且配置得当的运行环境。本次实践基于 Ubuntu LTS 系列，涵盖 20.04 至 24.04 版本，这些版本提供了稳定的内核支持与广泛的软件包兼容性。

系统更新与依赖管理

在部署任何生产级软件之前，维持操作系统的最新状态是保障安全与稳定性的首要原则。通过包管理器 apt，系统能够从官方源获取最新的安全补丁与软件版本。

执行更新操作不仅仅是简单的软件升级，其背后涉及更新本地包索引数据库（apt update）以及根据依赖关系图谱进行二进制文件的替换（apt upgrade）。

sudo apt update && sudo apt upgrade -y

当终端输出滚动停止，且无错误提示时，表明系统内核与基础库已处于最新状态。这一步确保了后续安装的编译工具链能够与系统底层库（如 glibc）完美匹配，避免因版本差异导致的链接错误。

紧接着，构建 Go 语言开发环境需要一系列基础工具的支持。wget 与 curl 用于网络资源的获取，git 用于版本控制，而 build-essential 则是一个元包，它包含了 GCC 编译器、GNU Make 等编译 C 语言程序所必须的工具链。虽然 Go 语言本身支持交叉编译且不完全依赖 GCC，但在涉及 CGO 或依赖特定系统底层库时，完整的编译环境是必须的。

sudo apt install -y wget curl git build-essential

Go 语言环境的深度部署

Go 语言因其原生的并发支持、高效的垃圾回收机制以及直接编译为机器码的特性，成为编写系统级监控代理的首选语言。

为了获取最佳的性能与最新的语言特性，建议直接从官方渠道下载二进制发行包。这里选择 1.23.6 版本，该版本在标准库性能与编译器优化方面均有显著提升。

# 设置要安装的版本号
GO_VERSION="1.23.6"
# 下载安装包
wget https://go.dev/dl/go${GO_VERSION}.linux-amd64.tar.gz

wget 命令将从 Google 的内容分发网络中拉取针对 Linux amd64 架构的压缩包。

下载完成后，文件完整性至关重要。随后，遵循 Linux 的文件系统层级标准（FHS），将 Go 安装到 /usr/local 目录。这是一个传统的用于存放本地管理员安装软件的位置，能够有效与系统包管理器安装的软件隔离。

sudo tar -C /usr/local -xzf go${GO_VERSION}.linux-amd64.tar.gz

解压操作将创建一个 /usr/local/go 目录，其中包含了编译器 go、格式化工具 gofmt 以及标准库源代码。为了保持系统整洁，解压后即刻清理压缩包。

rm go${GO_VERSION}.linux-amd64.tar.gz

环境变量配置与运行时生效

package main import ( "bufio" "bytes" "encoding/json" "fmt" "io" "net/http" "os" "strconv" "strings" "syscall" "time" ) // ========== Config ========== type Config struct { CPUThreshold float64 MemThreshold float64 DiskThreshold float64 Interval int // seconds AlertCooldown int // seconds AIBaseURL string AIAPIKey string AIModel string } func loadConfig() *Config { return &Config{ CPUThreshold: 5.0, // 测试用，触发后改回 80.0 MemThreshold: 25.0, // 测试用，触发后改回 85.0 DiskThreshold: 90.0, Interval: 30, AlertCooldown: 300, AIBaseURL: "YOUR_API_BASE_URL", AIAPIKey: "YOUR_API_KEY", AIModel: "YOUR_MODEL_ID", } } // ========== Metrics ========== type Metrics struct { Timestamp time.Time CPUPercent float64 MemoryPercent float64 MemoryUsedGB float64 MemoryTotalGB float64 DiskPercent float64 DiskUsedGB float64 DiskTotalGB float64 NetBytesSent uint64 NetBytesRecv uint64 } func (m *Metrics) String() string { return fmt.Sprintf("CPU: %.1f%% | Memory: %.1f%% (%.1fGB/%.1fGB) | Disk: %.1f%% (%.1fGB/%.1fGB) | Net: sent=%dMB recv=%dMB", m.CPUPercent, m.MemoryPercent, m.MemoryUsedGB, m.MemoryTotalGB, m.DiskPercent, m.DiskUsedGB, m.DiskTotalGB, m.NetBytesSent/1024/1024, m.NetBytesRecv/1024/1024) } func collectMetrics() (*Metrics, error) { m := &Metrics{Timestamp: time.Now()} if err := collectCPU(m); err != nil { return nil, fmt.Errorf("cpu: %w", err) } if err := collectMemory(m); err != nil { return nil, fmt.Errorf("memory: %w", err) } if err := collectDisk(m); err != nil { return nil, fmt.Errorf("disk: %w", err) } if err := collectNetwork(m); err != nil { return nil, fmt.Errorf("network: %w", err) } return m, nil } // ========== Collectors ========== type cpuStat struct { user, nice, system, idle, iowait, irq, softirq uint64 } func readCPUStat() (*cpuStat, error) { f, err := os.Open("/proc/stat") if err != nil { return nil, err } defer f.Close() scanner := bufio.NewScanner(f) for scanner.Scan() { line := scanner.Text() if !strings.HasPrefix(line, "cpu ") { continue } fields := strings.Fields(line) if len(fields) < 8 { return nil, fmt.Errorf("unexpected /proc/stat format") } parse := func(i int) uint64 { v, _ := strconv.ParseUint(fields[i], 10, 64) return v } return &cpuStat{ user: parse(1), nice: parse(2), system: parse(3), idle: parse(4), iowait: parse(5), irq: parse(6), softirq: parse(7), }, nil } return nil, fmt.Errorf("cpu line not found in /proc/stat") } func collectCPU(m *Metrics) error { s1, err := readCPUStat() if err != nil { return err } time.Sleep(500 * time.Millisecond) s2, err := readCPUStat() if err != nil { return err } idle1 := s1.idle + s1.iowait idle2 := s2.idle + s2.iowait total1 := s1.user + s1.nice + s1.system + s1.idle + s1.iowait + s1.irq + s1.softirq total2 := s2.user + s2.nice + s2.system + s2.idle + s2.iowait + s2.irq + s2.softirq totalDiff := float64(total2 - total1) idleDiff := float64(idle2 - idle1) if totalDiff == 0 { m.CPUPercent = 0 } else { m.CPUPercent = (1.0 - idleDiff/totalDiff)*100.0 } return nil } func collectMemory(m *Metrics) error { f, err := os.Open("/proc/meminfo") if err != nil { return err } defer f.Close() vals := make(map[string]uint64) scanner := bufio.NewScanner(f) for scanner.Scan() { fields := strings.Fields(scanner.Text()) if len(fields) >= 2 { key := strings.TrimSuffix(fields[0], ":") v, _ := strconv.ParseUint(fields[1], 10, 64) vals[key] = v } } total := vals["MemTotal"] available := vals["MemAvailable"] if total == 0 { return fmt.Errorf("MemTotal not found") } used := total - available m.MemoryTotalGB = float64(total) / 1024 / 1024 m.MemoryUsedGB = float64(used) / 1024 / 1024 m.MemoryPercent = float64(used) / float64(total) * 100.0 return nil } func collectDisk(m *Metrics) error { var stat syscall.Statfs_t if err := syscall.Statfs("/", &stat); err != nil { return err } total := stat.Blocks * uint64(stat.Bsize) free := stat.Bfree * uint64(stat.Bsize) used := total - free m.DiskTotalGB = float64(total) / 1024 / 1024 / 1024 m.DiskUsedGB = float64(used) / 1024 / 1024 / 1024 if total > 0 { m.DiskPercent = float64(used) / float64(total) * 100.0 } return nil } func collectNetwork(m *Metrics) error { f, err := os.Open("/proc/net/dev") if err != nil { return err } defer f.Close() var totalSent, totalRecv uint64 scanner := bufio.NewScanner(f) scanner.Scan() // skip header line 1 scanner.Scan() // skip header line 2 for scanner.Scan() { line := scanner.Text() colonIdx := strings.Index(line, ":") if colonIdx < 0 { continue } iface := strings.TrimSpace(line[:colonIdx]) if iface == "lo" { continue } fields := strings.Fields(line[colonIdx+1:]) if len(fields) < 9 { continue } recv, _ := strconv.ParseUint(fields[0], 10, 64) sent, _ := strconv.ParseUint(fields[8], 10, 64) totalRecv += recv totalSent += sent } m.NetBytesSent = totalSent m.NetBytesRecv = totalRecv return nil } // ========== AI Analyzer ========== type chatMessage struct { Role string `json:"role"` Content string `json:"content"` } type chatRequest struct { Model string `json:"model"` Messages []chatMessage `json:"messages"` } type chatChoice struct { Message chatMessage `json:"message"` } type chatResponse struct { Choices []chatChoice `json:"choices"` } func analyzeWithAI(cfg *Config, m *Metrics, anomalies []string) (string, error) { anomalyList := "" for _, a := range anomalies { anomalyList += "- " + a + "\n" } prompt := fmt.Sprintf(`Server metrics at %s: - CPU Usage: %.1f%% - Memory Usage: %.1f%% (%.1f GB / %.1f GB) - Disk Usage: %.1f%% (%.1f GB / %.1f GB) - Network: Sent %d MB, Received %d MB Detected anomalies: %s Please analyze these anomalies and provide recommendations.`, m.Timestamp.Format("2006-01-02 15:04:05"), m.CPUPercent, m.MemoryPercent, m.MemoryUsedGB, m.MemoryTotalGB, m.DiskPercent, m.DiskUsedGB, m.DiskTotalGB, m.NetBytesSent/1024/1024, m.NetBytesRecv/1024/1024, anomalyList) reqBody := chatRequest{ Model: cfg.AIModel, Messages: []chatMessage{ {Role: "system", Content: "You are a server monitoring expert. Analyze the provided metrics and anomalies, then give a brief summary and 2-3 actionable recommendations."}, {Role: "user", Content: prompt}, }, } data, err := json.Marshal(reqBody) if err != nil { return "", err } client := &http.Client{Timeout: 30 * time.Second} req, err := http.NewRequest("POST", cfg.AIBaseURL, bytes.NewReader(data)) if err != nil { return "", err } req.Header.Set("Content-Type", "application/json") req.Header.Set("Authorization", "Bearer "+cfg.AIAPIKey) resp, err := client.Do(req) if err != nil { return "", fmt.Errorf("API request failed: %w", err) } defer resp.Body.Close() body, err := io.ReadAll(resp.Body) if err != nil { return "", err } if resp.StatusCode != http.StatusOK { return "", fmt.Errorf("API error %d: %s", resp.StatusCode, string(body)) } var chatResp chatResponse if err := json.Unmarshal(body, &chatResp); err != nil { return "", fmt.Errorf("parse response: %w", err) } if len(chatResp.Choices) == 0 { return "", fmt.Errorf("empty response from AI") } return chatResp.Choices[0].Message.Content, nil } // ========== Alerter ========== type Alerter struct { cfg *Config lastAlert map[string]time.Time } func newAlerter(cfg *Config) *Alerter { return &Alerter{ cfg: cfg, lastAlert: make(map[string]time.Time), } } func (a *Alerter) check(m *Metrics) { var anomalies []string if m.CPUPercent > a.cfg.CPUThreshold { anomalies = append(anomalies, fmt.Sprintf("CPU %.1f%% > threshold %.1f%%", m.CPUPercent, a.cfg.CPUThreshold)) } if m.MemoryPercent > a.cfg.MemThreshold { anomalies = append(anomalies, fmt.Sprintf("Memory %.1f%% > threshold %.1f%%", m.MemoryPercent, a.cfg.MemThreshold)) } if m.DiskPercent > a.cfg.DiskThreshold { anomalies = append(anomalies, fmt.Sprintf("Disk %.1f%% > threshold %.1f%%", m.DiskPercent, a.cfg.DiskThreshold)) } if len(anomalies) == 0 { return } // cooldown check key := strings.Join(anomalies, "|") if len(key) > 40 { key = key[:40] } if last, ok := a.lastAlert[key]; ok { if time.Since(last) < time.Duration(a.cfg.AlertCooldown)*time.Second { return } } a.lastAlert[key] = time.Now() fmt.Println("\n==================================================") fmt.Printf("[ALERT] %s\n", time.Now().Format("2006-01-02 15:04:05")) fmt.Println("Anomalies detected:") for _, anomaly := range anomalies { fmt.Printf(" ! %s\n", anomaly) } fmt.Println("\nCalling AI for analysis...") analysis, err := analyzeWithAI(a.cfg, m, anomalies) if err != nil { fmt.Printf("AI analysis failed: %v\n", err) } else { fmt.Println("\n--- AI Analysis ---") fmt.Println(analysis) } fmt.Println("==================================================") } func min(a, b int) int { if a < b { return a } return b } // ========== Monitor ========== func runMonitor(cfg *Config) { alerter := newAlerter(cfg) fmt.Printf("Server Monitor started (interval: %ds | CPU>%.0f%% Mem>%.0f%% Disk>%.0f%%)\n", cfg.Interval, cfg.CPUThreshold, cfg.MemThreshold, cfg.DiskThreshold) tick := func() { m, err := collectMetrics() if err != nil { fmt.Printf("[ERROR] %v\n", err) return } fmt.Printf("[%s] %s\n", m.Timestamp.Format("15:04:05"), m.String()) alerter.check(m) } tick() ticker := time.NewTicker(time.Duration(cfg.Interval) * time.Second) defer ticker.Stop() for range ticker.C { tick() } } // ========== Main ========== func main() { cfg := loadConfig() runMonitor(cfg) }

基于 Go 与 LLM 的智能 AIOps 监控系统实战

前言

环境准备

系统更新与依赖管理

Go 语言环境的深度部署

环境变量配置与运行时生效

更多推荐文章

相关免费在线工具

接入大模型服务

核心代码实现

模块化工程结构

核心代码解析：`main.go`

配置管理与结构体设计

深入 Linux 内核：指标采集原理

智能分析：对接大模型 API

告警抑制与主循环

编译构建与压力测试验证

编译与运行

压力测试模拟故障场景

智能告警与分析反馈

总结与展望

更多推荐文章

相关免费在线工具

基于 Go 与 LLM 的智能 AIOps 监控系统实战

前言

环境准备

系统更新与依赖管理

Go 语言环境的深度部署

环境变量配置与运行时生效

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

接入大模型服务

核心代码实现

模块化工程结构

核心代码解析：main.go

配置管理与结构体设计

深入 Linux 内核：指标采集原理

智能分析：对接大模型 API

告警抑制与主循环

编译构建与压力测试验证

编译与运行

压力测试模拟故障场景

智能告警与分析反馈

总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

核心代码解析：`main.go`