微服务监控与运维体系：构建可观测的 Java 微服务 | 极客日志

Javajava

微服务监控与运维体系：构建可观测的 Java 微服务

微服务架构下系统复杂度提升，需构建可观测性体系。本章介绍基于 Java Spring Boot 的微服务监控方案，涵盖指标监控（Prometheus+Grafana）、日志收集（ELK/EFK）及链路追踪（SkyWalking）。详细讲解 Actuator 暴露指标、自定义业务监控、PromQL 查询、Grafana 仪表盘定制与告警配置。同时阐述 Filebeat 采集日志至 Elasticsearch 并通过 Kibana 分析的方法，以及 SkyWalking Agent 无侵入式集成与调用链分析。结合实战案例演示故障排查流程与性能优化策略，如数据库慢查询修复、限流防雪崩及超时重试治理，帮助开发者建立完整的微服务运维体系。

苹果系统发布于 2026/2/21更新于 2026/6/224 浏览

微服务监控与运维体系：构建可观测的 Java 微服务

在这里插入图片描述

一、学习目标与重点

1.1 学习目标

理解微服务可观测性的核心概念（监控、日志、链路追踪）及价值，掌握微服务运维的核心痛点与解决方案。
熟练使用 Prometheus + Grafana 实现微服务指标监控，包括系统指标、业务指标的采集、可视化与告警。
掌握 ELK（Elasticsearch + Logstash + Kibana）日志收集与分析体系，实现分布式日志的集中管理与故障排查。
运用 SkyWalking 实现微服务链路追踪，定位跨服务调用的性能瓶颈与异常问题。
能够独立搭建完整的微服务运维体系，结合实际场景制定监控告警策略与故障排查流程。

1.2 学习重点

可观测性三大支柱（监控、日志、链路追踪）的协同工作原理。
Prometheus 指标采集、PromQL 查询与 Grafana 仪表盘定制。
ELK 日志收集流程与 Kibana 日志检索、可视化实战。
SkyWalking 链路追踪的核心概念与分布式调用链分析。
微服务运维实战：告警配置、故障排查、性能优化案例。

二、微服务可观测性核心概念与体系设计

2.1 为什么需要可观测性？

💡 微服务架构下，系统被拆分为多个独立服务，部署在多台服务器或容器中，相比单体应用，运维复杂度呈指数级提升：

服务间依赖关系复杂，一个请求可能跨越多个服务（如用户下单→订单服务→商品服务→支付服务→物流服务），某个环节故障会导致整个流程失败。
分布式部署导致问题定位困难，传统单体应用的日志查看、断点调试方式失效。
流量波动频繁，需实时监控系统负载、响应时间等指标，提前预警潜在风险。

可观测性（Observability） 正是为解决这些问题而生，核心是通过收集系统的'信号'（指标、日志、链路），让系统的运行状态'可见'，从而快速定位问题、优化性能、保障系统稳定。

可观测性的三大支柱：

监控（Metrics）：以数值形式记录系统在不同时间点的状态（如 QPS、响应时间、错误率、CPU 使用率），支持实时告警与趋势分析。
日志（Logs）：记录系统运行过程中的离散事件（如请求参数、错误堆栈、业务操作记录），是问题排查的核心依据。
链路追踪（Tracing）：跟踪单个请求在分布式系统中的流转路径，记录每个环节的耗时，定位跨服务调用的性能瓶颈。

2.2 微服务可观测性体系架构

一个完整的微服务可观测性体系需覆盖'数据采集→数据存储→数据分析→可视化→告警'全流程，架构如下：

┌─────────────────────────────────────────────────────────────────┐ │ 微服务集群（user-service/order-service/product-service 等） │ └─┬───────────────┬───────────────┬───────────────┬───────────────┘ │ │ │ │ ┌─▼───────┐ ┌───▼───────┐ ┌───▼───────┐ ┌───▼───────┐ │指标采集 │ │日志采集 │ │链路采集 │ │健康检查 │ │(Prometheus)│ │(Filebeat)│ │(SkyWalking)│ │(Actuator)│ └─┬───────┘ └───┬───────┘ └───┬───────┘ └───┬───────┘ │ │ │ │ ┌─▼───────────────▼───────────────▼───────────────▼───────┐ │ 数据存储层 │ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ │ │ Prometheus │ │Elasticsearch│ │ SkyWalking │ │ │ │（指标存储） │ │（日志存储） │ │（链路存储） │ │ │ └─────────────┘ └─────────────┘ └─────────────┘ │ └─┬───────────────┬───────────────┬───────────────┬─────────┘ │ │ │ │ ┌─▼───────┐ ┌───▼───────┐ ┌───▼───────┐ ┌───▼───────┐ │Grafana │ │ Kibana │ │SkyWalking UI│ │ 告警系统 │ │（指标可视化）│ │（日志分析）│ │（链路分析）│ │(Email/钉钉)│ └─────────┘ └───────────┘ └───────────┘ └───────────┘

相关免费在线工具

Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online
JavaScript 压缩与混淆
Terser 压缩、变量名混淆，或 javascript-obfuscator 高强度混淆（体积会增大）。在线工具，JavaScript 压缩与混淆在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

组件	作用	核心优势
Prometheus	指标采集、存储与查询	时序数据库优化、PromQL 查询灵活、原生支持告警
Grafana	指标可视化与仪表盘定制	支持多数据源、图表类型丰富、配置简单
Filebeat	日志采集与转发	轻量级、低资源消耗、支持日志结构化
Elasticsearch	日志存储与检索	全文检索高效、支持海量日志存储
Kibana	日志可视化与分析	检索功能强大、支持日志聚合分析
SkyWalking	链路追踪、服务依赖分析	无侵入式采集、支持多语言、性能损耗低
Spring Boot Actuator	微服务健康检查与指标暴露	与 Spring Boot 无缝整合、配置简单

工具	适用场景	优势	不足
Prometheus	微服务指标监控、时序数据存储	开源免费、查询灵活、告警能力强	不适合存储非时序数据、长期存储需结合 Thanos
Zabbix	服务器、硬件监控	成熟稳定、支持多设备监控	微服务指标采集能力弱、定制化成本高
InfluxDB	时序数据存储与监控	写入性能高、支持高并发	生态不如 Prometheus 完善

工具组合	适用场景	优势	不足
ELK（Elasticsearch+Logstash+Kibana）	海量日志收集、全文检索	功能强大、检索高效、可视化丰富	Logstash 资源消耗高、部署复杂
EFK（Elasticsearch+Filebeat+Kibana）	海量日志收集、轻量级部署	Filebeat 替代 Logstash，资源消耗低	日志处理能力弱于 Logstash
Loki（Prometheus 生态）	日志与指标协同监控	存储成本低、与 Grafana 无缝整合	全文检索能力弱于 Elasticsearch

工具	适用场景	优势	不足
SkyWalking	微服务链路追踪、服务依赖分析	无侵入式、性能损耗低、支持多语言	生态不如 Jaeger 完善
Jaeger	分布式链路追踪（OpenTelemetry 兼容）	开源免费、与 Kubernetes 整合好	对 Java 微服务的适配不如 SkyWalking
Zipkin	简单链路追踪	部署简单、学习成本低	功能较基础、不支持复杂链路分析

<!-- Spring Boot Actuator：健康检查与指标暴露 -->
<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-actuator</artifactId>
</dependency>
<!-- Micrometer：适配 Prometheus -->
<dependency>
    <groupId>io.micrometer</groupId>
    <artifactId>micrometer-registry-prometheus</artifactId>
</dependency>

management:
  endpoints:
    web:
      exposure:
        include: health,info,prometheus # 暴露的端点（prometheus 为指标端点）
  base-path: /actuator # 端点基础路径（默认/actuator）
  endpoint:
    health:
      show-details: always # 健康检查显示详细信息
  metrics:
    tags:
      application: ${spring.application.name}# 为指标添加应用名称标签（便于区分不同服务）
  export:
    prometheus:
      enabled: true# 启用 Prometheus 指标导出
# 自定义业务指标（可选）
business:
  metrics:
    order-count: 0

import io.micrometer.core.instrument.Counter;
import io.micrometer.core.instrument.MeterRegistry;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Component;

@Component
public class BusinessMetrics {
    // 订单创建计数器（Counter 类型，只增不减）
    private final Counter orderCreateCounter;

    // 注入 MeterRegistry，用于注册自定义指标
    @Autowired
    public BusinessMetrics(MeterRegistry meterRegistry) {
        this.orderCreateCounter = Counter.builder("business.order.create.count")
                .description("订单创建总数")
                .tag("service", "order-service")// 标签：服务名称
                .register(meterRegistry);
    }

    // 订单创建成功时调用（计数 +1）
    public void incrementOrderCreateCount() {
        orderCreateCounter.increment();
    }
}

@RestController
public class OrderController {
    @Autowired
    private BusinessMetrics businessMetrics;

    @GetMapping("/order/{userId}")
    public Order createOrder(@PathVariable Long userId) {
        // 订单创建逻辑（略）
        // 业务指标计数 +1
        businessMetrics.incrementOrderCreateCount();
        return order;
    }
}

# HELP http_server_requests_seconds HTTP server request duration
# TYPE http_server_requests_seconds summary
http_server_requests_seconds_count{application="user-service",exception="None",method="GET",outcome="SUCCESS",status="200",uri="/user/{id}",} 10.0
http_server_requests_seconds_sum{application="user-service",exception="None",method="GET",outcome="SUCCESS",status="200",uri="/user/{id}",} 0.567
# HELP business_order_create_count 订单创建总数
# TYPE business_order_create_count counter
business_order_create_count{service="order-service",} 5.0

global:
  scrape_interval: 15s # 全局采集间隔（默认 15 秒）
  evaluation_interval: 15s # 规则评估间隔（默认 15 秒）
# 告警规则配置（后续讲解）
alerting:
  alertmanagers:
    - static_configs:
        - targets:
            # - alertmanager:9093
# 监控任务配置
scrape_configs:
  # 任务 1：监控 Prometheus 自身
  - job_name: 'prometheus'
    static_configs:
      - targets: ['localhost:9090']
  # 任务 2：监控 user-service
  - job_name: 'user-service'
    metrics_path: '/actuator/prometheus'# 指标端点路径
    static_configs:
      - targets: ['127.0.0.1:8081']# user-service 实例地址（多实例用逗号分隔）
  # 任务 3：监控 order-service
  - job_name: 'order-service'
    metrics_path: '/actuator/prometheus'
    static_configs:
      - targets: ['127.0.0.1:8082']# 任务 4：监控 product-service
  - job_name: 'product-service'
    metrics_path: '/actuator/prometheus'
    static_configs:
      - targets: ['127.0.0.1:8083']

需求	PromQL 查询语句
查询 user-service 的 HTTP 请求总数	`http_server_requests_seconds_count{application="user-service"}`
查询 user-service 的 GET 请求错误率	`sum(http_server_requests_seconds_count{application="user-service",status=~"5.."} / sum(http_server_requests_seconds_count{application="user-service"})) * 100`
查询 order-service 的订单创建总数	`business_order_create_count{service="order-service"}`
查询所有服务的 JVM 堆内存使用量	`jvm_memory_used_bytes{area="heap",application=~".+"}`
查询 user-service 的 P95 响应时间	`http_server_requests_seconds{application="user-service",quantile="0.95"}`

<?xml version="1.0" encoding="UTF-8"?>
<configuration>
    <!-- 日志输出格式（JSON 格式，便于结构化解析） -->
    <property name="LOG_PATTERN" value='{"timestamp":"%d{yyyy-MM-dd HH:mm:ss.SSS}","level":"%p","thread":"%t","logger":"%logger{50}","message":"%msg","service":"${spring.application.name}","traceId":"%X{traceId:-}","exception":"%ex{full}"}'/>
    <!-- 日志存储路径 -->
    <property name="LOG_PATH" value="logs/${spring.application.name}"/>
    <!-- 控制台输出 -->
    <appender name="CONSOLE" class="ch.qos.logback.core.ConsoleAppender">
        <encoder class="ch.qos.logback.core.encoder.LayoutWrappingEncoder">
            <layout class="ch.qos.logback.classic.PatternLayout">
                <pattern>${LOG_PATTERN}</pattern>
            </layout>
            <charset>UTF-8</charset>
        </encoder>
    </appender>
    <!-- 文件输出（按天滚动） -->
    <appender name="FILE" class="ch.qos.logback.core.rolling.RollingFileAppender">
        <file>${LOG_PATH}/app.log</file>
        <rollingPolicy class="ch.qos.logback.core.rolling.TimeBasedRollingPolicy">
            <fileNamePattern>${LOG_PATH}/app-%d{yyyy-MM-dd}.log</fileNamePattern>
            <maxHistory>7</maxHistory><!-- 保留 7 天日志 -->
        </rollingPolicy>
        <encoder class="ch.qos.logback.core.encoder.LayoutWrappingEncoder">
            <layout class="ch.qos.logback.classic.PatternLayout">
                <pattern>${LOG_PATTERN}</pattern>
            </layout>
            <charset>UTF-8</charset>
        </encoder>
    </appender>
    <!-- 根日志级别 -->
    <root level="INFO">
        <appender-ref ref="CONSOLE"/>
        <appender-ref ref="FILE"/>
    </root>
    <!-- 业务日志级别（可单独配置） -->
    <logger name="com.example.order.service" level="DEBUG"/>
</configuration>

cluster.name: elasticsearch-cluster # 集群名称
node.name: node-1# 节点名称
network.host: 0.0.0.0 # 绑定所有 IP（允许外部访问）
http.port: 9200# HTTP 端口
discovery.seed_hosts:["127.0.0.1"]# 种子节点
cluster.initial_master_nodes:["node-1"]# 初始主节点
xpack.security.enabled:false# 关闭安全认证（开发环境）

{
  "name": "node-1",
  "cluster_name": "elasticsearch-cluster",
  "cluster_uuid": "xxx",
  "version": {
    "number": "7.17.0",
    "build_flavor": "default",
    "build_type": "zip",
    "build_hash": "xxx",
    "build_date": "2022-01-28T08:36:04.875279988Z",
    "build_snapshot": false,
    "lucene_version": "8.11.1",
    "minimum_wire_compatibility_version": "6.8.0",
    "minimum_index_compatibility_version": "6.0.0-beta1"
  },
  "tagline": "You Know, for Search"
}

filebeat.inputs:
  - type: filestream
    enabled: true
    paths:
      # 微服务日志文件路径（多个服务用逗号分隔，或新增 inputs）
      - D:\projects\user-service\logs\user-service\app-*.log
      - D:\projects\order-service\logs\order-service\app-*.log
      - D:\projects\product-service\logs\product-service\app-*.log
    fields:
      service: ${spring.application.name}# 自定义字段（服务名称）
# 输出到 Elasticsearch
output.elasticsearch:
  hosts: ["localhost:9200"]# Elasticsearch 地址
  index: "micro-service-logs-%{+yyyy.MM.dd}"# 日志索引名称（按天分割）
# 关闭 Elasticsearch 索引自动创建（可选）
setup.ilm.enabled: false
setup.template.enabled: false
# Kibana 配置（用于自动创建索引模式）
setup.kibana:
  host: "localhost:5601"

server.port: 5601# Kibana 端口
server.host: "0.0.0.0"# 允许外部访问
elasticsearch.hosts: ["http://localhost:9200"]# Elasticsearch 地址
i18n.locale: "zh-CN"# 中文界面

storage:
  selector: ${SW_STORAGE:h2}# 存储类型（h2/elasticsearch/mysql 等）
h2:
  driver: org.h2.jdbcx.JdbcDataSource
  url: jdbc:h2:mem:skywalking-oap-db;DB_CLOSE_DELAY=-1
  user: sa
  metadataQueryMaxSize: 5000

# 应用名称（与微服务名称一致）
agent.service_name=${SW_AGENT_NAME:user-service}
# SkyWalking Server 地址
collector.backend_service=${SW_AGENT_COLLECTOR_BACKEND_SERVICES:127.0.0.1:11800}
# 日志级别
logging.level=INFO

-javaagent:D:\projects\agent\skywalking-agent.jar -DSW_AGENT_NAME=user-service -DSW_AGENT_COLLECTOR_BACKEND_SERVICES=127.0.0.1:11800

import org.apache.skywalking.apm.toolkit.trace.TraceContext;
import org.apache.skywalking.apm.toolkit.trace.Tag;
import org.apache.skywalking.apm.toolkit.trace.Tags;

@RestController
public class OrderController {
    @GetMapping("/order/{userId}")
    @Tags({@Tag(key = "userId", value = "${userId}"), @Tag(key = "productId", value = "1")})
    public Order createOrder(@PathVariable Long userId) {
        // 订单创建逻辑（略）
        // 获取当前 TraceID，添加到日志（已通过 Logback 配置自动实现）
        String traceId = TraceContext.traceId();
        System.out.println("TraceID: " + traceId);
        return order;
    }
}

告警类型	告警指标	阈值建议	告警级别
系统指标	CPU 使用率	持续 5 分钟>80%	警告
系统指标	内存使用率	持续 5 分钟>85%	警告
系统指标	磁盘使用率	持续 10 分钟>90%	严重
应用指标	HTTP 错误率（5xx）	持续 2 分钟>5%	严重
应用指标	平均响应时间	持续 2 分钟>1 秒	警告
应用指标	服务不可用（健康检查失败）	持续 1 分钟	严重
链路指标	链路错误率	持续 2 分钟>5%	严重
链路指标	链路平均耗时	持续 2 分钟>2 秒	警告
日志指标	ERROR 日志数	持续 1 分钟>10 条	警告

告警级别	通知渠道	说明
警告	钉钉群、企业微信群	批量通知，便于团队知晓
严重	短信、电话、邮件 + 钉钉群	紧急通知，确保负责人及时处理

feign:
  client:
    config:
      default:
        connect-timeout: 3000# 连接超时 3 秒
        read-timeout: 5000# 读取超时 5 秒
        retry:
          enabled: true
          max-attempts: 1# 重试 1 次（默认 3 次）

微服务监控与运维体系：构建可观测的 Java 微服务

微服务监控与运维体系：构建可观测的 Java 微服务

一、学习目标与重点

1.1 学习目标

1.2 学习重点

二、微服务可观测性核心概念与体系设计

2.1 为什么需要可观测性？

2.2 微服务可观测性体系架构

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

核心组件说明

2.3 技术选型对比与推荐

2.3.1 监控工具对比

2.3.2 日志工具对比

2.3.3 链路追踪工具对比

三、监控体系实战：Prometheus + Grafana

3.1 核心概念与环境准备

3.1.1 Prometheus 核心概念

3.1.2 环境准备

3.2 微服务指标暴露（Actuator + Micrometer）

3.2.1 引入依赖（以 user-service 为例）

3.2.2 配置 application.yml

3.2.3 暴露自定义业务指标

3.2.4 验证指标暴露

3.3 Prometheus 部署与配置

3.3.1 安装 Prometheus

3.3.2 Prometheus 指标查询（PromQL）

3.4 Grafana 可视化与告警配置

3.4.1 安装与配置 Grafana

3.4.2 添加 Prometheus 数据源

3.4.3 导入微服务监控仪表盘

3.4.4 定制业务指标仪表盘

3.4.5 配置告警规则

四、日志体系实战：ELK/EFK

4.1 核心概念与环境准备

4.1.1 EFK 核心组件

4.1.2 环境准备

4.2 微服务日志配置（Logback）

4.2.1 配置 Logback 日志文件

4.2.2 日志中添加链路追踪 ID（TraceID）

4.3 Elasticsearch 部署

4.4 Filebeat 部署与配置

4.5 Kibana 日志分析实战

4.5.1 Kibana 部署与配置

4.5.2 创建索引模式

4.5.3 日志检索与分析

4.5.4 故障排查示例

五、链路追踪实战：SkyWalking

5.1 核心概念与环境准备

5.1.1 SkyWalking 核心概念

5.1.2 环境准备

5.2 SkyWalking Server 部署

5.3 微服务集成 SkyWalking Agent

5.3.1 配置 SkyWalking Agent

5.3.2 启动微服务时挂载 Agent

5.4 链路追踪实战与分析

5.4.1 触发分布式调用

5.4.2 查看链路追踪数据

5.4.3 服务依赖图分析

5.4.4 性能瓶颈定位示例

5.4.5 业务指标与链路结合

六、微服务运维实战：告警、故障排查与性能优化

6.1 告警体系建设

6.1.1 告警触发条件设计

6.1.2 告警通知渠道选择

6.2 故障排查流程

6.3 性能优化案例

6.3.1 案例 1：数据库慢查询导致接口响应缓慢

6.3.2 案例 2：服务未做限流导致雪崩

6.3.3 案例 3：分布式调用超时导致重试风暴

七、本章总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具