混合云架构 K8s 自动化部署与监控运维实践 | 极客日志

Shell / Bashjava

混合云架构 K8s 自动化部署与监控运维实践

综述由AI生成基于本地虚拟化与阿里云公有云的混合云 K8s 自动化部署平台的搭建过程。内容涵盖环境规划与虚拟化部署、Kubernetes 集群及 containerd 核心组件安装、混合云网络打通（WireGuard）、CI/CD 流水线配置（GitLab、Jenkins、ArgoCD）、监控体系搭建（Prometheus、Grafana、Alertmanager）以及日志服务集成（阿里云 SLS）。文章提供了完整的命令行操作指南、配置文件示例及故障排查方案，旨在实现安全隔离、自动化交付、弹性稳定且可监控的运维体系。

苹果系统发布于 2026/3/30更新于 2026/5/2431 浏览

云原生混合架构 K8s 自动化部署平台

本项目构建了一套'本地虚拟化 + 阿里云公有云'的混合云原生 K8s 自动化部署平台，核心目标是落地安全隔离、自动化交付、弹性稳定且可监控的运维体系，完整覆盖从基础环境搭建到云原生集群部署、服务交付、混合云网络打通的全流程。

1 环境搭建

本阶段核心目标是通过虚拟化技术创建 3 个节点的本地集群（1 个 master 节点+3 个 node 节点），为后续云原生环境测试、CI/CD 组件部署提供基础环境。

1.1 环境规划

节点角色	CPU	内存	磁盘	IP 规划（桥接模式）
master 节点（master）	2 核	8G	50G	192.168.0.200
node1 节点（node1）	2 核	8G	50G	192.168.0.201
node2 节点（node2）	2 核	8G	50G	192.168.0.202
node3 节点（node3）	2 核	8G	50G	192.168.0.203
阿里云 ECS(Jenkins)	2 核	4G	40G	弹性公网 IP
阿里云 ECS(Gitlab)	2 核	8G	40G	弹性公网 IP
阿里云 ACR 容器镜像服务	-	-	-	-
阿里云 SLS 日志服务	-	-	-	-

1.2 技术栈总览

虚拟化层：VMware Workstation 17 Pro、Ubuntu 22.04；
云原生核心：Kubernetes 1.32.10、containerd 1.7.18、Calico CNI；
公有云服务（阿里云）：ECS、SLS、ACR；
CI/CD 链路：GitLab、Jenkins、ArgoCD；
监控体系：Prometheus、Grafana、Alertmanager。

1.3 虚拟机创建与系统部署

打开 VMware，创建新虚拟机，选择'自定义（高级）'模式，硬件兼容性默认；
选择 Ubuntu 镜像文件（22.04.5），设置虚拟机名称与存储路径；
按规划配置 CPU、内存，网络选择'桥接模式'（确保虚拟机可访问外网，使用桥接后续与 ECS 网络互通比较方便）；
磁盘选择'创建新虚拟磁盘'，容量 50G，勾选'将虚拟磁盘拆分为多个文件'；
启动虚拟机，安装 Ubuntu 系统：设置 root 密码（统一为 Root@123456，测试环境简化），分区选择'自动分区'，等待安装完成后重启；
克隆虚拟机：右键已创建的 master 节点虚拟机，选择'克隆'，创建完整克隆，分别命名为 node1、node2，避免重复安装系统；

修改各节点网络配置：

# 编辑网络配置文件，固定静态 ip
vim /etc/netplan/50-cloud-init.yaml
network:
  ethernets:
    ens32:
      dhcp4: no
      addresses: [192.168.0.200/24]
      routes:
        - to: default via: 192.168.0.1
      nameservers:
        addresses: [223.5.5.5, 114.114.114.114]
      version: 2

netplan apply

vim /etc/fstab # 注释#/swap.img none swap sw 0 0

hostnamectl set-hostname master
hostnamectl set-hostname node1
hostnamectl set-hostname node2

curl -fsSL https://download.docker.com/linux/ubuntu/gpg | gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg

apt update && apt upgrade -y
apt install -y ca-certificates curl gnupg lsb-release apt-transport-https software-properties-common

# 加载必需内核模块（overlay/br_netfilter，容器存储/网络依赖）
modprobe overlay
modprobe br_netfilter
cat > /etc/modules-load.d/containerd.conf <<EOF
overlay
br_netfilter
EOF
# 配置内核网络参数（确保容器网络转发/端口映射正常）
cat > /etc/sysctl.d/99-containerd.conf <<EOF
net.bridge.bridge-nf-call-iptables = 1
net.bridge.bridge-nf-call-ip6tables = 1
net.ipv4.ip_forward = 1
EOF
sysctl --system

# 查看系统发行版本代号
lsb_release -cs
# 添加软件源
echo "deb [arch=$(dpkg --print-architecture) signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu jammy stable" | tee /etc/apt/sources.list.d/docker.list > /dev/null

vim /etc/hosts
192.168.121.100 master
192.168.121.101 node1
192.168.121.102 node2

vim ~/.bashrc
export http_proxy="http://[代理 IP]:7890"
export https_proxy="http://[代理 IP]:7890"
export no_proxy="192.168.0.0/24, localhost, 127.0.0.1, 10.96.0.0/12, 10.20.0.0/16, cluster.local, .svc, .svc.cluster.local, 192.168.0.200"

# 添加 docker 官方 GPG 密钥
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
# 更新系统并安装基础依赖
apt update && apt upgrade -y
apt install -y ca-certificates curl gnupg lsb-release apt-transport-https software-properties-common
# 加载必需内核模块（overlay/br_netfilter，容器存储/网络依赖）
modprobe overlay
modprobe br_netfilter
cat > /etc/modules-load.d/containerd.conf <<EOF
overlay
br_netfilter
EOF
# 配置内核网络参数（确保容器网络转发/端口映射正常）
cat > /etc/sysctl.d/99-containerd.conf <<EOF
net.bridge.bridge-nf-call-iptables = 1
net.bridge.bridge-nf-call-ip6tables = 1
net.ipv4.ip_forward = 1
EOF
sysctl --system

# 查看系统发行版本代号
lsb_release -cs
# 添加软件源
echo "deb [arch=$(dpkg --print-architecture) signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu focal stable" | tee /etc/apt/sources.list.d/docker.list > /dev/null

apt update
apt install -y containerd.io=1.7.18-1

# 生成默认配置文件（containerd 无默认配置，需手动生成）
mkdir -p /etc/containerd
containerd config default > /etc/containerd/config.toml
# 配置 systemd cgroup 驱动
# 结合 runc 使用 systemd cgroup 驱动，在 /etc/containerd/config.toml 中设置：
# [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc]...
# [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc.options]
# SystemdCgroup = true
# 一键修改 SystemdCgroup = true（适配 Ubuntu 的 systemd 管理）
sed -i 's/SystemdCgroup = false/SystemdCgroup = true/g' /etc/containerd/config.toml
# 替换镜像仓库为国内
sed -i 's/registry.k8s.io\/pause/registry.aliyuncs.com\/google_containers\/pause/g' /etc/containerd/config.toml
# 重启服务使配置生效
systemctl restart containerd && systemctl enable containerd

root@master:/# ctr image pull docker.io/library/busybox:alpine
WARN[0000] Config "/etc/crictl.yaml" does not exist, trying next: "/usr/bin/crictl.yaml"
WARN[0000] Image connect using default endpoints: [unix:///run/containerd/containerd.sock unix:///run/crio/crio.sock unix:///var/run/cri-dockerd.sock]. As the default settings are now deprecated, you should set the endpoint instead.
E1202 00:06:16.457412 16804 log.go:32]"PullImage from image service failed"err="rpc error: code = Unknown desc = failed to pull and unpack image \"docker.io/library/busybox:alpine\": failed to resolve reference \"docker.io/library/busybox:alpine\": failed to do request: Head \"https://registry-1.docker.io/v2/library/busybox/manifests/alpine\": dial tcp 54.89.135.129:443: connect: connection refused"image="docker.io/library/busybox:alpine"
FATA[0020] pulling image: failed to pull and unpack image "docker.io/library/busybox:alpine": failed to resolve reference "docker.io/library/busybox:alpine": failed to do request: Head "https://registry-1.docker.io/v2/library/busybox/manifests/alpine": dial tcp 54.89.135.129:443: connect: connection refused

# 配置 crictl 指定容器运行时端点解决警告
vim /etc/crictl.yaml
runtime-endpoint: unix:///run/containerd/containerd.sock
image-endpoint: unix:///run/containerd/containerd.sock
timeout: 10
debug: false
pull-image-on-create: false

# 如果没有/etc/containerd/config.toml，先生成默认配置：
containerd config default > /etc/containerd/config.toml
# 网络代理
# 创建代理配置文件
mkdir -p /etc/systemd/system/containerd.service.d
cat > /etc/systemd/system/containerd.service.d/proxy.conf <<EOF
[Service]
Environment="HTTP_PROXY=http://[代理 IP]:7890"
Environment="HTTPS_PROXY=http://[代理 IP]:7890"
Environment="NO_PROXY=localhost,127.0.0.1,10.0.0.0/8,192.168.0.0/16,172.16.0.0/12,*.local,kubernetes.default,service,*.cluster.local,192.168.0.200,192.168.0.*,crpi-2pnpj68s945gixnz.cn-shenzhen.personal.cr.aliyuncs.com"
EOF
# 重新加载配置并重启
systemctl daemon-reload
systemctl restart containerd
root@master1:~# ctr image pull docker.io/library/nginx:latest
Image is up to date for sha256:d4918ca7576a537caa7b0c043051c8efc1796de33fee8724ee0fff4a1cabed9

# 下载对应版本
curl -L https://github.com/containerd/nerdctl/releases/download/v1.7.0/nerdctl-1.7.0-linux-amd64.tar.gz -o nerdctl.tar.gz
# 解压到系统路径
sudo tar Cxzvf /usr/local/bin nerdctl.tar.gz nerdctl
# 验证安装
nerdctl version
# 常用命令
# 查看指定命名空间的镜像
nerdctl -n 命名空间名称 images
# 删除指命名空间的镜像
nerdctl -n 命名空间名称 rm
# 语法适配 docker，差别就是 docker 变成了 nerdctl，在命令前需要指定命名空间
nerdctl -n 命名空间名称 (images/rm/tag/rmi/stop/pull/push)

# 配置内核参数（开启 IPVS/IP 转发）
# 加载内核模块
sudo tee /etc/modules-load.d/k8s.conf <<EOF
overlay
br_netfilter
ip_vs
ip_vs_rr
ip_vs_wrr
ip_vs_sh
nf_conntrack
EOF
sudo modprobe overlay && sudo modprobe br_netfilter && sudo modprobe ip_vs
# 配置 sysctl 参数
sudo tee /etc/sysctl.d/k8s.conf <<EOF
net.bridge.bridge-nf-call-iptables = 1
net.bridge.bridge-nf-call-ip6tables = 1
net.ipv4.ip_forward = 1
EOF
sudo sysctl --system
# 生效配置
# 更新 apt 包索引
apt-get update
# 安装 k8s apt 仓库需要的包
apt-get install -y apt-transport-https ca-certificates curl gpg
# 下载用于 k8s 软件包仓库的公共签名密钥
curl -fsSL https://pkgs.k8s.io/core:/stable:/v1.32/deb/Release.key | sudo gpg --dearmor -o /etc/apt/keyrings/kubernetes-apt-keyring.gpg
# 添加 K8s apt 仓库
echo 'deb [signed-by=/etc/apt/keyrings/kubernetes-apt-keyring.gpg] https://pkgs.k8s.io/core:/stable:/v1.32/deb/ /' | sudo tee /etc/apt/sources.list.d/kubernetes.list
# 更新 apt 包索引，安装 kubelet、kubeadm 和 kubectl，并锁定版本
sudo apt-get update
sudo apt-get install -y kubelet kubeadm kubectl
sudo apt-mark hold kubelet kubeadm kubectl

sed -i 's#sandbox_image = "registry.aliyuncs.com/google_containers/pause:3.8"#sandbox_image = "registry.aliyuncs.com/google_containers/pause:3.10"#g' /etc/containerd/config.toml

# kubeadm 初始化集群
root@master:~# vim kubeadm-config.yaml
apiVersion: kubeadm.k8s.io/v1beta4
kind: ClusterConfiguration
kubernetesVersion: v1.32.10
imageRepository: registry.aliyuncs.com/google_containers # 阿里云镜像源（解决拉取镜像慢）
networking:
  podSubnet: 10.20.0.0/16 # 需和后续部署的网络插件网段匹配（如 Calico 适配此网段）
controlPlaneEndpoint: "192.168.0.200:6443" # apiserver 对外地址
---
apiVersion: kubeadm.k8s.io/v1beta4
kind: InitConfiguration
nodeRegistration:
  ignorePreflightErrors:
    - SystemVerification # 忽略 cgroups v1 警告
  criSocket: unix:///run/containerd/containerd.sock # containerd 套接字（正确格式）
  kubeletExtraArgs:
    - name: cgroup-driver
      value: "systemd" # 需和 containerd 的 cgroup 驱动一致（默认就是 systemd）
  localAPIEndpoint:
    advertiseAddress: 192.168.0.200 # master 节点 IP（和 controlPlaneEndpoint 保持一致）
    bindPort: 6443
root@master:~# kubeadm init --config=kubeadm-config.yaml
# 初始化成功后会有添加节点命令
kubeadm join 192.168.0.200:6443 --token zwf3h4.qcy63iq2avjnflvt --discovery-token-ca-cert-hash sha256:7de5455af5d69939dfb49379f85d7f4f96e9a7962920569a8f29b4ca3079d21e

# 配置 kubectl 的配置文件 config，相当于对 kubectl 进行授权，这样 kubectl 命令可以使用这个证书对 k8s 集群进行管理
root@master:~# mkdir -p $HOME/.kube
root@master:~# sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
root@master:~# sudo chown $(id -u):$(id -g) $HOME/.kube/config

# 在每一个工作节点输入
kubeadm join 192.168.121.100:6443 --token e6p5bq.bqju9z9dqwj2ydvy --discovery-token-ca-cert-hash sha256:9b3750aedaed5c1c3f95f689ce41d7da1951f2bebba6e7974a53e0b20754a09d

root@master:~# kubectl label node node1 node-role.kubernetes.io/work=work
root@master:~# kubectl label node node2 node-role.kubernetes.io/work=work
root@master:~# kubectl label node node3 node-role.kubernetes.io/work=work

# 下载 Calico 配置文件（适配 k8s 1.32）
root@master:~# curl -O https://raw.githubusercontent.com/projectcalico/calico/v3.30.0/manifests/calico.yaml
# 部署 calico
root@master:~# kubectl apply -f calico.yaml
# 验证网络插件状态（等待所有 Pod Running）
kubectl get pods -n kube-system -w

# 安装 bash-completion
apt update && apt install -y bash-completion
# 将 kubectl 补全写入 bashrc 配置文件
echo "source <(kubectl completion bash)" >> ~/.bashrc
# 生效配置
source ~/.bashrc

# 1. 确认 containerd 1.7.18 运行状态
systemctl status containerd
# 2. 确认 k8s 集群节点状态（1master+2node 均为 Ready）
kubectl get nodes
# 3. 确认虚拟机网络可达阿里云（ping OSS endpoint 测试）
ping oss-cn-hangzhou.aliyuncs.co

root@master:~# crictl pull nginx:latest
Image is up to date for sha256:058f4935d1cbc026f046e4c7f6ef3b1d778170ac61f293709a2fc89b1cff7009
root@master:~# crictl images
IMAGE TAG IMAGE ID SIZE
docker.io/calico/cni v3.30.0 15f996c472622 71.8MB
docker.io/calico/node v3.30.0 d12dae9bc0999 156MB
docker.io/library/nginx latest 058f4935d1cbc 59.8MB
registry.aliyuncs.com/google_containers/coredns v1.11.3 c69fa2e9cbf5f 18.6MB
registry.aliyuncs.com/google_containers/etcd 3.5.24-0 8cb12dd0c3e4 23.7MB
registry.aliyuncs.com/google_containers/kube-apiserver v1.32.10 77f8b0de97da9 29.1MB
registry.aliyuncs.com/google_containers/kube-controller-manager v1.32.10 34e0beef266f 26.6MB
registry.aliyuncs.com/google_containers/kube-proxy v1.32.10 db4bcdca85a39 31.2MB
registry.aliyuncs.com/google_containers/kube-scheduler v1.32.10 fd6f6aae834c2 21.1MB
registry.aliyuncs.com/google_containers/pause 3.10 873ed75102791 320kB
registry.aliyuncs.com/google_containers/pause 3.8 4873874c08ef 311kB

# 官方命令
# docker login --username=[您的用户名] [您的阿里云镜像仓库地址]
root@master:~# nerdctl login --username=[您的用户名] [您的阿里云镜像仓库地址]
Enter Password:
WARNING: Your password will be stored unencrypted in /root/.docker/config.json. Configure a credential helper to remove this warning. See https://docs.docker.com/engine/reference/commandline/login/#credentials-store
Login Succeeded

# 官方命令
# docker tag [ImageId] [您的阿里云镜像仓库地址]/product-service-test/product-service:[镜像版本号]
root@master:~# nerdctl -n k8s.io tag docker.io/library/nginx:latest [您的阿里云镜像仓库地址]/product-service-test/product-service:v1
root@master:~# nerdctl -n k8s.io images
REPOSITORY TAG IMAGE ID CREATED PLATFORM SIZE BLOB SIZE
[您的阿里云镜像仓库地址]/product-service-test/product-service v1 ca871a86d45a 9 seconds ago linux/amd64 157.5 MiB 57.0 MiB
# 官方命令
# docker push [您的阿里云镜像仓库地址]/product-service-test/product-service:[镜像版本号]
root@master:~# nerdctl -n k8s.io push [您的阿里云镜像仓库地址]/product-service-test/product-service:v1
INFO[0000] pushing as a reduced-platform image (application/vnd.oci.image.index.v1+json, sha256:32502741bf9dbc4ad2c22e24f46c001506711f5bb7d674ac043aaa3242326ef3) index-sha256:32502741bf9dbc4ad2c22e24f46c001506711f5bb7d674ac043aaa3242326ef3: done|++++++++++++++++++++++++++++++++++++++| manifest-sha256:8c39d819008c669731d333c44c766c1d9de3492beb03f8fc035bb5ef7081000: done|++++++++++++++++++++++++++++++++++++++| config-sha256:058f4935d1cbc026f046e4c7f6ef3b1d778170ac61f293709a2fc89b1cff7009: done|++++++++++++++++++++++++++++++++++++++| elapsed: 1.3 s

root@master:~/yaml/product-service# vim product-service-welcome-cm.yaml
apiVersion: v1
kind: ConfigMap
metadata:
  name: welcome-nginx-cm
  namespace: product
data:
  index.html: |<!DOCTYPE html><html><head><title>Welcome</title></head><body><h1>v1</h1></body></html>

root@master:~# mkdir yaml
root@master:~# cd yaml
# 部署 local-path-provisioner
kubectl apply -f https://raw.githubusercontent.com/rancher/local-path-provisioner/v0.0.24/deploy/local-path-storage.yaml
root@master:~/yaml# vim sc-local-path.yaml
apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
  name: local-path
provisioner: rancher.io/local-path
reclaimPolicy: Delete
allowVolumeExpansion: true
volumeBindingMode: WaitForFirstConsumer
parameters:
  pathPattern: "/var/lib/local-path-provisioner"
root@master:~/yaml# kubectl apply -f sc-local-path.yaml
root@master:~/yaml# kubectl get sc
NAME PROVISIONER RECLAIMPOLICY VOLUMEBINDINGMODE ALLOWVOLUMEEXPANSION AGE
local-path rancher.io/local-path Delete WaitForFirstConsumer true 68m

# 创建命名空间
root@master:~/yaml# kubectl create ns product
root@master:~/yaml# vim product-service-pvc.yaml
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: product-service-pvc
  namespace: product
spec:
  accessModes:
    - ReadWriteOnce
  storageClassName: local-path
  resources:
    requests:
      storage: 10Gi
# 应用 PVC 配置
root@master:~/yaml# kubectl apply -f product-service-pvc.yaml
root@master:~/yaml# kubectl get pvc -n product
NAME STATUS VOLUME CAPACITY ACCESS MODES STORAGECLASS VOLUMEATTRIBUTESCLASS AGE
product-service-pvc Bound pvc-f9f2916d-98ba-4435-aa80-ffcfb342cd6a 10Gi RWO local-path <unset> 69m
root@master:~/yaml# kubectl get pv -n product
NAME CAPACITY ACCESS MODES RECLAIM POLICY STATUS CLAIM STORAGECLASS VOLUMEATTRIBUTESCLASS REASON AGE
pvc-f9f2916d-98ba-4435-aa80-ffcfb342cd6a 10Gi RWO Delete Bound product/product-service-pvc local-path <unset> 68m <unset> 60m

# 需要先创建凭证否则无权限拉取私有镜像
kubectl create secret docker-registry acr-pull-secret \
  --namespace=product \
  --docker-server=[您的阿里云镜像仓库地址] \
  --docker-username=[您的用户名] \
  --docker-password='[您的密码]'
# 创建商品服务部署配置文件
root@master:~/yaml# vim product-service-deploy.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: product-service
  namespace: product
spec:
  replicas: 3
  selector:
    matchLabels:
      app: product-service
  # 滚动更新配置
  strategy:
    type: RollingUpdate
    rollingUpdate:
      maxSurge: 1
      maxUnavailable: 0
  template:
    metadata:
      labels:
        app: product-service
    spec:
      imagePullSecrets:
        - name: acr-pull-secret # ACR 密钥
      affinity:
        nodeAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            # 硬亲和性
            nodeSelectorTerms:
              - matchExpressions:
                  - key: kubernetes.io/hostname # 按节点名匹配（指定只调度到 node2）
                    operator: In
                    values:
                      - node2
      containers:
        - name: product-service
          image: [您的阿里云镜像仓库地址]/product-service-test/product-service:v1
          ports:
            - containerPort: 80
          # 挂载 ConfigMap
          volumeMounts:
            - name: welcome-page
              mountPath: /usr/share/nginx/html/index.html
              subPath: index.html
            - name: product-data
              mountPath: /data
          # 资源限制
          resources:
            limits:
              cpu: 500m
              memory: 512Mi
            requests:
              cpu: 200m
              memory: 256Mi
          # 健康检查
          livenessProbe:
            httpGet:
              path: /
              port: 80
            initialDelaySeconds: 5
            periodSeconds: 10
          readinessProbe:
            httpGet:
              path: /
              port: 80
            initialDelaySeconds: 3
            periodSeconds: 5
      volumes:
        - name: welcome-page
          configMap:
            name: welcome-nginx-cm
            items:
              - key: index.html
                path: index.html
        - name: product-data
          persistentVolumeClaim:
            claimName: product-service-pvc
# 应用
root@master:~/yaml# kubectl apply -f product-service-deploy.yaml
deployment.apps/product-service configured
root@master:~/yaml# kubectl get pod -n product
NAME READY STATUS RESTARTS AGE
product-service-65dff7d8d4-b8lc7 1/1 Running 0 6s
product-service-65dff7d8d4-czc7w 1/1 Running 0 4s
product-service-65dff7d8d4-gcpsp 1/1 Running 0 5s

root@master:~/yaml# vim product-service-svc.yaml
apiVersion: v1
kind: Service
metadata:
  name: product-service-nodeport
  namespace: product
  labels:
    app: product-service
spec:
  # 类型为 NodePort，用于暴露到节点端口，暂时暴露测试页面内容以及后续 ci/cd 版本变化
  type: NodePort
  selector:
    app: product-service
  # 端口映射配置
  ports:
    - name: http
      port: 80
      targetPort: 80
      # NodePort 端口（范围 30000-32767，固定一个方便测试）
      nodePort: 30080
      protocol: TCP
---
apiVersion: v1
kind: Service
metadata:
  name: product-service
  namespace: product
spec:
  selector:
    app: product-service
  ports:
    - port: 80
      targetPort: 8080
  type: ClusterIP
root@master:~/yaml# kubectl apply -f product-service-svc.yaml
service/product-service created
root@master:~/yaml/product-service# kubectl get svc -n product
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
product-service-nodeport NodePort 10.107.131.224 <none>80:30080/TCP 17h

# 下载官方部署文件
root@master:~/yaml# wget https://github.com/kubernetes-sigs/metrics-server/releases/latest/download/components.yaml
# 修改 Metrics Server 部署，跳过 kubelet TLS 验证
root@master:~/yaml# vim components.yaml
spec:
  containers:
    - args:
        - --kubelet-insecure-tls # 添加此行
        - --cert-dir=/tmp
        - --secure-port=10250
        - --kubelet-preferred-address-types=InternalIP,ExternalIP,Hostname
        - --kubelet-use-node-status-port
        - --metric-resolution=15s
root@master:~/yaml# kubectl apply -f components.yaml
root@master:~/yaml# vim product-service-hpa.yaml
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: product-service-hpa
  namespace: product
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: product-service
  minReplicas: 2
  maxReplicas: 10
  metrics:
    - type: Resource
      resource:
        name: cpu
        target:
          type: Utilization # 基于资源使用率
          averageUtilization: 50 # 目标 CPU 平均使用率：50%
  behavior:
    scaleUp:
      stabilizationWindowSeconds: 30 # 扩容前稳定观察时间（避免抖动）
      policies:
        - type: Percent # 按百分比扩容
          value: 50 # 每次扩容 50% 的当前副本数
          periodSeconds: 60 # 扩容间隔（60 秒内仅触发一次）
    scaleDown:
      stabilizationWindowSeconds: 600 # 缩容前稳定观察时间（默认 5 分钟，避免缩容过快）
      policies:
        - type: Percent
          value: 30
          periodSeconds: 60
root@master:~/yaml# kubectl apply -f product-service-hpa.yaml
horizontalpodautoscaler.autoscaling/product-service-hpa created
root@master:~/yaml# kubectl get hpa -n product
NAME REFERENCE TARGETS MINPODS MAXPODS REPLICAS AGE
product-service-hpa Deployment/product-service cpu: 0%/50% 2103 97s

服务	协议	访问来源	访问目的
WireGuard 监听端口	UDP	本机 ip	51820
GitLab	TCP	本机 ip + vpc 专有网络网段 + jenkins 公网 ip	443
GitLab	TCP	本机 ip + vpc 专有网络网段 + jenkins 公网 ip	80
GitLab ssh 端口	TCP	所有 ip	2222
jenkins	TCP	本机 ip + vpc 专有网络网段 + gitlab 公网 ip	8080
jenkins	TCP	本机 ip + vpc 专有网络网段	50000

# 启动（自动加载配置）
wg-quick up wg0
# 停止
wg-quick down wg0
# 重启
wg-quick down wg0 && wg-quick up wg0
# 显示所有接口状态
wg show
# 显示指定接口状态
wg show wg0
# 显示接口详细信息（包括私钥、监听端口等）
wg show wg0 dump

apt update
apt install wireguard -y
# 生成 ECS 端密钥
mkdir -p /etc/wireguard
cd /etc/wireguard
# 生成私钥
sudo wg genkey | sudo tee private.key | sudo wg pubkey > public.key
# 私钥
root@iZwz9cnnlu0g55olnxfuw4Z:/etc/wireguard# cat private.key
YG9CkSAnVIy4F8hIiE6ugma5xcgDiT5bMqqTRcy0M2M=
# 公钥
root@iZwz9cnnlu0g55olnxfuw4Z:/etc/wireguard# cat public.key
k5FafPFqLcQG6MhkIrHy8U2fg5bhN/VgDpXqmiVgwls=

# 创建配置文件/etc/wireguard/wg0.conf
vim /etc/wireguard/wg0.conf
[Interface]
# ECS 在 VPN 网络中的内网 IP（固定为 10.255.255.1/24）
Address = 10.255.255.1/24
# WireGuard 监听端口（默认 51820，需放行 UDP）
ListenPort = 51820
# ECS 的 WireGuard 私钥（替换为第一步生成的 ecs_private.key 内容）
PrivateKey = YJUSqwLfS/VZWsC8qBXPxdIiilsRBUnbZszPtrKoN0A=
# 启动时配置转发和 NAT（eth0 替换为 ECS 实际网卡名，执行 ip addr 查看）
PostUp = iptables -A FORWARD -i wg0 -j ACCEPT
PostUp = iptables -t nat -A POSTROUTING -o eth0 -j MASQUERADE
PostUp = ip6tables -A FORWARD -i wg0 -j ACCEPT # 可选（IPv6）
PostUp = ip6tables -t nat -A POSTROUTING -o eth0 -j MASQUERADE # 可选（IPv6）
# 停止时清理规则
PostDown = iptables -D FORWARD -i wg0 -j ACCEPT
PostDown = iptables -t nat -D POSTROUTING -o eth0 -j MASQUERADE
PostDown = ip6tables -D FORWARD -i wg0 -j ACCEPT # 可选（IPv6）
PostDown = ip6tables -t nat -D POSTROUTING -o eth0 -j MASQUERADE # 可选（IPv6）
# 本地 K8s master（添加 Peer 段，每个 K8s 节点对应一个 Peer）
[Peer]
# K8s 节点 1 的公钥（替换为第一步生成的 k8s_public.key 内容）
PublicKey = 8JAEThs8LkcYv27YBc1ROVX2QMD9TODwsYKuUmLHyRI=
# 允许的 IP：K8s 节点 1 的 VPN IP + K8s 集群的 Pod 网段 + Service 网段
# 10.255.255.2/32（节点 VPN IP）+ 192.168.0.0/24（本地节点网段）
AllowedIPs = 10.255.255.2/32, 192.168.0.0/24
# 启动
systemctl enable wg-quick@wg0
systemctl start wg-quick@wg0
# 检查状态
root@jenkins:/etc/wireguard# wg show wg0
interface: wg0
public key: fwNl1Us9Hk0oEebqGLdi8Bo9NyeiFoUAIYYeX5qdsHI=
private key: (hidden)
listening port: 51820
peer: 8JAEThs8LkcYv27YBc1ROVX2QMD9TODwsYKuUmLHyRI=
allowed ips: 10.255.255.2/32, 192.168.0.0/24

# 创建配置文件/etc/wireguard/wg0.conf
vim /etc/wireguard/wg0.conf
[Interface]
# 该 K8s 节点的 VPN IP（与 ECS 的 Peer 段 AllowedIPs 对应，如节点 1 为 10.255.255.2/24）
Address = 10.255.255.2/24
# 该 K8s 节点的 WireGuard 私钥（替换为 k8s_private.key 内容）
PrivateKey = iHhpTPwdNSl4cCYCPmOGyUDU46gcAtuNlsRn1QqTOVg=
# 可选：客户端监听端口（自动随机分配，可省略）
# ListenPort = 51820
# 启动时添加路由（确保 K8s 网段能转发到 VPN）
PostUp = sysctl -w net.ipv4.ip_forward=1
# 若 K8s 使用 calico/flannel 等 CNI，需确保路由不冲突，可添加自定义路由（可选）
# PostUp = ip route add ECS 侧网段 via 10.255.255.1 dev wg0
[Peer]
# ECS 的公钥（替换为 ecs_public.key 内容）
PublicKey = fwNl1Us9Hk0oEebqGLdi8Bo9NyeiFoUAIYYeX5qdsHI=
# 允许的 IP：ECS 的 VPN IP + ECS 侧需要访问的网段（如 ECS 内网 IP、阿里云其他服务网段）
# 0.0.0.0/0 表示所有流量走 VPN，填 ECS VPN IP+ECS 所属交换机网段）
AllowedIPs = 10.255.255.1/32, 10.0.10.0/24
# ECS 的公网 IP + WireGuard 端口
Endpoint = [ECS 公网 IP]:51820
# 保持连接（防止隧道断开）
PersistentKeepalive = 25
# 启动
systemctl enable wg-quick@wg0
systemctl start wg-quick@wg0
root@master:/etc/wireguard# wg show
interface: wg0
public key: 8JAEThs8LkcYv27YBc1ROVX2QMD9TODwsYKuUmLHyRI=
private key: (hidden)
listening port: 37352
peer: fwNl1Us9Hk0oEebqGLdi8Bo9NyeiFoUAIYYeX5qdsHI=
endpoint: [ECS 公网 IP]:51820
allowed ips: 10.255.255.1/32, 10.0.10.0/24
latest handshake: 4 seconds ago
transfer: 92 B received, 180 B sent
persistent keepalive: every 25 seconds
# 在本地 K8s 节点执行（添加 iptables 转发规则）
ens32 替换为实际网卡名
# 1. 允许 wg0（VPN）↔ ens32（物理网卡）的流量转发
iptables -A FORWARD -i wg0 -o ens32 -j ACCEPT
iptables -A FORWARD -i ens32 -o wg0 -j ACCEPT

# 编辑 calico-node 的 DaemonSet 配置
kubectl edit ds calico-node -n kube-system
# 在配置中找到 spec.template.spec.containers.env 部分，添加以下环境变量：
- name: IP_AUTODETECTION_METHOD
  value: "interface=ens32" # 强制 Calico 使用 ens32 接口，避开 wg0
- name: CALICO_NETWORK_INTERFACE
  value: "ens32" # 兼容旧版本 Calico

root@master:~# ping 10.255.255.1
PING 10.255.255.1 (10.255.255.1) 56(84) bytes of data.
64 bytes from 10.255.255.1: icmp_seq=1 ttl=64 time=20.8 ms
64 bytes from 10.255.255.1: icmp_seq=2 ttl=64 time=22.3 ms
64 bytes from 10.255.255.1: icmp_seq=3 ttl=64 time=21.3 ms
^C
--- 10.255.255.1 ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2003ms
rtt min/avg/max/mdev = 20.815/21.464/22.275/0.606 ms
root@master:~# ping 10.0.10.45
PING 10.0.10.45 (10.0.10.45) 56(84) bytes of data.
64 bytes from 10.0.10.45: icmp_seq=1 ttl=64 time=22.2 ms
64 bytes from 10.0.10.45: icmp_seq=2 ttl=64 time=20.9 ms
64 bytes from 10.0.10.45: icmp_seq=3 ttl=64 time=21.3 ms
^C
--- 10.0.10.45 ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2003ms
rtt min/avg/max/mdev = 20.913/21.498/22.240/0.552 ms
root@master:~# telnet 10.0.10.45 22
Trying 10.0.10.45...
Connected to 10.0.10.45.
Escape character is '^]'.
SSH-2.0-OpenSSH_8.9p1 Ubuntu-3ubuntu0.13
# 可以看到测试全部 ping 通

root@iZwz9cnnlu0g55olnxfuw4Z:/etc/wireguard# ping 10.255.255.2
PING 10.255.255.2 (10.255.255.2) 56(84) bytes of data.
64 bytes from 10.255.255.2: icmp_seq=1 ttl=64 time=20.9 ms
64 bytes from 10.255.255.2: icmp_seq=2 ttl=64 time=21.4 ms
64 bytes from 10.255.255.2: icmp_seq=3 ttl=64 time=21.0 ms
^C
--- 10.255.255.2 ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2003ms
rtt min/avg/max/mdev = 20.873/21.103/21.424/0.233 ms
root@iZwz9cnnlu0g55olnxfuw4Z:/etc/wireguard# ping 192.168.121.100
PING 192.168.121.100 (192.168.121.100) 56(84) bytes of data.
64 bytes from 192.168.121.100: icmp_seq=1 ttl=64 time=21.0 ms
64 bytes from 192.168.121.100: icmp_seq=2 ttl=64 time=20.8 ms
64 bytes from 192.168.121.100: icmp_seq=3 ttl=64 time=20.5 ms
^C
--- 192.168.121.100 ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2001ms
rtt min/avg/max/mdev = 20.541/20.778/20.956/0.174 ms
# 测试完成本地与 ecs 网络互通

root@iZwz90hzjc4m3pd9ick3miZ:~# hostnamectl set-hostname gitlab
root@iZwz90hzjc4m3pd9ick3miZ:~# su
# 安装 docker-compose
root@gitlab:~# apt install -y docker-compose
root@gitlab:~# docker-compose --version
docker-compose version 1.25.0, build unknown

# 创建三个核心目录（配置、数据、日志）
root@gitlab:~# mkdir -p /data/gitlab/{config,data,logs}
# 设置目录权限（避免容器读写权限不足）
root@gitlab:~# chmod -R 777 /data/gitlab

root@gitlab:~# vim docker-compose.yml
version: '3'
services:
  gitlab:
    image: gitlab/gitlab-ce:14.3.6-ce.0
    container_name: gitlab
    privileged: true
    restart: always
    ports:
      - "80:80"
      - "443:443"
      - "2222:22"
    volumes:
      - /data/gitlab/config:/etc/gitlab
      - /data/gitlab/data:/var/opt/gitlab
      - /data/gitlab/logs:/var/log/gitlab
    environment:
      - TZ=Asia/Shanghai
      - GITLAB_OMNIBUS_CONFIG=external_url 'http://[ECS 公网 IP]'; gitlab_rails['gitlab_shell_ssh_port']=2222;
# external_url：必须填写 ECS 公网 IP，否则访问会报错；
# gitlab_shell_ssh_port：对应主机映射的 2222 端口，后续克隆代码需用此端口；

root@gitlab:~# docker-compose up -d
Creating network "root_default" with the default driver
Pulling gitlab (gitlab/gitlab-ce:latest)...
latest: Pulling from gitlab/gitlab-ce
7b1a6ab2e44d: Pull complete
6c37b8f20a77: Pull complete
f509191f201: Pull complete
bb6bfd7806: Pull complete
2c03ae5f5fcd: Pull complete
8311111743: Pull complete
499fee924bc: Pull complete
6667fb304: Pull complete
Digest: sha256:5a0b03f09ab2f2634ecc6bfeb41521d19329cf4c9bbf330227117c048e75163
Status: Downloaded newer image for gitlab/gitlab-ce:latest
Creating gitlab ... done
# 查看容器启动日志（确认是否正常）
root@gitlab:~# docker-compose logs -f gitlab
# 当日志中出现 gitlab Reconfigured! 时，说明初始化完成。

# GitLab 默认生成 root 用户的随机密码，存储在容器内的/etc/gitlab/initial_root_password 文件中：
# 进入容器
root@gitlab:~# docker exec -it gitlab /bin/bash
# 查看初始密码
root@4c054babda87:/# cat /etc/gitlab/initial_root_password
# WARNING: This value is valid only in the following conditions
# 1. If provided manually (either via `GITLAB_ROOT_PASSWORD` environment variable or via `gitlab_rails['initial_root_password']` setting in `gitlab.rb`, it was provided before database was seeded for the first time (usually, the first reconfigure run).
# 2. Password hasn't been changed manually, either via UI or via command line.

## If the password shown here doesn't work, you must reset the admin password following https://docs.gitlab.com/ee/security/reset_user_password.html#reset-your-root-password.
Password: jqV6Dmlo+kbke3pLVFP0PTV2ttWiFPnDq54uX4WQ0Hc=# NOTE: This file will be automatically deleted in the first reconfigure run after 24 hours.

root@master:~/gitlab/e-commerce-platform# cat ~/.ssh/id_rsa.pub
ssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAACAQC2/jHMzETQsYS0+IkoKsZGDvqF3mmjEMYS1hjGfJnMin+mPRKH0quZll/4RuHFky3sbn3WSDonCcgvXP0TWUZTvCe9CGvlnU+zkkCMuOwCRqXNb/pXeAjzOCDBkUX+vXYHrhkmtNPylS8JDAuOdr+6qnIKG8GBjRVFmu7tl6+NFgjgpEGbgTE6vowWK+J3zKx6iN7FCKx+oMcWdEvcOy/WNnYWq7uCfQQgXerONTKHTJ6I9z6x/MMHnCTszSAYHSr7D9HV9un0k9tnoV5cSTA0tuDmFzNWX288v702DWDxgDJeaJLSeQTAAu6lm93GAdNC77QpI7IPDcZ/NkO3/AQoE5yIdCX8ApE7hobNQVL/24+8n+EmzfYsP+IWK/SWf7WZV4BR7v1QTz2M7HqPiYNR5rxOniCAhJ4dwnoS4LjeYMknGoB4SBqPcnpoUZT9q1iYf02JunKgCpAHSdNJ4IfbdiKYeO6IlCPL78xjvEAfOuqwSjOgUbiH70OXWfrJKmj5j/4J4crWm7cApCcevx6dzqo072rQtZLLoOZSBf114EkjCglE5W0hlnh6/sivBt/Yq0iNMAGVBsexJ8c8n5+saKuY+T1SU5JQiIeoISgVG/Ssv1913RRravFj5Fme3A8UnyYri0/4k3PYGu7QBBTytFmuim3sBYaQIzmqpRBLbw== root@master

root@iZwz9749p6a8r7y1673ypyZ:~# hostnamectl set-hostname jenkins
root@iZwz9749p6a8r7y1673ypyZ:~# su
# 部署 docker-compose
root@jenkins:~# apt install -y docker-compose

# 1. 创建目录
root@jenkins:~# mkdir -p /opt/jenkins/data
# 2. 设置目录权限
root@jenkins:~# chown -R 1000:1000 /opt/jenkins/data
root@jenkins:~# chmod -R 755 /opt/jenkins/data

# 在/opt/jenkins 目录下创建 docker-compose.yml 文件：
root@jenkins:~# cd /opt/jenkins
root@jenkins:/opt/jenkins# vim docker-compose.yml
version: '2.2'
services:
  jenkins:
    image: jenkins/jenkins:2.528.2
    container_name: jenkins # 容器名称
    restart: always # 容器异常退出时自动重启
    privileged: true # 赋予容器特权（解决权限问题）
    user: root # 使用 root 用户运行容器（简化权限配置）
    ports:
      - "8080:8080" # 宿主机 8080 端口映射到容器 8080（Jenkins 访问端口）
      - "50000:50000" # 宿主机 50000 端口映射到容器 50000（代理端口）
    volumes:
      - ./data:/var/jenkins_home # 宿主机/opt/jenkins/data 映射到容器内 Jenkins 数据目录（持久化）
      - /var/run/docker.sock:/var/run/docker.sock # 让 Jenkins 容器能访问宿主机 Docker（如需 Jenkins 构建 Docker 镜像）
      - /usr/bin/docker:/usr/bin/docker # 映射 Docker 命令到容器内
      - /usr/local/bin/docker-compose:/usr/local/bin/docker-compose # 映射 docker-compose 命令到容器内
    environment:
      - TZ=Asia/Shanghai # 设置时区为上海（避免日志时间错乱）

root@jenkins:/opt/jenkins# docker-compose up -d
Creating network "jenkins_default" with the default driver
Pulling jenkins (jenkins/jenkins:2.528.2)...
2.528.2: Pulling from jenkins/jenkins
13cc3f8244a: Pull complete
dc27f462ea: Pull complete
33300af18dd0: Pull complete
c2759c6dffa: Pull complete
e4beac6dffa: Pull complete
a37b858bb47: Pull complete
744b792e083: Pull complete
05d79a8b608: Pull complete
8d27b2b2b2: Pull complete
65e4ba86bc: Pull complete
5dc073277a: Pull complete
7718ff1022: Pull complete
Digest: sha256:7b1c378278279c8688efd6168c25a1c2723a6bd6f0420beb5ccefabee3cc3bb1
Status: Downloaded newer image for jenkins/jenkins:2.528.2
Creating jenkins ... done
root@jenkins:/opt/jenkins# docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
e6e126cdd99b jenkins/jenkins:2.528.2 "/sbin/tini -- /usr/…" 2 seconds ago Up 2 seconds 0.0.0.0:8080->8080/tcp, [::]:8080->8080/tcp, 0.0.0.0:50000->50000/tcp, [::]:50000->50000/tcp jenkins

root@jenkins:/opt/jenkins# docker exec -it jenkins cat /var/jenkins_home/secrets/initialAdminPassword
de747fc1faa540cabfcd937c36e71ac6
# 在页面中粘贴获取的 initialAdminPassword，点击'继续'。

root@jenkins:/opt/jenkins# mv plugins.tar data/
root@jenkins:/opt/jenkins# cd data/
root@jenkins:/opt/jenkins/data/# tar -xvf plugins.tar

# 创建 argocd 命名空间
root@master:~/yaml# kubectl create namespace argocd
root@master:~/yaml# mkdir argocd/
# 安装 ArgoCD
root@master:~/yaml/argocd# kubectl apply -n argocd -f https://raw.githubusercontent.com/argoproj/argo-cd/v2.8.3/manifests/install.yaml
# 暴露 ArgoCD UI（本地访问用 NodePort）
root@master:~/yaml/argocd# kubectl patch svc argocd-server -n argocd -p '{"spec":{"type":"NodePort"}}'
# 获取 ArgoCD 初始密码（用户名：admin）
root@master:~/yaml/argocd# kubectl -n argocd get secret argocd-initial-admin-secret -o jsonpath="{.data.password}" | base64 -d && echo
eyd7NOqAVLDGak1o
root@master:~/yaml/argocd# kubectl get svc -n argocd
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
argocd-applicationset-controller ClusterIP 10.106.160.96 <none>7000/TCP,8080/TCP 27h
argocd-dex-server ClusterIP 10.107.111.20 <none>5556/TCP,5557/TCP,5558/TCP 27h
argocd-metrics ClusterIP 10.97.249.73 <none>8082/TCP 27h
argocd-notifications-controller-metrics ClusterIP 10.110.61.50 <none>9001/TCP 27h
argocd-redis ClusterIP 10.105.69.236 <none>6379/TCP 27h
argocd-repo-server ClusterIP 10.99.240.50 <none>8081/TCP,8084/TCP 27h
argocd-server NodePort 10.108.75.197 <none>80:31375/TCP,443:32324/TCP 27h
argocd-server-metrics ClusterIP 10.110.198.250 <none>8083/TCP 27h

root@master:~# mkdir gitlab
root@master:~# cd gitlab
root@master:~/github# git config --global user.name "[您的用户名]"
root@master:~/github# git config --global user.email "[您的邮箱]"
root@master:~/github# git config --global color.ui true
root@master:~/github# git config --list
# 初始化
root@master:~/github# git init
# 克隆 gitlab 远程仓库到本地，由于之前已经配置了 ssh 免密，现在直接 clone 就可以了
root@master:~/gitlab# git clone ssh://git@[GitLab 公网 IP]:2222/root/e-commerce-platform.git
Cloning into 'e-commerce-platform'...
remote: Enumerating objects: 17, done.
remote: Counting objects: 100% (14/14), done.
remote: Compressing objects: 100% (13/13), done.
remote: Total 17(delta 2), reused 0(delta 0), pack-reused 3
Receiving objects: 100% (17/17), done.
Resolving deltas: 100% (2/2), done.
root@master:~/gitlab# ls e-commerce-platform
root@master:~/gitlab# cd e-commerce-platform/

root@master:~/gitlab/e-commerce-platform# vim Jenkinsfile
pipeline {
  agent any
  environment {
    ACR_REGISTRY = "[您的阿里云镜像仓库地址]/product-service-test"
    APP_NAME = "product-service"
    GITLAB_REPO_URL = "http://[GitLab 公网 IP]/root/e-commerce-platform.git"
    GITLAB_REPO_HOST = "[GitLab 公网 IP]/root/e-commerce-platform.git"
    GIT_CRED_ID = "Gitlab-token-Secret" # secret text 格式密钥
    ACR_CRED_ID = "acr-cred"
    MANIFEST_FILE = "product-service-deploy.yaml"
    MANIFEST_CLONE_DIR = "e-commerce-platform-manifests"
    VERSION_FILE = "version.txt"
  }
  options {
    timeout(time: 30, unit: 'MINUTES')
    retry(1)
    skipDefaultCheckout(false)
    disableConcurrentBuilds()
  }
  stages {
    stage('Check Skip Conditions') {
      steps {
        script {
          // 只检测 Jenkins 提交，不再检测 version.txt 变更
          def commitMessage = sh(script: 'git log -1 --pretty=%B || echo ""', returnStdout: true).trim()
          def commitAuthor = sh(script: 'git log -1 --pretty=%an || echo ""', returnStdout: true).trim()
          // 如果是 Jenkins 提交，跳过
          if(commitMessage.contains('[Jenkins]')|| commitMessage.contains('[ci skip]')|| commitAuthor =='jenkins-bot'){
            echo"===== 检测到 Jenkins 提交，跳过构建 ====="
            currentBuild.result ='SUCCESS'
            env.SKIP_BUILD ='true'
            return
          }
          // 用户提交，继续构建（即使 version.txt 被修改）
          echo"===== 用户提交，继续构建 ====="
        }
      }
    }
    stage('Get Version') {
      when {
        expression { env.SKIP_BUILD !='true'}
      }
      steps {
        script {
          // 从源代码读取版本号（用户手动指定的）
          env.NEXT_VERSION = sh(script: 'cat ${VERSION_FILE} 2>/dev/null || echo "v0"', returnStdout: true).trim()
          if(env.NEXT_VERSION =='v0'){ error "version.txt 不存在或为空，请先创建并提交"}
          echo"使用手动指定的版本：${env.NEXT_VERSION}"
        }
      }
    }
    stage('Build Docker Image') {
      when {
        expression { env.SKIP_BUILD !='true'}
      }
      steps {
        echo"===== 构建镜像：${ACR_REGISTRY}/${APP_NAME}:${NEXT_VERSION} ====="
        sh """
          if[! -f Dockerfile ];then
            echo'错误：Dockerfile 不存在'
            exit 1
          fi
          docker build --no-cache -t ${ACR_REGISTRY}/${APP_NAME}:${NEXT_VERSION}.
        """
      }
    }
    stage('Push to ACR') {
      when {
        expression { env.SKIP_BUILD !='true'}
      }
      steps {
        echo"===== 推送镜像到 ACR ====="
        withCredentials([usernamePassword(credentialsId: "${ACR_CRED_ID}", passwordVariable: 'ACR_PWD', usernameVariable: 'ACR_USER')]){
          sh """
            echo${ACR_PWD}|docker login --username ${ACR_USER} --password-stdin ${ACR_REGISTRY.split('/')[0]}
            docker push ${ACR_REGISTRY}/${APP_NAME}:${NEXT_VERSION}
            docker logout${ACR_REGISTRY.split('/')[0]}
          """
        }
      }
    }
    stage('Update K8s Manifest') {
      when {
        expression { env.SKIP_BUILD !='true'}
      }
      steps {
        echo"===== 更新 K8s 清单 ====="
        withCredentials([string(credentialsId: "${GIT_CRED_ID}", variable: 'GITLAB_TOKEN')]){
          script {
            sh"rm -rf ${MANIFEST_CLONE_DIR} 2>/dev/null || true"
            sh """
              git clone http://oauth2:${GITLAB_TOKEN}@${GITLAB_REPO_HOST}${MANIFEST_CLONE_DIR}||{echo'克隆仓库失败';exit 1}
            """
            dir("${MANIFEST_CLONE_DIR}"){
              // 更新 K8s 清单
              sh """
                sed -i.bak 's|image: .*${APP_NAME}:.*|image: ${ACR_REGISTRY}/${APP_NAME}:${NEXT_VERSION}|g'${MANIFEST_FILE}
                rm -f ${MANIFEST_FILE}.bak
              """
              // 可选：同步更新 manifest 仓库的 version.txt（保持一致）
              sh """
                echo"${NEXT_VERSION}">${VERSION_FILE}
              """
              // 提交到 manifest 仓库
              sh """
                git config user.email "[您的邮箱]"
                git config user.name "jenkins-bot"
                if git status --porcelain |grep -q .;then
                  git add${MANIFEST_FILE}${VERSION_FILE}
                  git commit -m "[Jenkins] Update ${APP_NAME} to ${NEXT_VERSION} [ci skip]"
                  git push origin main
                  echo"已推送修改到 manifest 仓库"
                else
                  echo"无修改，跳过提交"
                fi
              """
            }
          }
        }
      }
    }
  }
  post {
    always {
      echo"===== 清理资源 ====="
      sh"rm -rf ${MANIFEST_CLONE_DIR} || true"
      script {
        if(env.NEXT_VERSION){sh"docker rmi ${ACR_REGISTRY}/${APP_NAME}:${NEXT_VERSION} || true 2>/dev/null"}
      }
    }
    success {
      script {
        if(env.SKIP_BUILD !='true'){
          echo"Pipeline 成功！镜像：${ACR_REGISTRY}/${APP_NAME}:${NEXT_VERSION}"
        }else{
          echo"构建跳过（自动化提交）"
        }
      }
    }
    failure {
      echo"Pipeline 失败！请检查配置"
    }
  }
}

root@master:~/gitlab/e-commerce-platform# vim Dockerfile
FROM docker.io/library/nginx:latest

root@master:~/gitlab/e-commerce-platform# cp /root/yaml/product-service/product-service-deploy.yaml ./
root@master:~/gitlab/e-commerce-platform# cp /root/yaml/product-service/product-service-welcome-cm.yaml ./
root@master:~/gitlab/e-commerce-platform# ls Dockerfile Jenkinsfile product-service-deploy.yaml product-service-welcome-cm.yaml
# git push 到 gitlab 仓库
root@master:~/gitlab/e-commerce-platform# git add ./
root@master:~/gitlab/e-commerce-platform# git commit -m "v1"[main 3429cff] v1 4 files changed, 156 insertions(+) create mode 100644 Dockerfile create mode 100644 Jenkinsfile create mode 100644 product-service-deploy.yaml create mode 100644 product-service-welcome-cm.yaml
root@master:~/gitlab/e-commerce-platform# git push origin main
Enumerating objects: 7, done.
Counting objects: 100% (7/7), done.
Delta compression using up to 2 threads
Compressing objects: 100% (5/5), done.
Writing objects: 100% (6/6), 2.51 KiB |2.51 MiB/s, done.
Total 6(delta 0), reused 0(delta 0), pack-reused 0
To ssh://[GitLab 公网 IP]:2222/root/e-commerce-platform.git
62ecaae..3429cff main -> main

root@master:~/gitlab/e-commerce-platform# vim product-service-deploy.yaml # 修改为 v2
image: [您的阿里云镜像仓库地址]/product-service-test/product-service:v2
root@master:~/gitlab/e-commerce-platform# git add .
root@master:~/gitlab/e-commerce-platform# git commit -m "test 自动构建，修改了版本号"[main 84df6a9] test 自动构建，修改了版本号 1file changed, 1 insertion(+), 1 deletion(-)
root@master:~/gitlab/e-commerce-platform# git push origin main
Enumerating objects: 5, done.
Counting objects: 100% (5/5), done.
Delta compression using up to 2 threads
Compressing objects: 100% (3/3), done.
Writing objects: 100% (3/3), 334 bytes |334.00 KiB/s, done.
Total 3(delta 2), reused 0(delta 0), pack-reused 0
To ssh://[GitLab 公网 IP]:2222/root/e-commerce-platform.git
8e98ca7..84df6a9 main -> main

Started by GitLab push by Administrator Obtained Jenkinsfile from git http://[GitLab 公网 IP]/root/e-commerce-platform.git [Pipeline] Start of Pipeline [Pipeline]node Running on Jenkins in /var/jenkins_home/workspace/product-service-ci [Pipeline]{[Pipeline] stage [Pipeline]{(Declarative: Checkout SCM)[Pipeline] checkout The recommended git tool is: NONE using credential Gitlab-token-us >git rev-parse --resolve-git-dir /var/jenkins_home/workspace/product-service-ci/.git # timeout=10 Fetching changes from the remote Git repository >git config remote.origin.url http://[GitLab 公网 IP]/root/e-commerce-platform.git # timeout=10 Fetching upstream changes from http://[GitLab 公网 IP]/root/e-commerce-platform.git >git --version # timeout=10>git --version # 'git version 2.47.3' using GIT_ASKPASS to set credentials gitlab 的用户密码凭据 >git fetch --tags --force --progress -- http://[GitLab 公网 IP]/root/e-commerce-platform.git +refs/heads/*:refs/remotes/origin/* # timeout=10 skipping resolution of commit remotes/origin/main, since it originates from another repository >git rev-parse refs/remotes/origin/main^{commit}# timeout=10 Checking out Revision 84df6a957f017b0e488b72121bf3e3d455cad5aa (refs/remotes/origin/main)>git config core.sparsecheckout # timeout=10>git checkout -f 84df6a957f017b0e488b72121bf3e3d455cad5aa # timeout=10 Commit message: "test 自动构建，修改了版本号" First time build. Skipping changelog. [Pipeline]}[Pipeline] // stage [Pipeline] withEnv [Pipeline]{[Pipeline] withEnv [Pipeline]{[Pipeline]timeout Timeout set to expire in30 min [Pipeline]{[Pipeline] retry [Pipeline]{[Pipeline] stage [Pipeline]{(Check Skip Conditions)[Pipeline] script [Pipeline]{[Pipeline]sh + git log -1 --pretty=%B [Pipeline]sh + git log -1 --pretty=%an [Pipeline]echo 检测到 chenjun 的提交，继续构建 [Pipeline]}[Pipeline] // script [Pipeline]}[Pipeline] // stage [Pipeline] stage [Pipeline]{(Build Docker Image)[Pipeline]echo===== 构建镜像：[您的阿里云镜像仓库地址]/product-service-test/product-service:v1 =====[Pipeline]sh + test -f Dockerfile [Pipeline]sh + docker build --no-cache -t [您的阿里云镜像仓库地址]/product-service-test/product-service:v1 . DEPRECATED: The legacy builder is deprecated and will be removed in a future release. Install the buildx component to build images with BuildKit: https://docs.docker.com/go/buildx/ Sending build context to Docker daemon 354.3kB Step 1/1 : FROM docker.io/library/nginx:latest ---> 605c77e624dd Successfully built 605c77e624dd Successfully tagged [您的阿里云镜像仓库地址]/product-service-test/product-service:v1 [Pipeline]}[Pipeline] // stage [Pipeline] stage [Pipeline]{(Push to ACR)[Pipeline]echo===== 推送镜像到 ACR =====[Pipeline] withCredentials Masking supported pattern matches of $ACR_PWD[Pipeline]{[Pipeline]sh Warning: A secret was passed to "sh" using Groovy String interpolation, which is insecure. Affected argument(s) used the following variable(s): [ACR_PWD] See https://jenkins.io/redirect/groovy-string-interpolation for details. + echo **** + docker login --username [您的用户名] --password-stdin [您的阿里云镜像仓库地址] WARNING! Your credentials are stored unencrypted in'/root/.docker/config.json'. Configure a credential helper to remove this warning. See https://docs.docker.com/go/credential-store/ Login Succeeded [Pipeline]sh + docker push [您的阿里云镜像仓库地址]/product-service-test/product-service:v1 The push refers to repository [[您的阿里云镜像仓库地址]/product-service-test/product-service] d874fd2bc33b: Preparing 32ce5f6a5106: Preparing f1db227348d0: Preparing b8d6e692a25e: Preparing e379e8aedd4d: Preparing 2edcec3590a4: Preparing 2edcec3590a4: Waiting f1db227348d0: Layer already exists b8d6e692a25e: Layer already exists 32ce5f6a5106: Layer already exists d874fd2bc33b: Layer already exists e379e8aedd4d: Layer already exists 2edcec3590a4: Layer already exists v1: digest: sha256:ee89b00528ff4f02f2405e4ee221743ebc3f8e8dd0bfd5c4c20a2fa2aaa7ede3 size: 1570[Pipeline]sh + dockerlogout [您的阿里云镜像仓库地址] Removing login credentials for [您的阿里云镜像仓库地址] [Pipeline]}[Pipeline] // withCredentials [Pipeline]}[Pipeline] // stage [Pipeline] stage [Pipeline]{(Update K8s Manifest)[Pipeline]echo===== 更新 K8s 清单，版本：v1 =====[Pipeline] withCredentials Masking supported pattern matches of $GITLAB_TOKEN[Pipeline]{[Pipeline]sh Warning: A secret was passed to "sh" using Groovy String interpolation, which is insecure. Affected argument(s) used the following variable(s): [GITLAB_TOKEN] See https://jenkins.io/redirect/groovy-string-interpolation for details. + git clone http://oauth2:****@[GitLab 公网 IP]/root/e-commerce-platform.git e-commerce-platform-manifests Cloning into 'e-commerce-platform-manifests'... [Pipeline]dir Running in /var/jenkins_home/workspace/product-service-ci/e-commerce-platform-manifests [Pipeline]{[Pipeline]sh + sed -i.bak s|image: .*product-service:.*|image: [您的阿里云镜像仓库地址]/product-service-test/product-service:v1|g product-service-deploy.yaml + rm -f product-service-deploy.yaml.bak [Pipeline]sh + echo v1 [Pipeline]sh + git config user.email [您的邮箱] + git config user.name chenjun + git status --porcelain + grep -q . + gitadd product-service-deploy.yaml version.txt + git commit -m [Jenkins] Update product-service to v1 [ci skip][main 1a7ff1b][Jenkins] Update product-service to v1 [ci skip]2 files changed, 2 insertions(+), 2 deletions(-) + git push origin main To http://[GitLab 公网 IP]/root/e-commerce-platform.git 84df6a9..1a7ff1b main -> main + echo 已推送修改到 e-commerce-platform 仓库 已推送修改到 e-commerce-platform 仓库 [Pipeline]}[Pipeline] // dir[Pipeline]}[Pipeline] // withCredentials [Pipeline]}[Pipeline] // stage [Pipeline] stage [Pipeline]{(Declarative: Post Actions)[Pipeline]echo===== 清理资源 =====[Pipeline]sh + rm -rf e-commerce-platform-manifests [Pipeline]sh + docker rmi [您的阿里云镜像仓库地址]/product-service-test/product-service:v1 Untagged: [您的阿里云镜像仓库地址]/product-service-test/product-service:v1 [Pipeline]echo Pipeline 成功！镜像：[您的阿里云镜像仓库地址]/product-service-test/product-service:v1 [Pipeline]}[Pipeline] // stage [Pipeline]}[Pipeline] // retry [Pipeline]}[Pipeline] // timeout[Pipeline]}[Pipeline] // withEnv [Pipeline]}[Pipeline] // withEnv [Pipeline]}[Pipeline] // node[Pipeline] End of Pipeline Finished: SUCCESS

# 修改页面内容
root@master:~/gitlab/e-commerce-platform# vim product-service-welcome-cm.yaml
apiVersion: v1
kind: ConfigMap
metadata:
  name: welcome-nginx-cm
  namespace: product
data:
  index.html: |<!DOCTYPE html><html><head><title>Welcome</title></head><body><h1>v2</h1></body># 修改成 v2</html># 修改版本号
root@master:~/gitlab/e-commerce-platform# vim version.txt
v2
root@master:~/gitlab/e-commerce-platform# git add .
root@master:~/gitlab/e-commerce-platform# git commit -m "v2"[main 2c5da2e] v2 2 files changed, 2 insertions(+), 2 deletions(-)
root@master:~/gitlab/e-commerce-platform# git push origin main
Enumerating objects: 7, done.
Counting objects: 100% (7/7), done.
Delta compression using up to 2 threads
Compressing objects: 100% (2/2), done.
Writing objects: 100% (4/4), 344 bytes |344.00 KiB/s, done.
Total 4(delta 2), reused 2(delta 1), pack-reused 0
To ssh://[GitLab 公网 IP]:2222/root/e-commerce-platform.git
f8f2f1b..2c5da2e main -> main

# ctr 拉取 node-exporter 镜像并上传 ACR 镜像仓库减少拉取时间
root@master:~# ctr images pull docker.io/prom/node-exporter:v1.8.1
root@master:~# nerdctl tag prom/node-exporter:v1.8.1 [您的阿里云镜像仓库地址]/monitoring_k8s/node-exporter:v1.8.1
root@master:~# nerdctl push [您的阿里云镜像仓库地址]/monitoring_k8s/node-exporter:v1.8.1
# ctr 拉取 prometheus 镜像并上传 ACR 镜像仓库减少拉取时间
root@master:~# ctr images pull docker.io/prom/prometheus:v2.53.1
root@master:~# nerdctl tag prom/prometheus:v2.53.1 [您的阿里云镜像仓库地址]/monitoring_k8s/prometheus:v2.53.1
root@master:~# nerdctl push [您的阿里云镜像仓库地址]/monitoring_k8s/prometheus:v2.53.1
# ctr 拉取 grafana/grafana 镜像并上传 ACR 镜像仓库减少拉取时间
root@master:~# ctr images pull docker.io/grafana/grafana:11.2.0
root@master:~# nerdctl tag grafana/grafana:11.2.0 [您的阿里云镜像仓库地址]/monitoring_k8s/grafana:11.2.0
root@master:~# nerdctl push [您的阿里云镜像仓库地址]/monitoring_k8s/grafana:11.2.0
# ctr 拉取 blackbox-exporter 镜像并上传 ACR 镜像仓库减少拉取时间
root@master:~# ctr images pull docker.io/prom/blackbox-exporter:v0.24.0
root@master:~# nerdctl tag prom/blackbox-exporter:v0.24.0 [您的阿里云镜像仓库地址]/monitoring_k8s/blackbox-exporter:v0.24.0
root@master:~# nerdctl push [您的阿里云镜像仓库地址]/monitoring_k8s/blackbox-exporter:v0.24.0
# ctr 拉取 Alertmanager 镜像并上传 ACR 镜像仓库减少拉取时间
root@master:~/yaml/monitoring# ctr images pull docker.io/prom/alertmanager:v0.26.0
root@master:~/yaml/monitoring# nerdctl tag prom/alertmanager:v0.26.0 [您的阿里云镜像仓库地址]/monitoring_k8s/alertmanager:v0.26.0
root@master:~/yaml/monitoring# nerdctl push [您的阿里云镜像仓库地址]/monitoring_k8s/alertmanager:v0.26.0
# ctr 拉取 filebeat 镜像并上传 ACR 镜像仓库减少拉取时间
root@master:~/yaml/filebeat# ctr images pull docker.io/elastic/filebeat:8.11.0
root@master:~/yaml/filebeat# nerdctl tag elastic/filebeat:8.11.0 [您的阿里云镜像仓库地址]/logging_k8s/filebeat:8.11.0
root@master:~/yaml/filebeat# nerdctl push [您的阿里云镜像仓库地址]/logging_k8s/filebeat:8.11.0

# 创建监控命名空间
root@master:~# kubectl create ns monitoring

root@master:~/yaml# ls product-service secret
root@master:~/yaml# mkdir monitoring
# 需要先创建凭证否则无权限拉取私有镜像
root@master:~/yaml# kubectl create secret docker-registry acr-pull-secret \
  --namespace=monitoring \
  --docker-server=[您的阿里云镜像仓库地址] \
  --docker-username=[您的用户名] \
  --docker-password='[您的密码]'
secret/acr-pull-secret created
root@master:~/yaml/monitoring# vim node-exporter.yaml
# DaemonSet 类型：确保集群中每一个节点（包括 Master）都运行一个该 Pod 实例
# 用途：采集每个节点的系统级指标（CPU、内存、磁盘、网络等）
apiVersion: apps/v1
kind: DaemonSet
metadata:
  # Pod 名称前缀（最终 Pod 名格式：node-exporter-xxxx）
  name: node-exporter
  # 部署到 monitoring 命名空间（Prometheus/Grafana 等监控组件通常集中在此命名空间）
  namespace: monitoring
  # 自定义标签：用于 Service/Selector 关联、资源筛选
  labels:
    app: node-exporter
spec:
  # 标签选择器：关联下面的 Pod 模板（必须匹配 Pod 模板的 labels）
  selector:
    matchLabels:
      app: node-exporter
  # Pod 模板：定义要运行的 Pod 具体配置
  template:
    metadata:
      # Pod 标签：与上面的 selector.matchLabels 一致，用于 Service 发现
      labels:
        app: node-exporter
    spec:
      # 容忍度配置：让 Pod 能调度到 Master 节点（Master 节点默认有污点，阻止普通 Pod 调度）
      tolerations:
        #- key: "node-role.kubernetes.io/master" # 旧版匹配 Master 节点的污点 Key
        - key: "node-role.kubernetes.io/control-plane" # 新版 control-plane 节点污点 1.24+
          operator: "Exists" # 只要该 Key 存在就容忍（无需匹配 Value）
          effect: "NoSchedule" # 匹配污点的 Effect（NoSchedule 表示不调度普通 Pod）
      # 启用主机网络：Pod 直接使用宿主机的网络命名空间
      # 原因：Node Exporter 需采集主机网络指标；2. 避免端口冲突，便于 Prometheus 直接通过节点 IP:9100 抓取指标
      hostNetwork: true
      # 启用主机 PID 命名空间：Pod 能看到宿主机的所有进程
      # 原因：Node Exporter 需采集主机进程相关指标（如进程数、CPU 占用等）
      hostPID: true
      # 镜像拉取密钥：引用之前创建的 acr-pull-secret，用于拉取阿里云私有镜像仓库的镜像
      imagePullSecrets:
        - name: acr-pull-secret
      # 容器配置（DaemonSet 中仅运行 node-exporter 一个容器）
      containers:
        - name: node-exporter # 容器名称
          # 阿里云私有镜像地址（替换为你自己的镜像仓库地址）
          image: [您的阿里云镜像仓库地址]/monitoring_k8s/node-exporter:v1.8.1
          # Node Exporter 启动参数：定义采集指标的规则和路径
          args:
            - --path.procfs=/host/proc # 指定主机 /proc 目录挂载路径（采集进程、CPU 等指标）
            - --path.sysfs=/host/sys # 指定主机 /sys 目录挂载路径（采集内核、硬件等指标）
            # 忽略无用的挂载点：避免采集 /sys /proc 等虚拟文件系统的磁盘指标（无意义）
            - --collector.filesystem.ignored-mount-points=^/(sys|proc|dev|host|etc)($|/)
          # 安全上下文：赋予容器特权模式
          # 原因：Node Exporter 需要访问主机的敏感文件/目录（如 /proc /sys），普通权限会被拒绝
          securityContext:
            privileged: true
          # 卷挂载：将主机的目录挂载到容器内，让 Node Exporter 能读取主机数据
          volumeMounts:
            - name: proc # 关联下面 volumes 中定义的 proc 卷
              mountPath: /host/proc # 容器内挂载路径
            - name: sys
              mountPath: /host/sys
            - name: rootfs
              mountPath: /rootfs # 挂载主机根目录（采集磁盘挂载、文件系统指标）
      # 卷定义：将主机的物理目录映射为 Pod 可访问的卷
      volumes:
        - name: proc
          hostPath: # 宿主机路径类型卷
            path: /proc # 宿主机的 /proc 目录（存储进程、CPU、内存等实时数据）
        - name: sys
          hostPath:
            path: /sys # 宿主机的 /sys 目录（存储内核、硬件、设备等信息）
        - name: rootfs
          hostPath:
            path: / # 宿主机的根目录（/）
---
# ========== Node Exporter Service 配置 ==========
# Service 类型：为 DaemonSet 部署的所有 Node Exporter Pod 提供统一的访问入口
# 用途：供 Prometheus 通过 Service 发现机制抓取所有节点的 Node Exporter 指标
apiVersion: v1
kind: Service
metadata:
  name: node-exporter # Service 名称
  namespace: monitoring # 与 DaemonSet 同命名空间
  labels:
    app: node-exporter # 标签：用于 Prometheus 配置抓取目标时筛选
spec:
  # 标签选择器：关联所有带有 app=node-exporter 标签的 Pod
  selector:
    app: node-exporter
  # 端口配置：定义 Service 暴露的端口和对应的容器端口
  ports:
    - name: metrics # 端口名称（自定义，便于识别）
      port: 9100 # Service 暴露的端口（Prometheus 访问此端口）
      targetPort: 9100 # 容器内 Node Exporter 的监听端口（默认 9100）
  # Service 类型：ClusterIP（仅集群内部可访问，监控组件无需暴露到集群外）
  type: ClusterIP
# 更新配置文件
root@master:~/yaml/monitoring# kubectl apply -f node-exporter.yaml
# 验证是否所有节点都持有 node-export
root@master:~/yaml# kubectl get pods -n monitoring -l app=node-exporter -o wide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
node-exporter-7kcrl 1/1 Running 0 2m3s 192.168.0.200 master <none><none>
node-exporter-gknxb 1/1 Running 0 2m3s 192.168.0.202 node2 <none><none>
node-exporter-p99j6 1/1 Running 0 2m4s 192.168.0.203 node3 <none><none>
node-exporter-q5m95 1/1 Running 0 2m3s 192.168.0.201 node1 <none><none>

root@master:~/yaml/monitoring# vim prometheus-rbac.yaml
# ========== ClusterRole（集群角色）配置 ==========
# 作用：定义一组集群级别的权限规则（哪些资源可以被操作、执行哪些操作）
# 适用场景：Prometheus 需要跨命名空间发现节点、Pod、Service 等资源，因此必须用 ClusterRole（而非 Namespace 级的 Role）
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  # 集群角色名称：prometheus（需与下方 ClusterRoleBinding 的 roleRef.name 一致）
  name: prometheus
  # 权限规则列表：定义 Prometheus 可以操作的资源和对应的操作
  rules:
    # 规则 1：操作核心组（"" 代表 k8s 核心 API 组）的基础资源
    - apiGroups: [""] # 核心 API 组（nodes、services、pods 等都属于核心组）
      resources: # 允许操作的资源类型
        - nodes # 节点资源：Prometheus 需发现所有节点，抓取 Node Exporter 指标
        - nodes/metrics # 节点指标：抓取 kubelet 暴露的节点原生指标（如容器资源使用）
        - services # 服务资源：Prometheus 通过 Service 发现监控目标（如 node-exporter Service）
        - endpoints # 端点资源：获取 Service 对应的后端 Pod IP/端口，精准抓取指标
        - pods # Pod 资源：发现集群内所有 Pod，支持 Pod 级别的指标抓取（如应用监控）
      verbs: ["get", "list", "watch"] # 允许的操作：
      # get（获取单个资源）、list（列出所有资源）、watch（实时监听资源变化）
      # 仅授予只读权限，符合最小权限原则
    # 规则 2：操作核心组的 configmaps 资源（可选，按需开放）
    - apiGroups: [""]
      resources:
        - configmaps # 配置映射：Prometheus 若需从 ConfigMap 读取自定义配置（如抓取规则），需此权限
      verbs: ["get"] # 仅授予 get 权限（无需 list/watch，按需最小化）
    # 规则 3：操作网络组的 ingresses 资源（可选，按需开放）
    - apiGroups:
        - networking.k8s.io # 网络 API 组（Ingress 资源所属组）
      resources:
        - ingresses # 入口资源：Prometheus 若需监控 Ingress 规则、流量等指标，需此权限
      verbs: ["get", "list", "watch"]
    # 规则 4：操作非资源型 URL（K8s 节点/组件暴露的指标接口）
    - nonResourceURLs: ["/metrics", "/metrics/cadvisor"] # 非资源 URL：
      # /metrics：kube-apiserver 等组件的指标接口
      # /metrics/cadvisor：cadvisor 暴露的容器指标接口
      verbs: ["get"] # 允许 GET 请求：Prometheus 需访问这些 URL 抓取集群组件指标
---
# ========== ClusterRoleBinding（集群角色绑定）配置 ==========
# 作用：将上面定义的 prometheus ClusterRole 权限绑定到指定的 ServiceAccount（服务账户）
# 核心逻辑：让 monitoring 命名空间的 default 账户拥有 prometheus ClusterRole 的所有权限
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  # 集群角色绑定名称：prometheus（自定义，便于识别）
  name: prometheus
  # 角色引用：指定要绑定的 ClusterRole
  roleRef:
    apiGroup: rbac.authorization.k8s.io # RBAC 权限 API 组（固定值）
    kind: ClusterRole # 绑定的角色类型：ClusterRole（集群级）
    name: prometheus # 绑定的 ClusterRole 名称（需与上方 ClusterRole.name 一致）
  # 主体：指定被授予权限的对象（这里是 ServiceAccount）
  subjects:
    - kind: ServiceAccount # 主体类型：服务账户（Pod 运行时的身份）
      name: default # 服务账户名称：default（monitoring 命名空间的默认账户）
      namespace: monitoring # 服务账户所属命名空间：monitoring（Prometheus 部署在此命名空间）

root@master:~/yaml/monitoring# vim prometheus-config.yaml
# ========== Prometheus 核心配置 ConfigMap ==========
# 作用：存储 Prometheus 的核心配置文件（prometheus.yml），可通过挂载到 Prometheus Pod 中生效
# 核心能力：定义全局抓取规则、各监控目标的抓取策略（静态目标/K8s 自动发现）
apiVersion: v1
kind: ConfigMap
metadata:
  # ConfigMap 名称：prometheus-config（需与 Prometheus Pod 挂载的名称一致）
  name: prometheus-config
  # 部署到 monitoring 命名空间（与 Prometheus 同命名空间）
  namespace: monitoring
data:
  # 核心配置文件：prometheus.yml（Prometheus 启动时读取此文件）
  prometheus.yml: |
    # ========== 全局配置（所有抓取任务的默认规则） ==========
    global:
      # 抓取指标的间隔：每 15 秒抓取一次所有监控目标的指标（默认值，可被单个 job 覆盖）
      scrape_interval: 15s
      # 规则评估间隔：每 15 秒评估一次告警规则/记录规则（如 PromQL 告警表达式）
      evaluation_interval: 15s
    # ========== 抓取配置列表（定义所有需要监控的目标） ==========
    scrape_configs:
      # 1. 抓取 Prometheus 自身的运行指标（监控监控系统本身）
      - job_name: 'prometheus'
        static_configs:
          - targets: ['localhost:9090'] # Prometheus 自身的指标端口（9090 为默认端口）
      # 2. 抓取 K8s 集群节点的 Node Exporter 指标（K8s 自动发现）
      - job_name: 'k8s-node-exporter' # K8s 服务发现配置：基于 K8s 的 Endpoints 自动发现监控目标
        kubernetes_sd_configs:
          - role: endpoints # 发现角色：Endpoints（Service 对应的后端 Pod 端点）
            namespaces:
              # 仅发现 monitoring 命名空间下的 Endpoints（Node Exporter 部署在此）
              names: ['monitoring']
        # 标签重写规则：过滤/修改目标的标签，只保留需要的监控目标
        relabel_configs:
          # 规则 1：仅保留 Service 标签包含 app=node-exporter 的 Endpoints
          - source_labels: [__meta_kubernetes_service_label_app] # 源标签：K8s Service 的 app 标签
            regex: node-exporter # 匹配规则：值为 node-exporter
            action: keep # 动作：保留匹配的目标（不匹配的丢弃）
          # 规则 2：仅保留端口名称为 metrics 的 Endpoints（Node Exporter 的端口名）
          - source_labels: [__meta_kubernetes_endpoint_port_name] # 源标签：Endpoints 的端口名称
            regex: metrics # 匹配规则：值为 metrics
            action: keep # 动作：保留匹配的目标
      # 3. 抓取 Blackbox Exporter 指标（页面/接口可用性监控）
      - job_name: 'blackbox-exporter' # 指标路径：Blackbox Exporter 的探针接口（默认/probe）
        metrics_path: /probe
        # 请求参数：指定检测模块为 http_2xx（检测 HTTP 接口是否返回 200 状态码）
        params:
          module: [http_2xx]
        # K8s 服务发现：自动发现 monitoring 命名空间下的 Blackbox Exporter Endpoints
        kubernetes_sd_configs:
          - role: endpoints
            namespaces:
              names: ['monitoring']
        # 标签重写规则：适配 Blackbox Exporter 的探针请求逻辑
        relabel_configs:
          # 规则 1：仅保留 Service 标签为 app=blackbox-exporter 的目标
          - source_labels: [__meta_kubernetes_service_label_app]
            regex: blackbox-exporter
            action: keep
          # 规则 2：将目标地址（__address__）作为探针请求的 target 参数
          - source_labels: [__address__]
            target_label: __param_target
          # 规则 3：将 target 参数值作为 instance 标签（Prometheus UI 中显示的实例名）
          - source_labels: [__param_target]
            target_label: instance
          # 规则 4：修改目标地址为 Blackbox Exporter 的 Service 地址（所有探针请求转发到这里）
          - target_label: __address__
            replacement: blackbox-exporter.monitoring.svc:9115 # Blackbox Service 的集群内地址
          # 规则 5：将 instance 标签值赋值给 target 标签（便于在 Grafana 中筛选目标）
          - source_labels: [instance]
            regex: (.*)
            target_label: target
            replacement: ${1}
      # 4. 抓取 K8s 集群核心组件：APIServer 指标
      - job_name: 'kubernetes-apiservers' # K8s 服务发现：全局发现所有 Endpoints（APIServer 在 default 命名空间）
        kubernetes_sd_configs:
          - role: endpoints
        # 访问协议：APIServer 仅支持 HTTPS
        scheme: https
        # TLS 配置：使用 K8s ServiceAccount 的 CA 证书（Pod 内默认挂载的证书）
        tls_config:
          ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
        # 认证配置：使用 Pod 内默认挂载的 ServiceAccount Token（RBAC 权限认证）
        bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
        # 标签重写规则：仅保留 default 命名空间下 kubernetes Service 的 https 端口
        relabel_configs:
          - source_labels: [__meta_kubernetes_namespace, __meta_kubernetes_service_name, __meta_kubernetes_endpoint_port_name] # 匹配规则：命名空间=default、Service 名=kubernetes、端口名=https
            regex: default;kubernetes;https
            action: keep # 仅保留 APIServer 的 Endpoints（过滤其他无关目标）

root@master:~/yaml/monitoring# vim prometheus-deployment.yaml
# ========== Prometheus Deployment 配置 ==========
# 作用：以无状态部署（Deployment）方式运行 Prometheus 单实例
# 适用场景：小规模集群/测试环境（生产环境做 HA 部署，如 Prometheus Operator）
apiVersion: apps/v1
kind: Deployment
metadata:
  # Deployment 名称：prometheus（需与 Service selector 匹配）
  name: prometheus
  # 部署到 monitoring 命名空间（与监控组件统一管理）
  namespace: monitoring
  # 自定义标签：用于 Service 关联、资源筛选
  labels:
    app: prometheus
spec:
  # 副本数：1（单实例部署，无高可用；生产环境可结合 PersistentVolume 做 2 副本）
  replicas: 1
  # 标签选择器：关联带有 app=prometheus 标签的 Pod
  selector:
    matchLabels:
      app: prometheus
  # Pod 模板：定义 Prometheus Pod 的具体配置
  template:
    metadata:
      # Pod 标签：与 selector.matchLabels 一致，用于 Service 发现
      labels:
        app: prometheus
    spec:
      # 镜像拉取密钥：引用 harbor-registry-secret，拉取私有 Harbor 镜像仓库的 Prometheus 镜像
      imagePullSecrets:
        - name: acr-pull-secret
      # 容器配置（核心：仅运行 Prometheus 一个容器）
      containers:
        - name: prometheus # 容器名称
          # 私有镜像地址：替换为你自己的 Harbor 镜像仓库地址
          image: [您的阿里云镜像仓库地址]/monitoring_k8s/prometheus:v2.53.1
          # Prometheus 启动参数（核心配置，定义运行规则）
          args:
            - --config.file=/etc/prometheus/prometheus.yml # 指定配置文件路径（挂载自 ConfigMap）
            - --storage.tsdb.path=/prometheus # TSDB 时序数据库存储路径（挂载自 emptyDir）
            - --web.console.libraries=/usr/share/prometheus/console_libraries # 控制台库文件路径（镜像内置）
            - --web.console.templates=/usr/share/prometheus/consoles # 控制台模板路径（镜像内置）
          # 容器端口：Prometheus 默认监听 9090 端口（需与 Service targetPort 一致）
          ports:
            - containerPort: 9090
          # 卷挂载：将 ConfigMap/存储卷挂载到容器内指定路径
          volumeMounts:
            # 挂载 Prometheus 配置文件（来自 prometheus-config ConfigMap）
            - name: prometheus-config
              mountPath: /etc/prometheus # 容器内挂载路径（对应 --config.file 的目录）
            # 挂载 Prometheus 数据存储目录（临时存储，重启 Pod 数据丢失）
            - name: prometheus-storage
              mountPath: /prometheus # 容器内存储路径（对应 --storage.tsdb.path）
          # 资源限制：防止 Prometheus 占用过多节点资源（根据集群规模调整）
          resources:
            limits: # 资源上限（最多占用 1 核 CPU、1Gi 内存）
              cpu: 1000m
              memory: 1Gi
            requests: # 资源请求（至少分配 0.5 核 CPU、512Mi 内存）
              cpu: 500m
              memory: 512Mi
      # 卷定义：为容器提供配置文件和存储目录
      volumes:
        # 配置卷：引用 prometheus-config ConfigMap（存储 prometheus.yml 配置）
        - name: prometheus-config
          configMap:
            name: prometheus-config # 对应之前创建的 ConfigMap 名称
        # 存储卷：emptyDir（临时存储，Pod 销毁则数据丢失）
        - name: prometheus-storage
          emptyDir: {}
        # 生产环境建议替换为 PersistentVolume（PV/PVC），避免数据丢失
---
# ========== Prometheus Service 配置 ==========
# 作用：以 NodePort 方式暴露 Prometheus 服务，允许集群外访问 Prometheus UI
apiVersion: v1
kind: Service
metadata:
  # Service 名称：prometheus
  name: prometheus
  # 与 Deployment 同命名空间
  namespace: monitoring
spec:
  # 标签选择器：关联所有带有 app=prometheus 标签的 Pod
  selector:
    app: prometheus
  # 端口配置：定义 Service 暴露的端口规则
  ports:
    - port: 9090 # Service 集群内访问端口（集群内可通过 prometheus.monitoring.svc:9090 访问）
      targetPort: 9090 # 容器内 Prometheus 监听端口（与 containerPort 一致）
      nodePort: 30090 # 固定 NodePort 端口（集群外通过 节点 IP:30090 访问 Prometheus UI）
  # Service 类型：NodePort（暴露到集群所有节点的指定端口，适合测试/小规模集群）
  # 生产环境建议用 Ingress + HTTPS 暴露，更安全
  type: NodePort

root@master:~/yaml/monitoring# kubectl apply -f .
# 验证 Prometheus Pod 运行状态
root@master:~/yaml# kubectl get pod -n monitoring -o wide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
node-exporter-7kcrl 1/1 Running 0 11m 192.168.0.200 master <none><none>
node-exporter-gknxb 1/1 Running 0 11m 192.168.0.202 node2 <none><none>
node-exporter-p99j6 1/1 Running 0 12m 192.168.0.203 node3 <none><none>
node-exporter-q5m95 1/1 Running 0 11m 192.168.0.201 node1 <none><none>
prometheus-68f95956cf-v5bh2 1/1 Running 0 32s 10.20.166.132 node1 <none><none>

root@master:~/yaml/monitoring# vim grafana-deployment.yaml
# ========== Grafana Deployment 配置 ==========
# 作用：以无状态部署（Deployment）方式运行 Grafana 单实例
# 适用场景：小规模集群/测试环境（生产环境建议结合 PersistentVolume 做持久化，保证仪表盘/配置不丢失）
apiVersion: apps/v1
kind: Deployment
metadata:
  # Deployment 名称：grafana（需与 Service selector 匹配）
  name: grafana
  # 部署到 monitoring 命名空间（与 Prometheus/Node Exporter 等监控组件统一管理）
  namespace: monitoring
  # 自定义标签：用于 Service 关联、资源筛选
  labels:
    app: grafana
spec:
  # 副本数：1（单实例部署；Grafana 支持多实例，但需共享存储/数据库，测试环境单实例足够）
  replicas: 1
  # 标签选择器：关联带有 app=grafana 标签的 Pod
  selector:
    matchLabels:
      app: grafana
  # Pod 模板：定义 Grafana Pod 的具体配置
  template:
    metadata:
      # Pod 标签：与 selector.matchLabels 一致，用于 Service 发现
      labels:
        app: grafana
    spec:
      # 镜像拉取密钥：引用 acr-pull-secret，拉取阿里云私有镜像仓库的 Grafana 镜像
      imagePullSecrets:
        - name: acr-pull-secret
      # 容器配置（核心：仅运行 Grafana 一个容器）
      containers:
        - name: grafana # 容器名称
          # 阿里云私有镜像地址
          image: [您的阿里云镜像仓库地址]/monitoring_k8s/grafana:11.2.0
          # 容器端口：Grafana 默认监听 3000 端口（需与 Service targetPort 一致）
          ports:
            - containerPort: 3000
          # Grafana 环境变量：配置核心运行参数（无需修改配置文件，启动时注入）
          env:
            # 环境变量 1：设置 Grafana 管理员（admin）的登录密码
            - name: GF_SECURITY_ADMIN_PASSWORD
              value: "admin123"
            ## 环境变量 2：禁用 Grafana 注册功能（仅允许管理员创建用户，提升安全性）
            - name: GF_USERS_ALLOW_SIGN_UP
              value: "false" # 测试/生产环境均建议关闭公开注册
          # 卷挂载：将存储卷挂载到 Grafana 数据目录（保存仪表盘、用户、配置等数据）
          volumeMounts:
            - name: grafana-storage
              mountPath: /var/lib/grafana # Grafana 核心数据目录（镜像内置的默认路径）
          # 资源限制：防止 Grafana 占用过多节点资源（根据监控面板数量调整）
          resources:
            limits: # 资源上限（最多占用 0.5 核 CPU、512Mi 内存）
              cpu: 500m
              memory: 512Mi
            requests: # 资源请求（至少分配 0.2 核 CPU、256Mi 内存）
              cpu: 200m
              memory: 256Mi
      # 卷定义：为 Grafana 提供数据存储目录
      volumes:
        # 存储卷：emptyDir（临时存储，Pod 销毁则数据丢失）
        - name: grafana-storage
          emptyDir: {}
        # 生产环境必须替换为 PersistentVolume（PV/PVC），否则仪表盘/用户配置会丢失
---
# ========== Grafana Service 配置 ==========
# 作用：以 NodePort 方式暴露 Grafana 服务，允许集群外访问 Grafana 可视化面板
apiVersion: v1
kind: Service
metadata:
  # Service 名称：grafana
  name: grafana
  # 与 Deployment 同命名空间
  namespace: monitoring
spec:
  # 标签选择器：关联所有带有 app=grafana 标签的 Pod
  selector:
    app: grafana
  # 端口配置：定义 Service 暴露的端口规则
  ports:
    - port: 3000 # Service 集群内访问端口（集群内可通过 grafana.monitoring.svc:3000 访问）
      targetPort: 3000 # 容器内 Grafana 监听端口（与 containerPort 一致）
      nodePort: 30030 # 固定 NodePort 端口（集群外通过 节点 IP:30030 访问 Grafana UI）
  # Service 类型：NodePort（暴露到集群所有节点的指定端口，适合测试/小规模集群）
  # 生产环境建议用 Ingress + HTTPS 暴露，同时配置域名和认证，提升安全性
  type: NodePort

root@master:~/yaml/monitoring# kubectl apply -f grafana-deployment.yaml
# 验证 Grafana Pod 运行
root@master:~/yaml# kubectl get pods -n monitoring -o wide -l app=grafana
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
grafana-57596f6bcb-5lw47 1/1 Running 0 2m39s 10.20.135.4 node3 <none><none>

root@master:~/yaml/monitoring# vim alertmanager.yml
# alertmanager.yml
global:
  # 解决告警的超时时间（若超过该时间未解决，会重复发送）
  resolve_timeout: 5m
  # 邮件配置（全局）
  # 发件人邮箱
  smtp_from: '[您的邮箱]'
  smtp_smarthost: 'smtp.qq.com:587'
  # 发件人邮箱
  smtp_auth_username: '[您的邮箱]'
  smtp_auth_password: '[您的 SMTP 密码]'
  smtp_require_tls: true
# 路由规则：定义告警的分发逻辑（类似 Prometheus 的 rule）
route:
  # 所有告警的根路由（默认接收所有告警）
  receiver: 'chenjun'
  # 告警分组：相同标签的告警合并为一个通知
  group_by: ['alertname', 'cluster', 'service']
  # 首次发送告警的等待时间（避免抖动）
  group_wait: 10s
  # 同组告警的间隔发送时间
  group_interval: 10s
  # 同一告警的重复发送间隔
  repeat_interval: 1h
# 接收人配置：定义具体的通知渠道
receivers:
  - name: 'chenjun' # 接收人名称（需与 route 中的 receiver 对应）
    email_configs:
      - to: '[您的邮箱]' # 告警接收邮箱
        send_resolved: true # 告警解决后发送恢复通知
# 抑制规则：避免告警风暴（比如集群不可用后，不重复发送该集群下的所有告警）
inhibit_rules:
  - source_match:
      severity: 'critical'
    target_match:
      severity: 'warning'
    equal: ['alertname', 'cluster', 'service']

root@master:~/yaml/monitoring# kubectl create configmap alertmanager-config \
  --namespace=monitoring \
  --from-file=alertmanager.yml=./alertmanager.yml

# 创建 alertmanager-deploy.yaml 文件，包含 Deployment（运行 Alertmanager 容器）和 Service（暴露服务）：
root@master:~/yaml/monitoring# vim alertmanager-deploy.yaml
# alertmanager-deploy.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: alertmanager
  namespace: monitoring
  labels:
    app: alertmanager
spec:
  replicas: 1 # 生产环境部署 2-3 副本（需配置持久化和集群）
  selector:
    matchLabels:
      app: alertmanager
  template:
    metadata:
      labels:
        app: alertmanager
    spec:
      imagePullSecrets:
        - name: acr-pull-secret
      containers:
        - name: alertmanager # 使用官方镜像
          image: [您的阿里云镜像仓库地址]/monitoring_k8s/alertmanager:v0.26.0
          imagePullPolicy: IfNotPresent
          # 启动参数：指定配置文件路径
          args:
            - --config.file=/etc/alertmanager/alertmanager.yml
            - --storage.path=/alertmanager # 告警状态存储目录
          # 挂载 ConfigMap（配置文件）
          volumeMounts:
            - name: alertmanager-config
              mountPath: /etc/alertmanager
            - name: alertmanager-storage
              mountPath: /alertmanager
          # 资源限制
          resources:
            limits:
              cpu: 100m
              memory: 128Mi
            requests:
              cpu: 50m
              memory: 64Mi
          # 健康检查
          livenessProbe:
            httpGet:
              path: /-/healthy
              port: 9093
            initialDelaySeconds: 10
            periodSeconds: 10
          readinessProbe:
            httpGet:
              path: /-/ready
              port: 9093
            initialDelaySeconds: 5
            periodSeconds: 10
      volumes:
        - name: alertmanager-config
          configMap:
            name: alertmanager-config
        - name: alertmanager-storage # 生产环境建议使用 PersistentVolume（PV），此处先用 emptyDir 测试
          emptyDir: {}
---
# Service：暴露 Alertmanager 服务（ClusterIP 仅集群内访问，NodePort 可外部访问）
apiVersion: v1
kind: Service
metadata:
  name: alertmanager
  namespace: monitoring
spec:
  type: NodePort # 测试用，生产环境建议用 ClusterIP + Ingress
  selector:
    app: alertmanager
  ports:
    - name: web
      port: 9093
      targetPort: 9093
      nodePort: 30093 # 自定义 NodePort 端口（范围 30000-32767）

root@master:~/yaml/monitoring# kubectl apply -f alertmanager-deploy.yaml
# 验证状态
root@master:~/yaml/monitoring# kubectl get pod -n monitoring
NAME READY STATUS RESTARTS AGE
alertmanager-5757855787-6p69n 1/1 Running 0 58m
grafana-5d56cd8487-s5z22 1/1 Running 0 3h1m
node-exporter-7kcrl 1/1 Running 0 3h27m
node-exporter-gknxb 1/1 Running 0 3h27m
node-exporter-p99j6 1/1 Running 0 3h28m
node-exporter-q5m95 1/1 Running 0 3h27m
prometheus-6d756fcfff-4tc7h 1/1 Running 0 7m26s
# 检查 svc
root@master:~/yaml/monitoring# kubectl get svc -n monitoring
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
alertmanager NodePort 10.100.74.196 <none>9093:30093/TCP 61m
grafana NodePort 10.98.127.132 <none>3000:30030/TCP 3h1m
node-exporter ClusterIP 10.107.29.187 <none>9100/TCP 3h28m
prometheus NodePort 10.96.26.78 <none>9090:30090/TCP 3h16m

# 修改 prometheus-config.yaml
root@master:~/yaml/monitoring# vim prometheus-config.yaml
apiVersion: v1
kind: ConfigMap
metadata:
  name: prometheus-config
  namespace: monitoring
data:
  prometheus.yml: |
    global:
      scrape_interval: 15s
      evaluation_interval: 15s
      # 添加以下内容---------------------------------
      alerting:
        alertmanagers:
          - static_configs:
              - targets: # Alertmanager 的 Service 地址
                - alertmanager.monitoring.svc:9093
      rule_files:
        - "alert_rules.yml"
      # 结束-------------------------------------------
      # 中间采集指标略
      # 最后添加以下内容告警规则，与 prometheus.yml:同级
      alert_rules.yml: |
        groups:
          # 1. 节点级告警（服务器资源）
          - name: node-resource-alerts
            rules:
              # 1.1 节点内存使用率过高
              - alert: NodeHighMemoryUsage
                expr: (node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes * 100 > 85
                for: 5m
                labels:
                  severity: warning
                annotations:
                  summary: "节点内存使用率过高"
                  description: "节点 {{ $labels.instance }} 内存使用率超过 85% (当前值：{{ printf \"%.2f\"$value }}%)，已持续 5 分钟。"
              # 1.2 节点内存使用率紧急（临界值）
              - alert: NodeCriticalMemoryUsage
                expr: (node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes * 100 > 95
                for: 2m
                labels:
                  severity: critical
                annotations:
                  summary: "节点内存使用率紧急"
                  description: "节点 {{ $labels.instance }} 内存使用率超过 95% (当前值：{{ printf \"%.2f\"$value }}%)，已持续 2 分钟，可能导致服务不可用！"
              # 1.3 节点 CPU 使用率过高
              - alert: NodeHighCPUUsage
                expr: 100 - (avg by (instance)(rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
                for: 5m
                labels:
                  severity: warning
                annotations:
                  summary: "节点 CPU 使用率过高"
                  description: "节点 {{ $labels.instance }} CPU 使用率超过 80% (当前值：{{ printf \"%.2f\"$value }}%)，已持续 5 分钟。"
              # 1.4 节点根磁盘使用率过高
              - alert: NodeRootDiskHighUsage
                expr: 100 * (node_filesystem_size_bytes{mountpoint="/"} - node_filesystem_avail_bytes{mountpoint="/"}) / node_filesystem_size_bytes{mountpoint="/"} > 85
                for: 5m
                labels:
                  severity: warning
                annotations:
                  summary: "节点根磁盘使用率过高"
                  description: "节点 {{ $labels.instance }} 根目录 / 磁盘使用率超过 85% (当前值：{{ printf \"%.2f\"$value }}%)，已持续 5 分钟。"
              # 1.5 节点磁盘 IO 使用率过高
              - alert: NodeHighDiskIO
                expr: 100 * rate(node_disk_io_time_seconds_total{device!~"loop.*|sr.*"}[5m]) > 80
                for: 5m
                labels:
                  severity: warning
                annotations:
                  summary: "节点磁盘 IO 使用率过高"
                  description: "节点 {{ $labels.instance }} 的磁盘 {{ $labels.device }} IO 使用率超过 80% (当前值：{{ printf \"%.2f\"$value }}%)，已持续 5 分钟。"
              # 1.6 节点不可达（NodeExporter 失联）
              - alert: NodeDown
                expr: up{job=~"k8s-node-exporter|harbor-node-exporter|lb-node-exporter"} == 0
                for: 3m
                labels:
                  severity: critical
                annotations:
                  summary: "节点监控失联"
                  description: "节点 {{ $labels.instance }} 的 NodeExporter 已失联超过 3 分钟，无法采集指标！"
          # 2. K8s Pod/容器级告警
          - name: k8s-pod-alerts
            rules:
              # 2.1 Pod 重启次数过多（1 小时内重启≥3 次）
              - alert: PodRestartTooFrequent
                expr: increase(kube_pod_container_restarts_total[1h]) >= 3
                for: 10m
                labels:
                  severity: warning
                annotations:
                  summary: "Pod 重启次数过多"
                  description: "命名空间 {{ $labels.namespace }} 的 Pod {{ $labels.pod }} 容器 {{ $labels.container }} 1 小时内重启 {{ $value }} 次，可能存在服务异常。"
              # 2.2 Pod 状态异常（Pending/Failed/Error）
              - alert: PodStatusAbnormal
                expr: kube_pod_status_phase{phase=~"Pending|Failed|Error"} == 1
                for: 5m
                labels:
                  severity: critical
                annotations:
                  summary: "Pod 状态异常"
                  description: "命名空间 {{ $labels.namespace }} 的 Pod {{ $labels.pod }} 状态为 {{ $labels.phase }}，已持续 5 分钟。"
              # 2.3 容器 CPU 使用率过高
              - alert: ContainerHighCPUUsage
                expr: (sum by (namespace, pod, container)(rate(container_cpu_usage_seconds_total{container!=""}[5m])) / sum by (namespace, pod, container)(kube_pod_container_resource_limits_cpu_cores{container!=""})) * 100 > 80
                for: 5m
                labels:
                  severity: warning
                annotations:
                  summary: "容器 CPU 使用率过高"
                  description: "命名空间 {{ $labels.namespace }} 的 Pod {{ $labels.pod }} 容器 {{ $labels.container }} CPU 使用率超过 80% (当前值：{{ printf \"%.2f\"$value }}%)，已持续 5 分钟。"
              # 2.4 容器内存使用率过高
              - alert: ContainerHighMemoryUsage
                expr: (sum by (namespace, pod, container)(container_memory_usage_bytes{container!=""}) / sum by (namespace, pod, container)(kube_pod_container_resource_limits_memory_bytes{container!=""})) * 100 > 85
                for: 5m
                labels:
                  severity: warning
                annotations:
                  summary: "容器内存使用率过高"
                  description: "命名空间 {{ $labels.namespace }} 的 Pod {{ $labels.pod }} 容器 {{ $labels.container }} 内存使用率超过 85% (当前值：{{ printf \"%.2f\"$value }}%)，已持续 5 分钟。"
          # 3. K8s 核心组件告警
          - name: k8s-component-alerts
            rules:
              # 3.1 APIServer 请求延迟过高
              - alert: K8sAPIServerHighRequestLatency
                expr: (apiserver_request_latency_seconds_sum{verb!~"LIST|WATCH"} / apiserver_request_latency_seconds_count{verb!~"LIST|WATCH"}) > 0.5
                for: 5m
                labels:
                  severity: warning
                annotations:
                  summary: "K8s APIServer 请求延迟过高"
                  description: "APIServer {{ $labels.instance }} {{ $labels.verb }} 请求平均延迟超过 500ms (当前值：{{ printf \"%.3f\"$value }}s)，已持续 5 分钟。"
              # 3.2 APIServer 错误率过高
              - alert: K8sAPIServerHighErrorRate
                expr: sum by (instance)(rate(apiserver_request_total{code=~"5.."}[5m])) / sum by (instance)(rate(apiserver_request_total[5m])) > 0.05
                for: 5m
                labels:
                  severity: critical
                annotations:
                  summary: "K8s APIServer 错误率过高"
                  description: "APIServer 5XX 错误率超过 5% (当前值：{{ printf \"%.2f\"$value }}%)，已持续 5 分钟。"

# 更新 ConfigMap
root@master:~/yaml/monitoring# kubectl apply -f prometheus-config.yaml
# 重启 Prometheus Pod（触发配置重载）
root@master:~/yaml/monitoring# kubectl rollout restart deployment prometheus -n monitoring
# 检查启动状态
root@master:~/yaml/monitoring# kubectl get pod -n monitoring
NAME READY STATUS RESTARTS AGE
alertmanager-5757855787-6p69n 1/1 Running 0 64m
grafana-5d56cd8487-s5z22 1/1 Running 0 3h7m
node-exporter-7kcrl 1/1 Running 0 3h33m
node-exporter-gknxb 1/1 Running 0 3h33m
node-exporter-p99j6 1/1 Running 0 3h33m
node-exporter-q5m95 1/1 Running 0 3h33m
prometheus-6d756fcfff-4tc7h 1/1 Running 0 13m

# 修改内存告警规则
# 1.1 节点内存使用率过高
# - alert: NodeHighMemoryUsage
#   expr: (node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes * 100 > 85
# 修改为 10
# for: 1m # 修改为 1m
# labels:
#   severity: warning
# annotations:
#   summary: "节点内存使用率过高"
#   description: "节点 {{ $labels.instance }} 内存使用率超过 85% (当前值：{{ printf \"%.2f\"$value }}%)，已持续 5 分钟。"
# 更新 ConfigMap
root@master:~/yaml/monitoring# kubectl apply -f prometheus-config.yaml
# 重启 Prometheus Pod（触发配置重载）
root@master:~/yaml/monitoring# kubectl rollout restart deployment prometheus -n monitoring
# 检查启动状态
root@master:~/yaml/monitoring# kubectl get pod -n monitoring
NAME READY STATUS RESTARTS AGE
alertmanager-5757855787-6p69n 1/1 Running 0 64m
grafana-5d56cd8487-s5z22 1/1 Running 0 3h7m
node-exporter-7kcrl 1/1 Running 0 3h33m
node-exporter-gknxb 1/1 Running 0 3h33m
node-exporter-p99j6 1/1 Running 0 3h33m
node-exporter-q5m95 1/1 Running 0 3h33m
prometheus-6d756fcfff-4tc7h 1/1 Running 0 13m

root@master:~/yaml# mkdir logging
root@master:~/yaml# cd logging
root@master:~/yaml/logging# wget https://aliyun-observability-release-cn-shanghai.oss-cn-shanghai.aliyuncs.com/loongcollector/k8s-custom-pkg/3.0.12/loongcollector-custom-k8s-package.tgz; tar xvf loongcollector-custom-k8s-package.tgz; chmod 744 ./loongcollector-custom-k8s-package/k8s-custom-install.sh
# 修改配置文件 values.yaml：进入 loongcollector-custom-k8s-package 目录，修改配置文件./loongcollector/values.yaml
root@master:~/yaml/logging/loongcollector-custom-k8s-package# vim loongcollector/values.yaml
# 本集群要采集到的 Project 名
projectName: "k8s-pod-logs"
# Project 所属地域，例如上海：cn-shanghai
region: "cn-shenzhen"
# Project 所属主账号 uid，请用引号包围，例如"123456789"
aliUid: "[您的阿里云账号 ID]"
# 使用网络，可选参数：公网 Internet，内网 Intranet，默认使用公网
net: Internet
# 主账号或者子账号的 AK，SK
accessKeyID: "[您的 AccessKey ID]"
accessKeySecret: "[您的 AccessKey Secret]"
# 自定义集群 ID，命名只支持大小写，数字，短划线 (-)。
clusterID: "k8s-pod"
# 执行安装脚本：在 loongcollector-custom-k8s-package 目录下执行如下命令，安装 LoongCollector 及其他依赖组件。
root@master:~/yaml/logging/loongcollector-custom-k8s-package# bash k8s-custom-install.sh install
# 验证安装结果：安装完成后，执行如下命令查看组件状态：
# 检查 Pod 状态
root@master:~/yaml/logging/loongcollector-custom-k8s-package# kubectl get po -n kube-system -o wide | grep loongcollector-ds
loongcollector-ds-6hcvp 1/1 Running 0 78s 10.20.166.154 node1 <none><none>
loongcollector-ds-hhklj 1/1 Running 0 78s 10.20.104.20 node2 <none><none>
loongcollector-ds-jx4ll 1/1 Running 0 78s 10.20.135.23 node3 <none><none>
loongcollector-ds-wj8c7 1/1 Running 0 78s 10.20.219.71 master <none><none>

#wget https://aliyun-observability-release-${region_id}.oss-${region_id}.aliyuncs.com/loongcollector/linux64/latest/loongcollector.sh -O loongcollector.sh;
root@master:~# mkdir logotail
root@master:~# cd logotail/
root@master:~/logotail# wget https://aliyun-observability-release-cn-shenzhen.oss-cn-shenzhen.aliyuncs.com/loongcollector/linux64/latest/loongcollector.sh -O loongcollector.sh; --2026-01-09 09:16:04-- https://aliyun-observability-release-cn-shenzhen.oss-cn-shenzhen.aliyuncs.com/loongcollector/linux64/latest/loongcollector.sh

# chmod +x loongcollector.sh; ./loongcollector.sh install ${region_id}-internet
root@master:~/logotail# chmod +x loongcollector.sh; ./loongcollector.sh install cn-shenzhen-internet
loongcollector.sh version: 1.7.0
OS Arch: x86_64
OS Distribution: Ubuntu
current glibc version is :2.35
glibc >=2.12, and cpu flag meet
BIN_DIR: /usr/local/ilogtail
CONTROLLER_FILE: loongcollectord
update-rc.d del loongcollectord successfully.
Uninstall loongcollector successfully.
RUNUSER:root
Download package from region cn-shenzhen-internet ...
Package address: http://aliyun-observability-release-cn-shenzhen.oss-cn-shenzhen.aliyuncs.com/loongcollector/linux64/latest/x86_64/main/loongcollector-linux64.tar.gz
[1] Download loongcollector-linux64.tar.gz successfully.
Generate config successfully.
Installing loongcollector in /usr/local/ilogtail ...
sysom-cn-shenzhenPreparing eBPF enviroment ...
Found valid btf file: /sys/kernel/btf/vmlinux
Prepare eBPF enviroment successfully
agent stub for telegraf has been installed
agent stub for jvm has been installed
Install loongcollector files successfully.
Configuring loongcollector service...
Use systemd for startup
service_file_path: /etc/systemd/system/loongcollectord.service
Synchronizing state of loongcollectord.service with SysV service script with /lib/systemd/systemd-sysv-install.
Executing: /lib/systemd/systemd-sysv-install enable loongcollectord
Created symlink /etc/systemd/system/default.target.wants/loongcollectord.service → /etc/systemd/system/loongcollectord.service.
systemd startup successfully.
Synchronizing state of ilogtaild.service with SysV service script with /lib/systemd/systemd-sysv-install.
Executing: /lib/systemd/systemd-sysv-install enable ilogtaild
Created symlink /etc/systemd/system/default.target.wants/ilogtaild.service → /etc/systemd/system/ilogtaild.service.
Configure loongcollector successfully.
Starting loongcollector ...
Start loongcollector successfully.
{"UUID":"DD64E1D0-ECF9-11F0-92B1-9D94276D7AA7", "compiler":"GCC 9.3.1", "host_id":"DCCBAF1A-ECF9-11F0-92B1-9D94276D7AA7", "hostname":"master", "instance_id":"DD64D532-ECF9-11F0-92B1-9D94276D7AA7_192.168.0.200_1767921834", "ip":"192.168.0.200", "loongcollector_version":"3.2.6", "os":"Linux; 5.15.0-164-generic; #174-Ubuntu SMP Fri Nov 14 20:25:16 UTC 2025; x86_64", "update_time":"2026-01-09 09:23:55"}

# sudo /etc/init.d/loongcollectord status
root@master:~/logotail# sudo /etc/init.d/loongcollectord status
loongcollector is running

#touch /etc/ilogtail/users/{阿里云账号 ID} # 如果/etc/ilogtail/users 目录不存在，请手动创建目录。用户 ID 文件只需配置文件名，无需配置文件后缀。
root@master:~/logotail# touch /etc/ilogtail/users/[您的阿里云账号 ID]

#向指定文件写入自定义字符串，若目录不存在需手动创建。文件路径和名称由日志服务固定，不可自定义。
echo"user-defined-test-1"> /etc/ilogtail/user_defined_id
root@master:~/logotail# echo "user-defined-test-1" > /etc/ilogtail/user_defined_id

3. 查看启动状态：执行命令，返回`loongcollector is running`表示启动成功。

# sudo /etc/init.d/loongcollectord status
root@master:~/logotail# sudo /etc/init.d/loongcollectord status
loongcollector is running

#touch /etc/ilogtail/users/{阿里云账号 ID} # 如果/etc/ilogtail/users 目录不存在，请手动创建目录。用户 ID 文件只需配置文件名，无需配置文件后缀。
root@master:~/logotail# touch /etc/ilogtail/users/[您的阿里云账号 ID]

#向指定文件写入自定义字符串，若目录不存在需手动创建。文件路径和名称由日志服务固定，不可自定义。
echo"user-defined-test-1"> /etc/ilogtail/user_defined_id
root@master:~/logotail# echo "user-defined-test-1" > /etc/ilogtail/user_defined_id

混合云架构 K8s 自动化部署与监控运维实践

云原生混合架构 K8s 自动化部署平台

1 环境搭建

1.1 环境规划

1.2 技术栈总览

1.3 虚拟机创建与系统部署

2 云原生核心层部署（本地 k8s 集群）

2.1 部署 containerd：1.7.18(k8s 集群)

2.1.1 前置准备

2.1.2 添加 docker 官方软件源

2.1.3 更新源安装指定版本

2.1.4 适配 systemd

2.1.5 部署 nerdctl 工具

2.2 部署 k8s 集群

2.2.1 安装 kubelet kubeadm kubectl 1.32.10 每台服务器执行

2.2.2 kubeadm 初始化 k8s 集群

2.2.3 配置管理权限

2.2.4 扩容工作节点

2.2.5 把 roles 变成 work

2.2.6 安装 kubernetes 网络组件-Calico

2.2.7 命令补全

2.3 环境确认

2.4 部署核心微服务（主节点执行）

2.4.1 前置准备：确认基础环境与资源

2.4.2 步骤 1：开通阿里云 ACR 服务

2.4.3 步骤 2：制作镜像并上传 ACR 镜像仓库（master 节点）

2.4.4 步骤 3：部署服务（基于 ACR 镜像）

1.ConfigMap 配置（Nginx 主页）

2.创建 sc 动态存储卷供应

3.创建 PVC（持久化存储）

4.部署服务（deployment）

5.创建 svc 暴露服务端口

6.创建 hpa 自动扩缩容

3 CI/CD 链路搭建

3.1 混合云网络打通

3.1.1 阿里云 ECS 配置

3.1.2 WireGuard 安装与配置

遇到的问题：

解决方案

3.1.4 连通性测试

3.2 部署 GitLab（阿里云 ECS）

3.2.1 在阿里云 ECS 创建一台实例

3.2.2 docker-compose 部署 Gitlab

访问 GitLab 并登录

3.2.3 初始化 gitlab

3.2.4 配置 master 节点 ssh 免密认证

3.3 部署 jenkins（阿里云 ECS）

3.3.1 在阿里云 ECS 创建一台实例

3.3.2 docker-compose 部署 jenkins

3.3.3 jenkins 初始化配置

3.4 部署 Argo CD(本地 k8s 集群)

3.4.1 安装 ArgoCD

3.4.2 配置 ArgoCD 访问 GitLab

3.5 Jenkins 流水线配置

3.5.1 git 克隆 gitlab 仓库

3.5.2 编写 Jenkinsfile（存放在 GitLab 的仓库根目录）

3.5.3 编写 Dockerfile

3.5.4 准备 k8s 部署清单提交至代码仓库

3.6 配置 GitLab WebHook 触发 Jenkins

3.6.1 在 Jenkins 中创建流水线任务

3.6.2 配置 GitLab WebHook

3.6.3 测试 jenkins 自动构建

3.7 ArgoCD 配置自动同步

1. 在 ArgoCD UI 中 → New App：

2.点击 Create，ArgoCD 会自动同步部署清单到本地 K8s。

3.8 全链路测试

3.8.1 触发 CI/CD 流程

4 监控体系搭建（本地部署）

4.1 前置准备

4.1.1 阿里云 ACR 创建命名空间

4.1.2 拉取镜像上传对应的镜像仓库

4.1.4 创建监控命名空间

4.2 部署 node-exporter

4.3 部署 Prometheus

4.3.1 配置 Prometheus RBAC 权限

4.3.2 配置 Prometheus 抓取规则

4.3.3 部署 Prometheus Deployment + Service

4.3.4 应用 Prometheus 所有配置

4.3.5 访问验证

4.4 部署 Grafana