Nginx 高性能配置：反向代理、负载均衡与缓存优化

1.1 背景介绍

Nginx 1.26.x 是当前 mainline 分支的最新稳定线，在 HTTP/3 支持、动态模块加载和内存管理上相比 1.24.x 有明显改进。1.24.x 已进入维护模式，新项目直接选 1.26.x，旧项目建议在下次维护窗口升级。

在现代微服务架构中，Nginx 承担的角色已远超传统 Web 服务器。它是流量入口的第一道关卡：接收外部请求、终止 TLS、执行负载均衡、缓存上游响应、转发到后端服务集群。一个配置不当的 Nginx 实例，即便后端服务性能再好，也会成为整个系统的瓶颈。

高性能配置的核心矛盾在于：默认配置面向通用场景，而生产环境需要针对具体硬件、流量模式和业务特征做定向调优。worker 进程数、连接数上限、缓冲区大小、缓存策略——每一项参数背后都有对应的系统资源约束，盲目调大不会带来性能提升，反而可能引发内存压力或文件描述符耗尽。

1.2 技术特点

Nginx 采用事件驱动的异步非阻塞架构，与 Apache 的 prefork/worker 多进程模型有本质区别：

事件驱动模型：基于 epoll（Linux）/ kqueue（BSD），单个 worker 进程可同时处理数万并发连接，不依赖线程切换
异步非阻塞 I/O：磁盘读写、网络 I/O 均不阻塞 worker 进程，配合 aio threads 可将文件 I/O 卸载到线程池
低内存占用：每个连接消耗约 10-20KB 内存，10000 并发连接约占用 200MB，远低于线程模型
零拷贝传输：sendfile 系统调用直接在内核态完成文件到网络的数据传输，绕过用户态缓冲区
模块化架构：核心功能精简，通过编译时模块或动态模块扩展，避免加载不必要的功能

1.3 适用场景

反向代理：将外部 HTTP/HTTPS 请求转发到内网应用服务器，隐藏后端拓扑，统一入口管理
负载均衡：在多个后端实例间分发流量，支持轮询、加权、IP 哈希、最少连接等策略
静态资源服务：直接服务 CSS/JS/图片等静态文件，性能远超应用服务器
API 网关：结合 Lua（OpenResty）或 njs 模块实现认证、限流、路由等网关功能
缓存加速：缓存上游响应，降低后端压力，提升响应速度
SSL 终止：集中处理 TLS 握手，后端服务使用明文 HTTP，简化证书管理

1.4 环境要求

组件	版本要求	说明
操作系统	Ubuntu 22.04+ / CentOS Stream 8+	CentOS 7 已 EOL，不建议新部署
Nginx	1.26.x mainline	1.24.x stable 可用，1.22.x 及以下避免
OpenSSL	3.0+	支持 TLS 1.3，Ubuntu 22.04 默认满足
CPU	4 核 +	worker 进程数建议与物理核心数一致
内存	4GB+	缓存配置需预留足够内存，建议 8GB+
磁盘	SSD，50GB+	proxy_cache 路径建议独立挂载点

二、详细步骤

2.1 编译安装与基础调优

2.1.1 编译参数选择

包管理器安装的 Nginx 通常缺少部分高性能模块，生产环境建议从源码编译以获得完整控制权。

方案	实现方式	优点	缺点	适用场景
ip_hash	客户端 IP 哈希	配置简单，无需后端改造	NAT 环境下负载不均，server 下线时会话丢失	小规模、无 CDN 场景
hash $cookie_session	Cookie 哈希	比 ip_hash 更精准	需要客户端支持 Cookie	有登录态的 Web 应用
sticky cookie（Plus）	Nginx 注入 Cookie	精确绑定，支持 server 下线迁移	商业版功能	企业级有状态应用
应用层共享 Session	Redis/Memcached	彻底无状态，水平扩展	需要改造应用代码	推荐方案，新项目首选

# /etc/nginx/nginx.conf - 生产级主配置文件 user nginx; worker_processes auto; worker_cpu_affinity auto; worker_rlimit_nofile 65536; error_log /var/log/nginx/error.log warn; pid /var/run/nginx.pid; events { worker_connections 16384; use epoll; multi_accept on; } http { include /etc/nginx/mime.types; default_type application/octet-stream; # 自定义日志格式，包含响应时间和上游信息，便于性能分析 log_format main '$remote_addr - $remote_user [$time_local] "$request" ' '$status $body_bytes_sent "$http_referer" ' '"$http_user_agent" "$http_x_forwarded_for" ' 'rt=$request_time uct=$upstream_connect_time ' 'uht=$upstream_header_time urt=$upstream_response_time'; access_log /var/log/nginx/access.log main buffer=32k flush=5s; # 零拷贝文件传输，静态文件服务必开 sendfile on; # sendfile 开启后才有效：将多个小包合并成一个 TCP 包发送，减少网络开销 tcp_nopush on; # 禁用 Nagle 算法，减少小包延迟，对实时性要求高的场景有效 tcp_nodelay on; # 客户端连接保持时间，65s 是经验值，CDN 场景可适当调长 keepalive_timeout 65; keepalive_requests 1000; # 隐藏 Nginx 版本号，减少信息泄露 server_tokens off; # 客户端请求体大小限制，防止大文件上传耗尽内存 client_max_body_size 100m; client_body_buffer_size 128k; # 请求头缓冲区，大 Cookie 或 JWT Token 场景需要调大 client_header_buffer_size 4k; large_client_header_buffers 4 16k; # Gzip 压缩配置 gzip on; gzip_vary on; gzip_proxied any; gzip_comp_level 6; # 1-9，6 是压缩率和 CPU 消耗的平衡点 gzip_min_length 1024; # 小于 1KB 的响应不压缩，压缩收益低于开销 gzip_types text/plain text/css text/xml text/javascript application/json application/javascript application/xml application/rss+xml application/atom+xml image/svg+xml; # 线程池：将阻塞的文件 I/O 操作卸载到独立线程，避免阻塞 worker thread_pool default threads=32 max_queue=65536; # 缓存区域定义（供各 server 块引用） proxy_cache_path /data/nginx/cache levels=1:2 keys_zone=cache_main:100m max_size=10g inactive=60m use_temp_path=off; include /etc/nginx/conf.d/*.conf; }

# /etc/nginx/conf.d/production.conf - 生产多站点配置 # API 服务集群 upstream api_cluster { least_conn; keepalive 64; keepalive_requests 1000; keepalive_timeout 60s; server 10.0.1.11:8080 weight=3 max_fails=3 fail_timeout=30s; server 10.0.1.12:8080 weight=3 max_fails=3 fail_timeout=30s; server 10.0.1.13:8080 weight=2 max_fails=3 fail_timeout=30s; server 10.0.1.14:8080 backup; } # 静态资源服务器 upstream static_cluster { server 10.0.1.21:80; server 10.0.1.22:80; keepalive 32; } # API 网关 server { listen 443 ssl; http2 on; listen 443 quic reuseport; server_name api.example.com; ssl_certificate /etc/nginx/ssl/api.example.com.crt; ssl_certificate_key /etc/nginx/ssl/api.example.com.key; include /etc/nginx/conf.d/ssl-base.conf; include /etc/nginx/conf.d/ssl-performance.conf; add_header Alt-Svc 'h3=":443"; ma=86400'; add_header Strict-Transport-Security "max-age=15768000; includeSubDomains" always; add_header X-Content-Type-Options nosniff always; add_header X-Frame-Options DENY always; # 限流：每个 IP 每秒最多 100 个请求 limit_req_zone $binary_remote_addr zone=api_limit:10m rate=100r/s; limit_req zone=api_limit burst=200 nodelay; location /api/v1/ { proxy_pass http://api_cluster/; proxy_http_version 1.1; proxy_set_header Connection ""; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header X-Forwarded-Proto $scheme; proxy_connect_timeout 5s; proxy_read_timeout 30s; proxy_send_timeout 30s; # 启用缓存（GET 请求） proxy_cache cache_main; proxy_cache_key "$scheme$host$request_uri"; proxy_cache_valid 200 5m; proxy_cache_valid 404 1m; proxy_cache_bypass $http_cache_control; proxy_no_cache $http_pragma $http_authorization; # 缓存命中状态头，便于调试 add_header X-Cache-Status $upstream_cache_status; } # 健康检查端点不缓存 location /health { proxy_pass http://api_cluster; proxy_cache off; access_log off; } } # 静态资源站点 server { listen 443 ssl; http2 on; server_name static.example.com; ssl_certificate /etc/nginx/ssl/static.example.com.crt; ssl_certificate_key /etc/nginx/ssl/static.example.com.key; include /etc/nginx/conf.d/ssl-base.conf; location ~* \.(jpg|jpeg|png|gif|ico|css|js|woff2|svg)$ { proxy_pass http://static_cluster; proxy_cache cache_main; proxy_cache_valid 200 7d; # 浏览器缓存：静态资源设置长期缓存，配合文件名哈希实现缓存破坏 expires 30d; add_header Cache-Control "public, immutable"; # 预压缩文件优先（需要 gzip_static 模块） gzip_static on; } }

错误现象	原因分析	解决方案
502 Bad Gateway	上游服务不可用或连接超时	检查上游服务状态，调整 proxy_connect_timeout
504 Gateway Timeout	上游响应超时	增大 proxy_read_timeout，或优化上游接口性能
413 Request Entity Too Large	请求体超过 client_max_body_size	调大 client_max_body_size 或在上游处理
499 Client Closed Request	客户端在响应前断开连接	通常是客户端超时，检查客户端超时设置
upstream timed out (110)	上游连接超时	检查上游服务负载，调整超时参数
no live upstreams while connecting	所有上游节点不可用	检查上游服务，调整 max_fails/fail_timeout
worker_connections are not enough	连接数耗尽	增大 worker_connections 和 worker_rlimit_nofile
open() failed (24: Too many open files)	文件描述符耗尽	增大 worker_rlimit_nofile 和系统 ulimit

指标名称	正常范围	告警阈值	说明
活跃连接数	< 5000	> 10000	接近 worker_connections 上限时需扩容
请求处理时间	< 200ms	> 1000ms	P99 超过 1 秒需排查上游或缓存
5xx 错误率	< 0.1%	> 1%	上游服务异常的直接体现
上游响应时间	< 100ms	> 500ms	上游服务性能问题
缓存命中率	> 80%	< 50%	缓存策略需要优化
连接等待数 (Waiting)	< 1000	> 5000	keepalive 连接过多，可能需要调小 keepalive_timeout

术语	英文	解释
反向代理	Reverse Proxy	代表后端服务接收客户端请求，客户端不直接访问后端
负载均衡	Load Balancing	将流量分发到多个后端实例，提升吞吐量和可用性
上游	Upstream	Nginx 转发请求的目标服务器或服务器组
缓存击穿	Cache Breakdown	热点 key 过期瞬间大量请求同时穿透到上游
缓存穿透	Cache Penetration	请求不存在的数据，每次都穿透缓存打到上游
惊群效应	Thundering Herd	多个进程/线程同时被唤醒竞争同一资源
前向保密	Forward Secrecy	即使私钥泄露，历史会话数据也无法被解密
OCSP 装订	OCSP Stapling	服务端预先获取证书吊销状态并附在 TLS 握手中
零拷贝	Zero-Copy	数据在内核态直接传输，不经过用户态缓冲区
事件驱动	Event-Driven	通过事件通知机制处理 I/O，而非为每个连接分配线程

参数	默认值	推荐值	说明
worker_processes	1	auto	worker 进程数，auto 自动匹配 CPU 核数
worker_connections	512	16384	单 worker 最大连接数
worker_rlimit_nofile	系统默认	65536	worker 进程文件描述符上限
keepalive_timeout	75s	65s	客户端 keepalive 超时
proxy_connect_timeout	60s	5s	与上游建立连接超时
proxy_read_timeout	60s	60s	等待上游响应超时
client_max_body_size	1m	10m-100m	请求体大小限制
gzip_comp_level	1	6	压缩级别，6 是性能与压缩率平衡点
proxy_cache_lock	off	on	防止缓存击穿
open_file_cache max	-	10000	文件描述符缓存条目数

Nginx 高性能配置：反向代理、负载均衡与缓存优化

1.1 背景介绍

1.2 技术特点

1.3 适用场景

1.4 环境要求

二、详细步骤

2.1 编译安装与基础调优

2.1.1 编译参数选择

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.1.2 worker 进程与连接数配置

2.1.3 内核参数调优

2.2 反向代理配置

2.2.1 upstream 配置与健康检查

2.2.2 proxy_pass 细节

2.2.3 WebSocket 代理与长连接保持

2.2.4 gRPC 反向代理配置

2.3 负载均衡策略

2.3.1 轮询、加权轮询与 ip_hash

2.3.2 least_conn 与一致性哈希

2.3.3 被动健康检查与主动健康检查

2.3.4 会话保持方案对比

2.4 缓存优化

2.4.1 proxy_cache 配置

2.4.2 缓存策略

2.4.3 静态文件缓存与 expires/Cache-Control

2.4.4 缓存预热与清理

2.5 SSL/TLS 优化

2.5.1 TLS 1.3 配置与密码套件选择

2.5.2 OCSP Stapling 与会话复用

2.5.3 HTTP/2 与 HTTP/3(QUIC) 启用

三、示例代码和配置

3.1 完整的生产级 nginx.conf

3.2 多站点反向代理 + 负载均衡完整配置

3.3 缓存集群配置示例

四、最佳实践和注意事项

4.1 最佳实践

4.1.1 性能优化

4.1.2 安全加固

4.1.3 高可用配置（Keepalived + Nginx 双主）

4.2 注意事项

4.2.1 配置注意事项

4.2.2 常见错误

4.2.3 兼容性问题

五、故障排查和监控

5.1 故障排查

5.1.1 日志分析

5.1.2 常见问题排查

5.1.3 调试模式

5.2 性能监控

5.2.1 stub_status 模块

5.2.2 Prometheus + nginx-exporter 监控

5.2.3 关键指标与告警阈值

5.3 备份与恢复

5.3.1 配置备份脚本

5.3.2 灰度发布与配置回滚

六、总结

6.1 技术要点回顾

6.2 进阶学习方向

6.3 参考资料

附录

A. 命令速查表

B. 配置参数详解

C. 术语表

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具