在 Kubernetes 中部署 Kafka 高可用集群实战

综述由AI生成详细讲解了如何在 Kubernetes 环境中部署高可用的 Apache Kafka 集群。内容涵盖 Kafka 核心概念、K8s 部署优势、Zookeeper 协调服务配置以及 Kafka Broker 的 StatefulSet 部署方案。通过 YAML 文件定义 Namespace、Service 和 PersistentVolumeClaim，实现了数据的持久化和服务的自动发现。重点介绍了如何通过命令行参数覆盖默认配置以适配 K8s 网络环境，确保集群在生产场景下的稳定运行。

2177283801发布于 2025/2/4更新于 2026/6/1324 浏览

在 Kubernetes 中部署 Kafka 高可用集群

一、引言

Apache Kafka 是一个开源的分布式流处理平台，由 LinkedIn 开发并于 2011 年开源。它的设计初衷是为了处理实时数据流，具备高吞吐量、低延迟、高容错性和可扩展性的特点。

Kafka 的核心概念

Producer（生产者）： 向 Kafka 主题发送消息的应用程序。
Consumer（消费者）： 从 Kafka 主题读取消息的应用程序，支持消费者组并行读取。
Topic（主题）： 逻辑分类，用于将消息分组，可细分为多个分区。
Partition（分区）： 主题的子单元，消息有序存储，支持水平扩展。
Broker（代理）： 集群中的服务器节点，负责接收、存储和发送消息。
Zookeeper： 用于分布式协调和管理集群状态，维护配置、Leader 选举及 Offset 管理。

为什么在 Kubernetes 中部署 Kafka

弹性和可伸缩性： K8s 的自动伸缩功能可根据负载调整节点数量。
易于管理： 统一的管理接口简化了部署、扩展和监控。
高可用性： 自动故障检测和恢复机制确保数据持久性。
资源隔离： 命名空间和资源限制避免与其他应用竞争资源。

二、Kubernetes 基础

Kubernetes (K8s) 是开源的容器编排平台，旨在简化容器化应用的部署和管理。

Pods（容器组）： 最小的可部署单元，包含紧密相关的容器。
Services（服务）： 定义一组 Pod 的逻辑集合，提供负载均衡和服务发现。
Deployments（部署）： 管理 Pod 副本数量和版本更新的对象。

三、Kafka 集群架构

1. 工作原理

Kafka 基于发布/订阅模式。生产者将消息发布到主题，消费者订阅并拉取消息。

消息存储： 消息按顺序存储在分区中，通过偏移量标识。
消息复制： 每个分区有主副本（Leader）和多个从副本（Follower），实现高可用。
消息传输： 生产者发送到 Leader，消费者从 Leader 拉取。
保留策略： 支持基于时间或大小的过期删除策略。

2. 高可用性设计

多副本复制： 数据冗余确保单点故障不影响服务。
自动故障检测与恢复： 内置机制触发重新选举和数据恢复。
副本分布： 分布在不同的 Broker 上，提高容错能力。
水平扩展： 动态增加 Broker 提升吞吐量和容量。

四、准备部署环境

1. 准备 K8s 集群

建议使用 K8s 1.23 及以上版本。如果尚未搭建，请参考相关文档。

2. 准备 StorageClass

为了持久化 Kafka 数据，避免 Pod 漂移导致数据丢失，需要创建存储类。

3. 准备镜像

在 K8s Node 节点上执行以下命令拉取所需镜像：

apiVersion: v1 kind: Namespace metadata: name: kafka --- apiVersion: v1 kind: Service metadata: name: zookeeper-cluster namespace: kafka labels: app: zookeeper spec: ports: - port: 2181 name: zookeeper - port: 2188 name: cluster1 - port: 3888 name: cluster2 clusterIP: None selector: app: zookeeper --- apiVersion: v1 kind: ConfigMap metadata: name: zookeeper-config namespace: kafka labels: app: zookeeper data: zoo.cfg: | tickTime=2000 initLimit=10 syncLimit=5 dataDir=/data dataLogDir=/datalog clientPort=2181 server.1=zookeeper-0.zookeeper-cluster.kafka:2188:3888 server.2=zookeeper-1.zookeeper-cluster.kafka:2188:3888 server.3=zookeeper-2.zookeeper-cluster.kafka:2188:3888 4lw.commands.whitelist=* --- apiVersion: apps/v1 kind: StatefulSet metadata: name: zookeeper namespace: kafka spec: serviceName: "zookeeper-cluster" replicas: 3 selector: matchLabels: app: zookeeper template: metadata: labels: app: zookeeper spec: initContainers: - name: set-zk-id image: busybox:latest command: ['sh', '-c', "hostname | cut -d '-' -f 2 | awk '{print $0 + 1}' > /data/myid"] volumeMounts: - name: data mountPath: /data containers: - name: zookeeper image: zookeeper:3.8 imagePullPolicy: Never resources: requests: memory: "500Mi" cpu: "500m" limits: memory: "1000Mi" cpu: "1000m" ports: - containerPort: 2181 name: zookeeper - containerPort: 2188 name: cluster1 - containerPort: 3888 name: cluster2 volumeMounts: - name: zook-config mountPath: /conf/zoo.cfg subPath: zoo.cfg - name: data mountPath: /data env: - name: MY_POD_NAME valueFrom: fieldRef: fieldPath: metadata.name volumes: - name: zook-config configMap: name: zookeeper-config volumeClaimTemplates: - metadata: name: data spec: accessModes: ["ReadWriteMany"] storageClassName: nfs resources: requests: storage: 10Gi

apiVersion: v1 kind: Service metadata: name: kafka-cluster namespace: kafka labels: app: kafka spec: ports: - port: 9092 name: kafka clusterIP: None selector: app: kafka --- apiVersion: v1 kind: Service metadata: name: kafka-nodeport-service-0 namespace: kafka spec: type: NodePort selector: statefulset.kubernetes.io/pod-name: kafka0-0 ports: - protocol: TCP port: 9092 targetPort: 9092 nodePort: 30092 name: kafka --- apiVersion: v1 kind: Service metadata: name: kafka-nodeport-service-1 namespace: kafka spec: type: NodePort selector: statefulset.kubernetes.io/pod-name: kafka1-0 ports: - protocol: TCP port: 9092 targetPort: 9092 nodePort: 30093 name: kafka --- apiVersion: v1 kind: Service metadata: name: kafka-nodeport-service-2 namespace: kafka spec: type: NodePort selector: statefulset.kubernetes.io/pod-name: kafka2-0 ports: - protocol: TCP port: 9092 targetPort: 9092 nodePort: 30094 name: kafka --- apiVersion: apps/v1 kind: StatefulSet metadata: name: kafka0 namespace: kafka spec: serviceName: "kafka-cluster" replicas: 1 selector: matchLabels: app: kafka0 template: metadata: labels: app: kafka0 spec: containers: - name: kafka image: kafka:3.1.0 imagePullPolicy: Never resources: requests: memory: "500Mi" cpu: "500m" limits: memory: "1000Mi" cpu: "2000m" ports: - containerPort: 9092 name: kafka command: - sh - -c - "exec /app/kafka/bin/kafka-server-start.sh /app/kafka/config/server.properties --override broker.id=0 --override listeners=PLAINTEXT://:9092 --override advertised.listeners=PLAINTEXT://192.168.40.181:30092 --override zookeeper.connect=192.168.40.181:32181,192.168.40.181:32182,192.168.40.181:32183/kafka --override log.dirs=/var/lib/kafka/data --override auto.create.topics.enable=true --override auto.leader.rebalance.enable=true --override background.threads=10 --override compression.type=producer --override delete.topic.enable=true --override leader.imbalance.check.interval.seconds=300 --override leader.imbalance.per.broker.percentage=10 --override log.flush.interval.messages=9223372036854775807 --override log.flush.offset.checkpoint.interval.ms=60000 --override log.flush.scheduler.interval.ms=9223372036854775807 --override log.retention.bytes=-1 --override log.retention.hours=168 --override log.roll.hours=168 --override log.roll.jitter.hours=0 --override log.segment.bytes=1073741824 --override log.segment.delete.delay.ms=60000 --override message.max.bytes=1000012 --override min.insync.replicas=1 --override num.io.threads=8 --override num.network.threads=3 --override num.recovery.threads.per.data.dir=1 --override num.replica.fetchers=1 --override offset.metadata.max.bytes=4096 --override offsets.commit.required.acks=-1 --override offsets.commit.timeout.ms=5000 --override offsets.load.buffer.size=5242880 --override offsets.retention.check.interval.ms=600000 --override offsets.retention.minutes=1440 --override offsets.topic.compression.codec=0 --override offsets.topic.num.partitions=50 --override offsets.topic.replication.factor=3 --override offsets.topic.segment.bytes=104857600 --override queued.max.requests=500 --override quota.consumer.default=9223372036854775807 --override quota.producer.default=9223372036854775807 --override replica.fetch.min.bytes=1 --override replica.fetch.wait.max.ms=500 --override replica.high.watermark.checkpoint.interval.ms=5000 --override replica.lag.time.max.ms=10000 --override replica.socket.receive.buffer.bytes=65536 --override replica.socket.timeout.ms=30000 --override request.timeout.ms=30000 --override socket.receive.buffer.bytes=102400 --override socket.request.max.bytes=104857600 --override socket.send.buffer.bytes=102400 --override unclean.leader.election.enable=true --override zookeeper.session.timeout.ms=6000 --override zookeeper.set.acl=false --override broker.id.generation.enable=true --override connections.max.idle.ms=600000 --override controlled.shutdown.enable=true --override controlled.shutdown.max.retries=3 --override controlled.shutdown.retry.backoff.ms=5000 --override controller.socket.timeout.ms=30000 --override default.replication.factor=1 --override fetch.purgatory.purge.interval.requests=1000 --override group.max.session.timeout.ms=300000 --override group.min.session.timeout.ms=6000 --override log.cleaner.backoff.ms=15000 --override log.cleaner.dedupe.buffer.size=134217728 --override log.cleaner.delete.retention.ms=86400000 --override log.cleaner.enable=true --override log.cleaner.io.buffer.load.factor=0.9 --override log.cleaner.io.buffer.size=524288 --override log.cleaner.io.max.bytes.per.second=1.7976931348623157E308 --override log.cleaner.min.cleanable.ratio=0.5 --override log.cleaner.min.compaction.lag.ms=0 --override log.cleaner.threads=1 --override log.cleanup.policy=delete --override log.index.interval.bytes=4096 --override log.index.size.max.bytes=10485760 --override log.message.timestamp.difference.max.ms=9223372036854775807 --override log.message.timestamp.type=CreateTime --override log.preallocate=false --override log.retention.check.interval.ms=300000 --override max.connections.per.ip=2147483647 --override num.partitions=1 --override producer.purgatory.purge.interval.requests=1000 --override replica.fetch.backoff.ms=1000 --override replica.fetch.max.bytes=1048576 --override replica.fetch.response.max.bytes=10485760 --override reserved.broker.max.id=1000" volumeMounts: - name: data0 mountPath: /var/lib/kafka/data env: - name: MY_POD_NAME valueFrom: fieldRef: fieldPath: metadata.name - name: ALLOW_PLAINTEXT_LISTENER value: "yes" - name: KAFKA_HEAP_OPTS value : "-Xms1g -Xmx1g" - name: JMX_PORT value: "5555" volumeClaimTemplates: - metadata: name: data0 spec: accessModes: ["ReadWriteMany"] storageClassName: nfs resources: requests: storage: 10Gi --- apiVersion: apps/v1 kind: StatefulSet metadata: name: kafka1 namespace: kafka spec: serviceName: "kafka-cluster" replicas: 1 selector: matchLabels: app: kafka1 template: metadata: labels: app: kafka1 spec: containers: - name: kafka image: kafka:3.1.0 imagePullPolicy: Never resources: requests: memory: "500Mi" cpu: "500m" limits: memory: "1000Mi" cpu: "2000m" ports: - containerPort: 9092 name: kafka command: - sh - -c - "exec /app/kafka/bin/kafka-server-start.sh /app/kafka/config/server.properties --override broker.id=1 --override listeners=PLAINTEXT://:9092 --override advertised.listeners=PLAINTEXT://192.168.40.181:30093 --override zookeeper.connect=192.168.40.181:32181,192.168.40.181:32182,192.168.40.181:32183/kafka --override log.dirs=/var/lib/kafka/data --override auto.create.topics.enable=true --override auto.leader.rebalance.enable=true --override background.threads=10 --override compression.type=producer --override delete.topic.enable=true --override leader.imbalance.check.interval.seconds=300 --override leader.imbalance.per.broker.percentage=10 --override log.flush.interval.messages=9223372036854775807 --override log.flush.offset.checkpoint.interval.ms=60000 --override log.flush.scheduler.interval.ms=9223372036854775807 --override log.retention.bytes=-1 --override log.retention.hours=168 --override log.roll.hours=168 --override log.roll.jitter.hours=0 --override log.segment.bytes=1073741824 --override log.segment.delete.delay.ms=60000 --override message.max.bytes=1000012 --override min.insync.replicas=1 --override num.io.threads=8 --override num.network.threads=3 --override num.recovery.threads.per.data.dir=1 --override num.replica.fetchers=1 --override offset.metadata.max.bytes=4096 --override offsets.commit.required.acks=-1 --override offsets.commit.timeout.ms=5000 --override offsets.load.buffer.size=5242880 --override offsets.retention.check.interval.ms=600000 --override offsets.retention.minutes=1440 --override offsets.topic.compression.codec=0 --override offsets.topic.num.partitions=50 --override offsets.topic.replication.factor=3 --override offsets.topic.segment.bytes=104857600 --override queued.max.requests=500 --override quota.consumer.default=9223372036854775807 --override quota.producer.default=9223372036854775807 --override replica.fetch.min.bytes=1 --override replica.fetch.wait.max.ms=500 --override replica.high.watermark.checkpoint.interval.ms=5000 --override replica.lag.time.max.ms=10000 --override replica.socket.receive.buffer.bytes=65536 --override replica.socket.timeout.ms=30000 --override request.timeout.ms=30000 --override socket.receive.buffer.bytes=102400 --override socket.request.max.bytes=104857600 --override socket.send.buffer.bytes=102400 --override unclean.leader.election.enable=true --override zookeeper.session.timeout.ms=6000 --override zookeeper.set.acl=false --override broker.id.generation.enable=true --override connections.max.idle.ms=600000 --override controlled.shutdown.enable=true --override controlled.shutdown.max.retries=3 --override controlled.shutdown.retry.backoff.ms=5000 --override controller.socket.timeout.ms=30000 --override default.replication.factor=1 --override fetch.purgatory.purge.interval.requests=1000 --override group.max.session.timeout.ms=300000 --override group.min.session.timeout.ms=6000 --override log.cleaner.backoff.ms=15000 --override log.cleaner.dedupe.buffer.size=134217728 --override log.cleaner.delete.retention.ms=86400000 --override log.cleaner.enable=true --override log.cleaner.io.buffer.load.factor=0.9 --override log.cleaner.io.buffer.size=524288 --override log.cleaner.io.max.bytes.per.second=1.7976931348623157E308 --override log.cleaner.min.cleanable.ratio=0.5 --override log.cleaner.min.compaction.lag.ms=0 --override log.cleaner.threads=1 --override log.cleanup.policy=delete --override log.index.interval.bytes=4096 --override log.index.size.max.bytes=10485760 --override log.message.timestamp.difference.max.ms=9223372036854775807 --override log.message.timestamp.type=CreateTime --override log.preallocate=false --override log.retention.check.interval.ms=300000 --override max.connections.per.ip=2147483647 --override num.partitions=1 --override producer.purgatory.purge.interval.requests=1000 --override replica.fetch.backoff.ms=1000 --override replica.fetch.max.bytes=1048576 --override replica.fetch.response.max.bytes=10485760 --override reserved.broker.max.id=1000" volumeMounts: - name: data1 mountPath: /var/lib/kafka/data env: - name: MY_POD_NAME valueFrom: fieldRef: fieldPath: metadata.name - name: ALLOW_PLAINTEXT_LISTENER value: "yes" - name: KAFKA_HEAP_OPTS value : "-Xms1g -Xmx1g" - name: JMX_PORT value: "5555" volumeClaimTemplates: - metadata: name: data1 spec: accessModes: ["ReadWriteMany"] storageClassName: nfs resources: requests: storage: 10Gi --- apiVersion: apps/v1 kind: StatefulSet metadata: name: kafka2 namespace: kafka spec: serviceName: "kafka-cluster" replicas: 1 selector: matchLabels: app: kafka2 template: metadata: labels: app: kafka2 spec: containers: - name: kafka image: kafka:3.1.0 imagePullPolicy: Never resources: requests: memory: "500Mi" cpu: "500m" limits: memory: "1000Mi" cpu: "2000m" ports: - containerPort: 9092 name: kafka command: - sh - -c - "exec /app/kafka/bin/kafka-server-start.sh /app/kafka/config/server.properties --override broker.id=2 --override listeners=PLAINTEXT://:9092 --override advertised.listeners=PLAINTEXT://192.168.40.181:30094 --override zookeeper.connect=192.168.40.181:32181,192.168.40.181:32182,192.168.40.181:32183/kafka --override log.dirs=/var/lib/kafka/data --override auto.create.topics.enable=true --override auto.leader.rebalance.enable=true --override background.threads=10 --override compression.type=producer --override delete.topic.enable=true --override leader.imbalance.check.interval.seconds=300 --override leader.imbalance.per.broker.percentage=10 --override log.flush.interval.messages=9223372036854775807 --override log.flush.offset.checkpoint.interval.ms=60000 --override log.flush.scheduler.interval.ms=9223372036854775807 --override log.retention.bytes=-1 --override log.retention.hours=168 --override log.roll.hours=168 --override log.roll.jitter.hours=0 --override log.segment.bytes=1073741824 --override log.segment.delete.delay.ms=60000 --override message.max.bytes=1000012 --override min.insync.replicas=1 --override num.io.threads=8 --override num.network.threads=3 --override num.recovery.threads.per.data.dir=1 --override num.replica.fetchers=1 --override offset.metadata.max.bytes=4096 --override offsets.commit.required.acks=-1 --override offsets.commit.timeout.ms=5000 --override offsets.load.buffer.size=5242880 --override offsets.retention.check.interval.ms=600000 --override offsets.retention.minutes=1440 --override offsets.topic.compression.codec=0 --override offsets.topic.num.partitions=50 --override offsets.topic.replication.factor=3 --override offsets.topic.segment.bytes=104857600 --override queued.max.requests=500 --override quota.consumer.default=9223372036854775807 --override quota.producer.default=9223372036854775807 --override replica.fetch.min.bytes=1 --override replica.fetch.wait.max.ms=500 --override replica.high.watermark.checkpoint.interval.ms=5000 --override replica.lag.time.max.ms=10000 --override replica.socket.receive.buffer.bytes=65536 --override replica.socket.timeout.ms=30000 --override request.timeout.ms=30000 --override socket.receive.buffer.bytes=102400 --override socket.request.max.bytes=104857600 --override socket.send.buffer.bytes=102400 --override unclean.leader.election.enable=true --override zookeeper.session.timeout.ms=6000 --override zookeeper.set.acl=false --override broker.id.generation.enable=true --override connections.max.idle.ms=600000 --override controlled.shutdown.enable=true --override controlled.shutdown.max.retries=3 --override controlled.shutdown.retry.backoff.ms=5000 --override controller.socket.timeout.ms=30000 --override default.replication.factor=1 --override fetch.purgatory.purge.interval.requests=1000 --override group.max.session.timeout.ms=300000 --override group.min.session.timeout.ms=6000 --override log.cleaner.backoff.ms=15000 --override log.cleaner.dedupe.buffer.size=134217728 --override log.cleaner.delete.retention.ms=86400000 --override log.cleaner.enable=true --override log.cleaner.io.buffer.load.factor=0.9 --override log.cleaner.io.buffer.size=524288 --override log.cleaner.io.max.bytes.per.second=1.7976931348623157E308 --override log.cleaner.min.cleanable.ratio=0.5 --override log.cleaner.min.compaction.lag.ms=0 --override log.cleaner.threads=1 --override log.cleanup.policy=delete --override log.index.interval.bytes=4096 --override log.index.size.max.bytes=10485760 --override log.message.timestamp.difference.max.ms=9223372036854775807 --override log.message.timestamp.type=CreateTime --override log.preallocate=false --override log.retention.check.interval.ms=300000 --override max.connections.per.ip=2147483647 --override num.partitions=1 --override producer.purgatory.purge.interval.requests=1000 --override replica.fetch.backoff.ms=1000 --override replica.fetch.max.bytes=1048576 --override replica.fetch.response.max.bytes=10485760 --override reserved.broker.max.id=1000" volumeMounts: - name: data2 mountPath: /var/lib/kafka/data env: - name: MY_POD_NAME valueFrom: fieldRef: fieldPath: metadata.name - name: ALLOW_PLAINTEXT_LISTENER value: "yes" - name: KAFKA_HEAP_OPTS value : "-Xms1g -Xmx1g" - name: JMX_PORT value: "5555" volumeClaimTemplates: - metadata: name: data2 spec: accessModes: ["ReadWriteMany"] storageClassName: nfs resources: requests: storage: 10Gi

在 Kubernetes 中部署 Kafka 高可用集群实战

在 Kubernetes 中部署 Kafka 高可用集群

一、引言

Kafka 的核心概念

为什么在 Kubernetes 中部署 Kafka

二、Kubernetes 基础

三、Kafka 集群架构

1. 工作原理

2. 高可用性设计

四、准备部署环境

1. 准备 K8s 集群

2. 准备 StorageClass

3. 准备镜像

更多推荐文章

五、部署 Kafka 集群

1. 部署 Zookeeper 集群

2. 部署 Kafka 集群

更多推荐文章

相关免费在线工具

在 Kubernetes 中部署 Kafka 高可用集群实战

在 Kubernetes 中部署 Kafka 高可用集群

一、引言

Kafka 的核心概念

为什么在 Kubernetes 中部署 Kafka

二、Kubernetes 基础

三、Kafka 集群架构

1. 工作原理

2. 高可用性设计

四、准备部署环境

1. 准备 K8s 集群

2. 准备 StorageClass

3. 准备镜像

微信扫一扫，关注极客日志

更多推荐文章

五、部署 Kafka 集群

1. 部署 Zookeeper 集群

2. 部署 Kafka 集群

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具