



Kafka 定位与核心特性
Kafka 早已超越了传统消息队列的范畴,被官方定义为新一代的分布式事件流平台。在海量流式计算场景中,它占据着绝对核心的地位。从底层物理特性来看,它具备以下关键优势:
高吞吐与高并发:摒弃了缓慢的随机寻址,深度依赖操作系统的页缓存与磁盘的顺序追加写。单机即可支撑每秒百万级的高并发数据吞吐。 可靠性与持久化存储:流动的数据直接落盘持久化至日志文件。配合多副本冗余机制,确保物理节点宕机时核心业务数据绝对不丢失。 高可扩展性与解耦:支持零停机数据处理。支持在线动态扩容 Broker 节点,自动实现海量数据流的负载均衡。极大解耦了微服务系统,提升了全链路数据处理效率。

分布式存储基石:HDFS 架构深度剖析
理解 Kafka 的分布式设计,离不开对传统大数据存储基石 HDFS 的底层剖析。
HDFS 采用中心化控制模型,由主管元数据的 NameNode 与负责物理存储的 DataNode 构成。一个超大文件会被物理切分为默认 128MB 的数据块,分散存储在不同 DataNode 的磁盘上。
为保障极高的容错率,HDFS 制定了基于机架感知的副本放置关键原则。默认的三副本策略为:第一副本放置于客户端所在的本地节点,第二副本跨越网络交换机放置于完全不同物理机架的节点,第三副本放置于与第二副本同机架的另一节点。此架构完美平衡了跨机架的网络传输开销与整个机架断电的灾备风险。





