Linux 网络编程入门：Socket 编程详解

Socket（套接字）编程是让不同设备上的进程实现网络通信的核心方法，本质就是操作系统提供了一套标准化的 API，让我们能通过代码控制'进程如何通过网络收发数据'，全程不用关心底层网络硬件、协议细节，只需要按规则调用接口就行。

一、端口号：网络通信的'门牌号'

端口号说白了就是操作系统给网络进程分配的唯一标识，就像你家的门牌号。数据从网络过来，靠端口号才能精准找到要交给哪个程序处理，没它数据就成了'无家可归'的流浪包。

1.1 底层实现原理

端口号不是凭空来的，内核会通过专门的数据结构管理端口和进程的关联，简单说就是维护一张'端口 - 进程'映射表，数据来了先查这张表，再递交给对应进程，保证不会发错对象。

1.2 端口号 vs PID：解耦的两个标识

PID（进程 ID）是进程在本机的'校内学号'，只在这台机器上有用；端口号是进程在网络中的'身份证号'，跨设备通信全靠它。这种设计让网络和本地进程标识解耦，哪怕进程的 PID 变了，只要端口号不变，网络通信就不受影响。

1.3 IP+端口

IP 地址负责定位网络中的设备（比如'北京市朝阳区 XX 小区'），端口号负责定位设备上的进程（比如'小区里的 101 室'）。一次完整的网络通信，必须靠{源 IP，源 port，目的 IP，目的端口号}这四元组，才能唯一确定'谁给谁发数据'。

1.4 Socket：IP+端口的组合体

Socket（套接字）本质就是'IP 地址 + 端口号'的组合，是应用程序和网络打交道的'接口'——有了 Socket，进程才能和外部设备建立连接、传输数据，没它程序就是'闭门造车'，没法和外界通信。

1.5 端口号范围划分

端口号是 16 位整数，范围 0~65535，不同区间有固定用途，避免端口占用冲突。

0~1023：知名端口（Well-Known Ports），如 HTTP(80), SSH(22)
1024~49151：注册端口（Registered Ports）
49152~65535：动态/私有端口（Dynamic/Private Ports）

1.6 端口号和进程 ID 的关联

一个进程可以占用多个端口（比如一个服务同时监听 TCP 和 UDP 端口），但一个端口同一时间只能被一个进程占用，不然数据过来，内核都不知道该交给谁。

1.7 源端口号 vs 目的端口号

源端口号：发送方随机分配的临时端口，作用是接收对方的响应数据（比如你给服务器发请求，源端口就是'你的回邮地址'）；
目的端口号：接收方提供服务的固定端口（比如 HTTP 服务的 80 端口），是数据要到达的'最终目的地'。

1.8 用'唐僧取西经'理解 Socket

要是还觉得抽象，就用这个例子类比：西天 = 目的 IP（定位'如来'所在的设备）；如来的莲台 = 目的端口（定位'如来'这个进程）；东土大唐 = 源 IP；唐僧的行囊 = 源端口；Socket = 西天 + 莲台（或东土大唐 + 行囊），保证唐僧能精准找到如来，完成'数据传递'。

1.9 传输层核心：TCP vs UDP

从这两张图能明确：传输层属于系统内核，我们要通过网络通信，就得调用它提供的 TCP/UDP 协议。

字节流的读写特点

TCP 是'字节流'协议，写数据像往水管里放水，连续写就行，特别简单；读数据像接水，不知道啥时候接完，还得处理'粘包'，比较麻烦。

可靠传输 vs 不可靠传输

可靠传输（TCP）：会解决丢包、超时、乱序这些问题，靠校验、重传、确认等机制，保证数据一点不差到达；
不可靠传输（UDP）：不管这些，数据发出去就不管了，丢了也不重传，乱了也不调整。

为啥还要保留 UDP？

既然 UDP 不可靠，为啥不都用 TCP？TCP 为了可靠，协议复杂、占资源多（还要建立连接、维护状态）；UDP 简单、无连接、速度快，开发周期短，适合直播、语音通话这种'能容忍少量丢包，但要实时'的场景。

Linux 网络编程入门：Socket 编程详解