【Linux】多线程开发封神之路：Linux 页表基础 + pthread 实战 + 底层原理拆解

Ne0inhk

15 Mar 2026 — 15 min read

前言：欢迎各位光临本博客，这里小编带你直接手撕**，文章并不复杂，愿诸君**耐其心性，忘却杂尘，道有所长！！！！

IF’Maxue：个人主页
🔥 个人专栏:
《C语言》
《C++深度学习》
《Linux》
《数据结构》
《数学建模》

⛺️生活是默默的坚持，毅力是永久的享受。不破不立！

文章目录

一、页表与页表项
二、线程核心操作实战
三、线程底层原理：Linux轻量级进程
四、关键概念深入解析

一、页表与页表项

1. 页表项标志位

页表项的核心作用是记录内存地址及访问控制信息，其中标志位是关键控制字段。

上图展示了页表项中常用标志位的定义，这些比特位各自承担特定功能：

比如“存在位”标记该页表项是否有效（是否对应物理内存）；
“读写位”控制对该内存页的读写权限；
其他标志位还可能涉及缓存策略、特权级检查等，直接影响内存访问的安全性和效率。

2. 页表结构体

页表通过结构体组织管理，结构体的字段对应页表项的核心属性。

从结构体定义可明确两个核心点：

页表项的本质是 unsigned long 类型的无符号整数，其核心功能是存储物理地址——这个地址指向内存中描述该页配置信息的区域；
页全局目录（PGD）是页表的顶层结构，其指向的类型是下一级页表（或直接指向物理页），形成多级页表的层级关系。

3. 页目录空间申请

页目录作为页表的顶层结构，其空间申请遵循固定规则。

关键结论：一个页全局目录（PGD）的大小固定为4KB，这与Linux系统中默认的内存页大小一致——意味着页目录本身就占用一个完整的内存页，方便内存管理单元（MMU）快速定位。

4. 页表的本质：4KB数组

申请页表的过程，本质是申请一块4KB的内存空间，并将其当作数组使用。

页表的核心特性：

可将4KB的页表空间视为一个数组，数组的每个元素都是 unsigned long 类型的页表项（PTE）；
每个PTE存储的是物理地址，通过多级页表的索引（如PGD→PMD→PTE），可最终定位到要访问的物理内存页。

5. 页全局目录（PGD）详解

PGD是多级页表的入口，其结构直接决定页表的索引效率。

PGD的核心作用：

作为页表的“根节点”，每个PGD项指向一级页目录（或下一级页表）；
进程的虚拟地址空间通过PGD进行划分，不同进程拥有独立的PGD，实现地址空间隔离。

二、线程核心操作实战

1. 线程创建与参数传递

线程创建的核心是通过 pthread_create 函数，同时要注意参数传递和返回值的处理。

线程代码框架

线程退出信息获取：pthread_join

pthread_join 是主线程等待子线程结束的关键函数，核心作用是获取子线程的退出信息。

关键说明：

函数原型 int pthread_join(pthread_t thread, void **retval)，其中 retval 是二级指针，用于接收子线程的返回值；
主线程调用 pthread_join 后会阻塞，直到指定子线程结束；
线程结束的两种场景：
1. 主线程结束（通常意味着进程结束，所有子线程会被强制终止）；
2. 子线程的入口函数执行完毕（正常终止）。

参数与返回值：支持任意类型

线程的参数传递和返回值具有极高灵活性——可支持任意数据类型，核心是通过 void* 指针实现通用化。

（1）传递函数类型

子线程的入口函数必须遵循固定原型：void* (*start_routine)(void*)，即接收一个 void* 参数，返回一个 void* 值。

（2）返回结果

子线程通过 return 返回结果，主线程通过 pthread_join 的 retval 参数接收，接收后需进行类型强转。

（3）主函数示例

完整的线程创建、参数传递、返回值获取示例：

2. 线程终止的3种方式

线程终止需区分“线程终止”和“进程终止”，避免误操作导致整个进程退出。

核心方式：

入口函数return：子线程执行完入口函数后 return，是最安全的终止方式，会自动清理线程栈资源；
禁止使用exit()：exit() 是进程终止函数，调用后会终止整个进程（包括所有子线程），线程中绝对不能用；
pthread_cancel：主动取消指定线程，需注意线程的“可取消状态”（默认允许取消）。

注意：使用 pthread_join 时，默认认为子线程是“正常终止”（无异常），若子线程被 pthread_cancel 取消，retval 会接收特殊值（如 PTHREAD_CANCELED）。

3. 线程分离：自动释放资源

默认情况下，线程是“可连接状态（joinable）”，主线程必须调用 pthread_join 等待其结束，否则会导致资源泄露。若主线程无需关心子线程状态，可设置线程为“分离状态（detach）”。

核心理解：

分离状态类比“分家”：主线程不再等待子线程，子线程结束后会自动释放资源（线程控制块、栈等）；
分离后的线程仍在进程地址空间中，可正常访问进程的所有资源（全局变量、堆内存等），仅主线程无需再“等待”。

两种分离方式

（1）主线程主动分离：pthread_detach

主线程调用 pthread_detach 函数，将指定子线程设置为分离状态。

函数原型：int pthread_detach(pthread_t thread)，参数为要分离的线程ID。

关键注意：分离后的线程不能再调用 pthread_join，否则会返回错误（如 EINVAL）。

（2）子线程自我分离

子线程通过 pthread_self() 获取自身ID，然后调用 pthread_detach 实现自我分离，无需主线程干预。

示例代码逻辑：

void*thread_func(void* arg){// 自我分离pthread_detach(pthread_self());// 线程业务逻辑printf("子线程自我分离\n");returnNULL;}

分离失败的错误信息

若对已分离的线程调用 pthread_join，会返回错误代码，可通过 strerror 查看具体原因。

错误原因：Invalid argument，本质是“线程已被分离，无法进行连接操作”。

4. 多线程创建实战与问题排查

（1）基础多线程代码demo

循环创建多个线程，主线程等待所有子线程结束：

主线程需“逐个等待”子线程：

运行结果（无sleep时，线程执行顺序由调度器决定）：

（2）问题：线程ID打印重复

若在子线程中加入 sleep，会出现“所有线程打印的ID都是9”的问题：

运行结果：

问题原因：

传递给线程的是“数组元素的地址”（如 &i），而非元素的值；
主线程循环速度极快，子线程因 sleep 未及时读取地址中的值，导致后续循环覆盖了 i 的值（最终 i 循环到9），所有子线程读取到的都是最后一个值。

解决方案：动态分配内存

为每个线程单独分配一块内存存储ID，避免地址被覆盖：

核心修改：

// 替换 int i; 为动态分配int* p = new int(i);pthread_create(&tid[i],NULL, thread_func, p);// 子线程中读取并释放内存void*thread_func(void* arg){int id =*(int*)arg;delete(int*)arg;// 释放动态内存printf("线程ID: %d\n", id);returnNULL;}

修改后，每个线程获取独立的ID值，不会出现重复。