Linux 进程地址空间详解 | 极客日志

Linux 进程地址空间详解

深入解析 Linux 进程地址空间，涵盖内存分区验证、虚拟地址引入、写时拷贝机制及页表管理。通过实验代码演示堆栈增长方向与变量存储区域，阐述父子进程共享与隔离原理。重点讲解 mm_struct 结构体定义、CR3 寄存器作用、页表权限位及惰性加载策略，揭示操作系统如何通过虚拟内存实现统一视角、安全隔离及进程与内存管理的解耦。

ByteFlow发布于 2026/3/26更新于 2026/7/2142 浏览

0. 前言

在操作系统中，内存是最核心的资源之一，而进程作为资源管理的基本单位，必须拥有对内存的'统一视角'。然而，真实的物理内存分布往往复杂且无序，直接暴露给进程会导致管理混乱、数据安全性不足。于是，Linux 通过 进程地址空间 和 页表机制，为进程营造了一个连续、独立且受保护的虚拟世界。

本文将以实验与源码为切入点，从 内存分区、虚拟地址、进程地址空间 到 页表与缺页中断，系统地剖析进程是如何'看到'内存，以及操作系统如何在背后完成高效的管理与隔离。

1. 验证内存分区

内存分区地址的演示

在 C/C++ 中，我们将内存分为以下几个区域（以 32 位操作系统为例）：

栈（Stack）：存储非静态局部变量、函数参数、返回值等，由编译器自动管理，向下增长。
堆（Heap）：动态内存分配区域，需手动管理（malloc/free或new/delete），向上增长。
数据段（静态区）：存储全局变量和静态变量（如 static int）。
代码段（常量区）：存放可执行代码和只读常量（如字符串常量 "abcd"）。

从下向上，地址由低地址处向高地址增加。操作系统中，地址用 16 进制数表示，在 32 位 环境下，最低的地址为 0000 0000，最高的地址为 FFFF FFFF。

我们用以下代码来验证不同区的地址分布：

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/types.h>
#include <unistd.h>

int g_val_1; // 未初始化全局变量
int g_val_2 = 100; // 已初始化全局变量

int main()
{
    printf("code addr: %p\n", main); // main 函数是代码，其地址代表代码区的地址
    const char* str = ; 
    (, str);
    (, &g_val_2);
    (, &g_val_1);
    * mem = (*)(); 
    (, mem);
    (, &str);
     ;
}

相关免费在线工具

Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online
JSON美化和格式化
将JSON字符串修饰为友好的可读格式。在线工具，JSON美化和格式化在线工具，online

void test(int n)
{
    int local_var = n; // 每层递归都会有一个新的局部变量
    printf("递归深度 %2d, 局部变量地址：%p\n", n, &local_var);
    if(n > 0) test(n - 1); // 继续递归
}

int main()
{
    test(10); // 从 10 层开始递归
    return 0;
}

int g_val_1;
int g_val_2 = 100;

int main()
{
    printf("code addr: %p\n", main);
    const char* str = "hello world";
    printf("read only string addr: %p\n", str);
    printf("init global value addr: %p\n", &g_val_2);
    printf("uninit global value addr: %p\n", &g_val_1);
    
    char* mem = (char*)malloc(100);
    char* mem1 = (char*)malloc(100);
    char* mem2 = (char*)malloc(100);
    
    printf("heap addr: %p\n", mem);
    printf("heap addr: %p\n", mem1);
    printf("heap addr: %p\n", mem2);
    return 0;
}

int g_val = 100;

int main()
{
    pid_t id = fork();
    if(id == 0){ // 子进程读取
        int cnt = 5;
        while(1){
            printf("i am child, pid: %d, ppid: %d, g_val = %d, &g_val = %p\n", getpid(), getppid(), g_val, &g_val);
            sleep(1);
            if(cnt) cnt--;
            else {
                g_val = 200;
                printf("子进程 change g_val: 100->200\n");
                cnt--;
            }
        }
    } else { // 父进程读取
        while(1){
            printf("i am parent, pid: %d, ppid: %d, g_val = %d, &g_val = %p\n", getpid(), getppid(), g_val, &g_val);
            sleep(1);
        }
    }
    return 0;
}

int main(){
    pid_t id = fork();
    if(id == 0){ // 子进程...
    } else { // 父进程...
    }
}

// PCB task_struct
struct task_struct {
    mm_struct* mm; // ...
};

// 32 位系统中，默认划分的区域是 4GB
struct mm_struct {
    unsigned long total_vm, locked_vm, shared_vm, exec_vm;
    unsigned long stack_vm, reserved_vm, def_flags, nr_ptes;
    unsigned long start_code, end_code, start_data, end_data;
    unsigned long start_brk, end_brk, start_stack, end_stack;
    unsigned long arg_start, arg_end, env_start, env_end;
};

代码段：0x400000~0x4FFFFF
数据段：0x500000~0x5FFFFF
堆 ：0x600000~...
栈 ：高地址向低地址增长

虚拟地址 → 页表查找 → 物理地址

int main(){
    char* str = "hello world";
    *str = 'H';
    return 0;
}

int g_val_1;
int g_val_2 = 100;

int main(int argc, char* argv[], char* env[])
{
    printf("code addr: %p\n", main);
    const char* str = "hello world";
    printf("read only string addr: %p\n", str);
    printf("init global value addr: %p\n", &g_val_2);
    printf("uninit global value addr: %p\n", &g_val_1);
    static int static_int = 100;
    printf("static local value addr: %p\n", &static_int);
    char* mem = (char*)malloc(100);
    char* mem1 = (char*)malloc(100);
    char* mem2 = (char*)malloc(100);
    printf("heap addr: %p\n", mem);
    printf("heap addr: %p\n", mem1);
    printf("heap addr: %p\n", mem2);
    // 打印栈区的地址
    printf("stack addr:%p\n", &mem);
    printf("stack addr:%p\n", &mem1);
    printf("stack addr:%p\n", &mem2);
    // 打印命令行参数和环境变量的地址
    int i = 0;
    for(; argv[i]; ++i) printf("argv[%d] addr: %p\n", i, argv[i]);
    for(i = 0; env[i]; ++i) printf("env[%d] addr: %p\n", i, env[i]);
    return 0;
}

Linux 进程地址空间详解

0. 前言

1. 验证内存分区

内存分区地址的演示

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

验证堆栈地址的增长方向

static 变量所在的区域

2. 虚拟地址的引入

3. 进程地址空间引入

父子进程刚开始是如何实现代码和数据共享的

写时拷贝的过程

解释最开始的现象和历史遗漏问题

4. 深入理解地址空间

什么是地址空间

深入理解地址空间及其区域划分

为什么要有进程地址空间

1. 统一的内存视角

2. 安全与隔离

3. 进程管理和内存管理解耦

5. 页表初识

cr3 寄存器

页表中的权限位

页表中的'是否加载到内存'标记位与惰性加载

1. 问题提出

2. 大文件加载的挑战

3. 分批加载与惰性加载

3.1 分批加载（批量搬运的思路）

3.2 惰性加载（现代操作系统的实际做法）

4. 页表标记位与内存管理解耦

5. 总结

6. 进程的再认识与提高

6.1 进程的创建与惰性加载

6.2 进程创建的顺序

6.3 进程的再定义

6.4 进程切换的本质

6.5 进程独立性的体现

6.6 统一的视角与乱序的物理内存

7. 验证命令行参数和环境变量的地址比栈的地址高

8. 结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具