Python 实现数据集自动划分（训练集 / 验证集 / 测试集） | 极客日志

PythonAI算法

Python 实现数据集自动划分（训练集 / 验证集 / 测试集）

介绍使用 Python 脚本将深度学习数据集按 8:1:1 比例自动划分为训练集、验证集和测试集的方法。通过 random 库打乱文件顺序保证随机性，利用 os 和 shutil 库管理目录与复制文件，确保结果可复现并适配常见图片标签格式。

林间仙子发布于 2026/3/30更新于 2026/7/2362 浏览

在深度学习模型训练中，我们通常需要将数据集划分为训练集（Train）、验证集（Val）和测试集（Test）。训练集用于模型参数学习，验证集用于超参数调优，测试集用于评估模型最终泛化能力。手动划分不仅效率低，还难以保证随机性，这里分享一段自动划分数据集的 Python 脚本。

代码功能说明

这段代码的核心功能是：将原始数据集中的图片和对应标签，按照 8:1:1 的比例随机划分为训练集、验证集和测试集，并分别存放于对应目录中，同时保证划分结果可复现。

代码如下

import os
import random
import shutil

# 分割训练集和验证集
# 设置随机种子以保证结果可复现
random.seed(42)

# 数据集根目录
data_dir = './datasets'
images_dir = os.path.join(data_dir, 'images')
labels_dir = os.path.join(data_dir, 'labels')

# 创建目录
os.makedirs(os.path.join(images_dir, 'train'), exist_ok=True)
os.makedirs(os.path.join(images_dir, 'val'), exist_ok=True)
os.makedirs(os.path.join(labels_dir, 'train'), exist_ok=True)
os.makedirs(os.path.join(labels_dir, 'val'), exist_ok=True)
os.makedirs(os.path.join(images_dir, 'test'), exist_ok=True)
os.makedirs(os.path.join(labels_dir, 'test'), exist_ok=True)

# 获取所有的图像文件名
image_files = [f for f in os.listdir(os.path.join(data_dir, 'images')) if f.endswith('.jpg')]

# 计算训练集和验证集的大小
train_ratio = 0.8
val_ratio = 0.1
test_ratio = 0.1
total_images = len(image_files)
train_index = int(total_images * train_ratio)
val_index = int(total_images * (train_ratio + val_ratio))


random.shuffle(image_files)


train_images = image_files[:train_index]
val_images = image_files[train_index:val_index]
test_images = image_files[val_index:]

 img_file  train_images:
    label_file = img_file.replace(, )
    shutil.copy(os.path.join(data_dir, , img_file), os.path.join(images_dir, ))
    shutil.copy(os.path.join(data_dir, , label_file), os.path.join(labels_dir, ))

 img_file  val_images:
    label_file = img_file.replace(, )
    shutil.copy(os.path.join(data_dir, , img_file), os.path.join(images_dir, ))
    shutil.copy(os.path.join(data_dir, , label_file), os.path.join(labels_dir, ))

 img_file  test_images:
    label_file = img_file.replace(, )
    shutil.copy(os.path.join(data_dir, , img_file), os.path.join(images_dir, ))
    shutil.copy(os.path.join(data_dir, , label_file), os.path.join(labels_dir, ))

()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import os
import random
import shutil

random.seed(42)  # 固定种子，结果可复现

# 数据集根目录
data_dir = './datasets'
images_dir = os.path.join(data_dir, 'images')  # 原始图片目录
labels_dir = os.path.join(data_dir, 'labels')  # 原始标签目录

# 创建划分后的子目录（若已存在则不报错）
os.makedirs(os.path.join(images_dir, 'train'), exist_ok=True)
os.makedirs(os.path.join(images_dir, 'val'), exist_ok=True)
os.makedirs(os.path.join(images_dir, 'test'), exist_ok=True)
os.makedirs(os.path.join(labels_dir, 'train'), exist_ok=True)
os.makedirs(os.path.join(labels_dir, 'val'), exist_ok=True)
os.makedirs(os.path.join(labels_dir, 'test'), exist_ok=True)

# 获取所有.jpg 格式的图片文件（可根据实际格式修改）
image_files = [f for f in os.listdir(images_dir) if f.endswith('.jpg')]

# 定义划分比例（可根据需求调整）
train_ratio = 0.8  # 训练集占比
val_ratio = 0.1    # 验证集占比
test_ratio = 0.1   # 测试集占比

# 计算各集合的文件数量
total_images = len(image_files)
train_index = int(total_images * train_ratio)      # 训练集结束索引
val_index = int(total_images * (train_ratio + val_ratio))  # 验证集结束索引

# 随机打乱文件列表（保证划分随机性）
random.shuffle(image_files)

# 划分数据集
train_images = image_files[:train_index]           # 训练集
val_images = image_files[train_index:val_index]    # 验证集
test_images = image_files[val_index:]              # 测试集

# 复制训练集文件
for img_file in train_images:
    label_file = img_file.replace('.jpg', '.txt')  # 标签文件名（与图片对应）
    shutil.copy(os.path.join(images_dir, img_file), os.path.join(images_dir, 'train'))
    shutil.copy(os.path.join(labels_dir, label_file), os.path.join(labels_dir, 'train'))

# 复制验证集文件（逻辑同上）
for img_file in val_images:
    label_file = img_file.replace('.jpg', '.txt')
    shutil.copy(os.path.join(images_dir, img_file), os.path.join(images_dir, 'val'))
    shutil.copy(os.path.join(labels_dir, label_file), os.path.join(labels_dir, 'val'))

# 复制测试集文件（逻辑同上）
for img_file in test_images:
    label_file = img_file.replace('.jpg', '.txt')
    shutil.copy(os.path.join(images_dir, img_file), os.path.join(images_dir, 'test'))
    shutil.copy(os.path.join(labels_dir, label_file), os.path.join(labels_dir, 'test'))

print(f"数据集划分完成！训练集：{len(train_images)}，验证集：{len(val_images)}，测试集：{len(test_images)}")

datasets/
├─ images/  # 存放所有图片（.jpg 格式）
└─ labels/  # 存放所有标签（.txt 格式，与图片同名）

Python 实现数据集自动划分（训练集 / 验证集 / 测试集）

代码功能说明

代码如下

更多推荐文章

相关免费在线工具

代码解析

1. 导入依赖库

2. 保证结果可复现

3. 目录设置与创建

4. 读取与划分文件

5. 复制文件到对应目录

6. 输出划分结果

使用说明

更多推荐文章

相关免费在线工具

Python 实现数据集自动划分（训练集 / 验证集 / 测试集）

代码功能说明

代码如下

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

代码解析

1. 导入依赖库

2. 保证结果可复现

3. 目录设置与创建

4. 读取与划分文件

5. 复制文件到对应目录

6. 输出划分结果

使用说明

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具