LLaMA Factory操作界面微调时报disable multiprocessing.

优质文章学习记录

11 Apr 2026 — 4 min read

LLaMA Factory操作界面微调时报disable multiprocessing

陈述问题

由于显卡性能不强，微调模型时会报以下下错误，GPU内存或系统内存不足，尤其在处理大规模数据或大模型时，子进程因内存溢出崩溃。

 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "G:\project\LLaMA-Factory\src\llamafactory\data\converter.py", line 420, in align_dataset return dataset.map( ^^^^^^^^^^^^ File "C:\Python312\Lib\site-packages\datasets\arrow_dataset.py", line 557, in wrapper out: Union["Dataset", "DatasetDict"] = func(self, *args, **kwargs) ^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Python312\Lib\site-packages\datasets\arrow_dataset.py", line 3166, in map for rank, done, content in iflatmap_unordered( File "C:\Python312\Lib\site-packages\datasets\utils\py_utils.py", line 713, in iflatmap_unordered raise RuntimeError( RuntimeError: One of the subprocesses has abruptly died during map operation.To debug the error, disable multiprocessing.

解决思路

我们可以调整LlamaFactory 训练命令中 --preprocessing_num_workers

–preprocessing_num_workers 是 LlamaFactoryLlamaFactory（以及基于 Hugging Face 生态的大模型训练框架）中用于数据预处理阶段的核心参数，具体作用如下：核心定义
这个参数指定了数据预处理时使用的进程 / 线程数量（这里设置为 16），用于并行处理训练数据（比如加载数据集、分词、格式化、生成
attention mask 等操作）。具体工作机制默认情况下，preprocessing_num_workers 为
0，意味着所有数据预处理工作都在主线程中串行执行；设置为 16 时，框架会启动 16 个独立的 worker 进程 /
线程，同时对不同批次的数据集进行预处理，充分利用 CPU 多核资源。实际效果 ✅ 加速数据预处理：对于大尺寸数据集（比如几万 /
几十万条样本），多 worker 并行处理能显著减少数据加载和预处理的耗时，避免训练过程中出现 “GPU 等数据” 的空闲情况； ⚠️
资源占用注意：worker 数量并非越多越好：如果设置的数值超过你的 CPU 核心数（比如你的 CPU 只有 8 核却设为
16），会导致进程切换开销增大，反而变慢；过多的 worker 还会占用更多内存，可能引发 OOM（内存溢出）。适用场景
这个参数仅作用于训练前的数据预处理阶段（比如分词、数据格式化），训练过程中的计算（如前向 / 反向传播）仍由 GPU
负责，不会影响训练阶段的并行逻辑。实用建议推荐设置值：通常设为你的 CPU 物理核心数（比如 8 核 CPU 设为 8，16 核设为
16），或核心数的 1-2 倍；调试阶段：如果出现数据加载报错（如 BrokenPipeError），可以先将该值设为
0（单线程）排查问题；内存敏感场景：如果数据集样本长、内存紧张，适当降低该值（比如 8 或 4）。总结
–preprocessing_num_workers 16 表示启用 16 个并行进程处理训练数据的预处理（分词、格式化等）；核心作用是利用多核 CPU 加速数据加载，避免 GPU 训练时等待数据；取值需匹配 CPU
核心数，并非越大越好，否则会增加开销或导致内存不足。

解决办法

点击‘预览命令’查看命令，可以看到命令中 --preprocessing_num_workers 16 `

先把之前运行网页的llamafactory-cli webui的进程停了⚠️⚠️⚠️
再把命令复制到cmd执行，执行前把–preprocessing_num_workers 改小

看到以下界面说明已经在跑了

跑完之后再运行网页的llamafactory-cli webui的进程
再进到网页查看刚才的训练参数可以选择导出了

【AI智能体】Claude Code 高级编程技巧实战项目详解

目录一、前言二、Claude Code 概述 2.1 Claude Code 是什么 2.2 Claude Code 核心特点 2.3 与其他AI编程工具对比三、Claude Code 环境搭建 3.1 前置准备 3.1.1 安装Node 3.1.2 安装Claude Code 3.2 Claude Code 开发环境配置 3.2.1 成本与费用说明 3.2.2 本地配置 3.

Qwen2.5-72B-Instruct-GPTQ-Int4开源镜像实操：审计日志记录与合规性配置

Qwen2.5-72B-Instruct-GPTQ-Int4开源镜像实操：审计日志记录与合规性配置 1. 引言：为什么大模型部署需要关注日志与合规？想象一下，你刚刚部署了一个功能强大的大语言模型，它能够处理复杂的编程问题、生成高质量的文档，甚至能进行多轮深入的对话。但很快，你可能会遇到一些棘手的问题：谁在调用这个模型？他们问了什么？模型回答了哪些内容？有没有生成不合适或敏感的信息？当模型出现异常时，我们该如何追溯问题？这些问题，正是审计日志和合规性配置要解决的核心。今天，我们就以Qwen2.5-72B-Instruct-GPTQ-Int4这个开源大模型镜像为例，手把手带你完成从基础部署到高级审计配置的全过程。这不仅仅是一个技术教程，更是一套确保你的AI应用安全、可控、可追溯的工程实践方案。通过本文，你将学会： * 如何快速部署Qwen2.5-72B-Instruct-GPTQ-Int4模型 * 如何配置完整的审计日志系统，记录每一次模型交互 * 如何设置合规性检查，自动过滤敏感内容 * 如何将这些配置应用到实际的生产环境中无论你是个人开发者、企业技术负

关闭Visual Studio 2022中Copilot的AI自动代码补全功能

第一步：找到VS页面右上角的Copilot标志第二步：点击“设置”，选择“选项”，出现如图所示窗口。取消勾选“启用Copilot完成”，点击“确定”，即可关闭VS中Copilot自动代码补全。

2026必备10个降AIGC工具，研究生必看！

2026必备10个降AIGC工具，研究生必看！ AI降重工具：研究生论文的“隐形助手” 在当前学术环境中，随着人工智能技术的广泛应用，论文中出现的AIGC痕迹越来越容易被检测系统识别。对于研究生而言，如何在保证论文质量的同时，有效降低AI生成内容的比例，成为一项重要课题。AI降重工具应运而生，它们通过智能分析和语义优化，帮助用户去除明显的AI痕迹，同时保持文章的逻辑性和可读性。这些工具不仅能够提升论文的原创性，还能显著降低查重率，为最终提交提供有力保障。从整体来看，AI降重工具的核心优势在于其智能化处理能力。它们能够识别出重复、冗余或过于机械化的表达，并通过同义替换、句式调整等方式进行优化，使文章更加自然流畅。与此同时，这些工具还具备强大的语义理解能力，确保在修改过程中不破坏原有的学术表达和专业术语。无论是初稿的快速处理，还是定稿前的细致调整，AI降重工具都能提供高效、精准的支持。工具名称主要功能适用场景千笔强力去除AI痕迹、保语义降重AI率过高急需降重云笔AI多模式降重初稿快速处理锐智 AI综合查重与降重定稿前自查文途AI操作简单片段修改降重鸟同义词替换小幅度修改笔