如何在Llama-Factory中自定义损失函数？高级用法指南

优质文章学习记录

11 Apr 2026 — 7 min read

如何在 Llama-Factory 中自定义损失函数？高级用法指南

在大模型微调日益普及的今天，越来越多的实际任务开始暴露出标准训练流程的局限性。比如，你在训练一个金融客服机器人时发现，尽管整体准确率不错，但模型总是“忽略”那些关键却少见的问题——像“账户被冻结怎么办”这类高风险咨询，出现频率低、样本少，结果在交叉熵损失主导下被梯度淹没。这时候，你真正需要的不是更多数据，而是一种能表达业务优先级的损失函数。

这正是 Llama-Factory 作为现代微调框架的价值所在：它不仅让你“跑得起来”，更允许你深入到底层训练逻辑，把领域知识、工程经验甚至产品目标，编码进模型的学习过程中。其中最关键的入口之一，就是自定义损失函数。

Llama-Factory 基于 Hugging Face Transformers 构建，底层使用 PyTorch，其训练流程遵循典型的因果语言建模范式。默认情况下，Trainer 类会调用内置的 CrossEntropyLoss 来计算 token 级别的预测误差。这个过程看似固定，实则留出了清晰的扩展点——只要你重写 compute_loss 方法，就能完全接管损失计算逻辑。

这种设计并非偶然。它的核心思想是：训练引擎负责调度和优化，而损失函数定义“什么是对的”。 换句话说，框架管“怎么学”，你来决定“学成什么样”。

举个例子，标签平滑（Label Smoothing）是一种常见的正则化技术，用于防止模型对训练标签过度自信。虽然 Hugging Face 的 Trainer 支持通过参数启用，但在某些场景下你需要更细粒度的控制，比如动态调整平滑强度或结合其他监督信号。这时，直接定制 compute_loss 就成了最灵活的选择。

import torch import torch.nn as nn from transformers import Trainer class CustomTrainer(Trainer): def __init__(self, label_smoothing=0.0, **kwargs): super().__init__(**kwargs) self.label_smoothing = label_smoothing self.ce_loss = nn.CrossEntropyLoss(reduction="none") def compute_loss(self, model, inputs, return_outputs=False): labels = inputs.get("labels") outputs = model(**inputs) logits = outputs.get("logits") # Shift for causal language modeling shift_logits = logits[..., :-1, :].contiguous() shift_labels = labels[..., 1:].contiguous() flat_logits = shift_logits.view(-1, shift_logits.size(-1)) flat_labels = shift_labels.view(-1) if self.label_smoothing > 0: vocab_size = flat_logits.shape[-1] with torch.no_grad(): true_probs = torch.full_like(flat_logits, self.label_smoothing / (vocab_size - 1)) true_probs.scatter_(1, flat_labels.unsqueeze(1), 1 - self.label_smoothing) log_probs = torch.log_softmax(flat_logits, dim=-1) loss = -(true_probs * log_probs).sum(dim=-1).mean() else: loss = self.ce_loss(flat_logits, flat_labels).mean() return (loss, outputs) if return_outputs else loss

这段代码的关键在于，它没有改动任何训练流程，只是替换了损失计算部分。你可以把它看作一个“插槽”——只要返回的是标量 loss，PyTorch 就能自动完成反向传播。这意味着你的自定义逻辑可以非常复杂，比如引入对比学习项、KL 散度约束，甚至是基于外部奖励的强化学习目标。

更重要的是，Llama-Factory 提供了配置驱动的加载机制。你不需要修改主程序，只需将上述类保存为 trainers/custom_trainer.py，然后在 YAML 配置中声明：

trainer_type: custom custom_trainer_path: ./trainers/custom_trainer.py label_smoothing: 0.1

框架会在初始化时动态导入并实例化你的 CustomTrainer，自动注入所有配置参数。这种插件式架构让实验迭代变得极其高效：换损失就像换电池一样简单。

但别忘了，灵活性也意味着责任。当你跳出默认路径时，有几个坑必须警惕。

首先是梯度稳定性。如果你在损失中加入了复杂的数学运算，比如除法、对数或指数操作，稍不注意就会导致 NaN 或梯度爆炸。建议始终用 torch.clamp 对输入做裁剪，并在调试阶段开启 torch.autograd.set_detect_anomaly(True) 来捕捉异常源头。

其次是分布式训练兼容性。在多 GPU 场景下，每个设备只看到一部分 batch。如果你在损失中做了全局归一化或统计量计算（如均值、方差），必须确保这些值是在所有设备上同步聚合过的。否则，梯度更新会不一致。好在 Llama-Factory 默认使用 DistributedDataParallel，你可以借助 torch.distributed.all_reduce 手动同步张量，或者干脆避免跨设备依赖。

再来看内存效率。长序列任务中，一次性展开所有 token 的 logits 和 labels 可能占用巨大显存。例如，一个 batch size 为 8、序列长度为 8192 的输入，展平后的形状是 (8*8192, vocab_size)，对于 32K 词表来说就是近 2GB 的中间张量。解决办法是分块计算或使用 reduction='none' 后按需降维，而不是盲目 .mean()。

还有一个常被忽视的点是日志可解释性。当你加了权重、平滑或多个损失项时，最终的 loss 值已经不能直接和原始交叉熵比较了。建议在训练日志中同时输出原始 loss 和加权后的 total loss，方便分析收敛行为。Llama-Factory 支持 TensorBoard，你可以轻松记录这些辅助指标：

if self.args.local_rank == 0: # 主进程记录 self.log({"base_loss": base_loss.item(), "weighted_loss": weighted_loss.item()})

说到实际应用，我们再回到那个金融客服的例子。假设你有一组标注好的问题类别，其中“退款政策”、“账户安全”等属于高优先级。与其靠数据过采样来提升曝光，不如直接在损失层面赋予它们更高权重：

def compute_loss(self, model, inputs): labels = inputs["labels"] category_ids = inputs.get("category_id", None) outputs = model(**inputs) logits = outputs["logits"] shift_logits = logits[..., :-1, :].contiguous() shift_labels = labels[..., 1:].contiguous() loss_per_token = self.ce_loss(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1)) # Reshape to [batch_size, seq_len] and average over sequence loss_per_sample = loss_per_token.view(labels.size(0), -1).mean(dim=1) if category_ids is not None: class_weights = { 0: 1.0, # login_issue 1: 5.0, # refund_policy 2: 8.0, # account_frozen 3: 1.5 # feature_request } weights = torch.tensor([class_weights[cid.item()] for cid in category_ids], device=loss_per_sample.device) loss_per_sample = loss_per_sample * weights return loss_per_sample.mean()

这种方法的优势在于，它不改变数据分布，避免了因重复采样带来的噪声放大；同时又能精准地将业务意图转化为可优化目标。而且，权重参数完全可以从配置文件读取，做到代码与策略解耦。

类似的思路还能拓展到更多高级场景：

Focal Loss：抑制易分类样本的贡献，聚焦难例；
Contrastive Loss：在检索增强问答中拉近 query 与 positive passage 的表示距离；
KL Div Loss：在蒸馏任务中对齐教师模型与学生模型的输出分布；
Multi-task Learning：联合优化生成任务和分类任务，共享主干网络。

这些都不是理论设想，而是已经在推荐系统、医疗诊断、法律文书生成等领域落地的技术实践。关键在于，你是否拥有一个足够开放的框架来承载这些创新。

Llama-Factory 的真正优势，不只是支持 LoRA、QLoRA 这些热门技术，而是它把整个微调链条打开给你看，并告诉你：“这里也可以改。” 它的设计哲学很明确：通用性解决共性问题，可扩展性应对个性需求。

这也解释了为什么它能在众多微调工具中脱颖而出。相比 Alpaca-LoRA 这类脚本型项目，它提供了 WebUI 和模块化 API；相比纯 CLI 工具，它又保留了深度定制的空间。无论是想快速验证想法的研究者，还是需要稳定交付的企业开发者，都能找到自己的位置。

未来的大模型训练，不会停留在“喂数据、调 learning rate”的层面。随着应用场景越来越复杂，我们需要的是语义感知的优化目标、任务感知的损失结构，甚至是用户反馈驱动的动态调整机制。而这一切的起点，往往就是一个被重新定义的 compute_loss 方法。

当你能把“这个问题很重要”翻译成“这个样本的损失要翻倍”，你就不再只是在训练模型，而是在塑造它的价值观。这才是高级微调的真正意义。

Hunyuan-MT-7B-WEBUI快速上手：10分钟完成翻译服务部署

Hunyuan-MT-7B-WEBUI快速上手：10分钟完成翻译服务部署 1. 这不是普通翻译工具，是能开箱即用的专业级多语种翻译服务你有没有遇到过这些情况： * 需要快速把一份维吾尔语产品说明书转成中文，但主流翻译API不支持； * 客户发来一封西班牙语技术邮件，想立刻看懂又不想反复粘贴到网页版； * 团队在做跨境内容运营，每天要处理日、法、葡、西四语种的社媒文案，但人工翻译成本太高…… Hunyuan-MT-7B-WEBUI 就是为这类真实需求而生的——它不是另一个需要调接口、写代码、配环境的“半成品模型”，而是一个预装好、点开就能用、连GPU显存都帮你算好了的完整翻译服务。它背后跑的是腾讯混元团队开源的 Hunyuan-MT-7B 模型，专为高质量机器翻译设计，在 WMT2025 多语种翻译评测中拿下30个语种综合第一。更关键的是，它不是只支持“中英日韩”这种常见组合，而是实打实覆盖了38种语言互译，包括日语、法语、西班牙语、葡萄牙语、阿拉伯语、俄语、越南语、泰语、印尼语，以及维吾尔语、藏语、蒙古语、壮语、

美食推荐商城设计与实现信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

摘要随着互联网技术的快速发展和电子商务的普及，线上美食推荐商城逐渐成为消费者获取美食信息和购买相关产品的重要渠道。传统的美食推荐方式存在信息分散、个性化不足等问题，难以满足用户多样化的需求。基于此，开发一个高效、智能的美食推荐信息管理系统具有重要的现实意义。该系统能够整合各类美食资源，通过数据分析为用户提供精准推荐，同时优化商城的运营管理流程，提升用户体验和商业价值。关键词：美食推荐、电子商务、信息管理、个性化推荐、数据分析。本系统采用前后端分离的架构设计，后端基于SpringBoot框架实现，具备高效的数据处理和接口服务能力；前端采用Vue.js框架开发，提供流畅的用户交互体验；数据库选用MySQL，确保数据存储的安全性和稳定性。系统主要功能包括用户管理、美食分类展示、智能推荐算法、订单管理及数据分析等模块。通过JWT实现用户身份认证，结合协同过滤算法提升推荐精准度，同时利用ECharts实现数据可视化，为管理员提供决策支持。系统源码完整，可直接运行，便于二次开发和实际部署。关键词：SpringBoot、Vue.js、MySQL、JWT、协同过滤、数据可视化。数据表用

Flutter 三方库 deepyr 的鸿蒙化适配指南 - 在鸿蒙系统上构建极致、高颜值的类型安全 daisyUI 响应式 Web 应用架构

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 deepyr 的鸿蒙化适配指南 - 在鸿蒙系统上构建极致、高颜值的类型安全 daisyUI 响应式 Web 应用架构在鸿蒙（OpenHarmony）系统的分布式 Web 容器、轻量级 JS 服务或高性能 Web 控制台中，如何快速搭建一套既符合现代审美又具备强类型约束的 UI？deepyr 做为对 daisyUI 组件库的类型安全（Typesafe）封装，为鸿蒙上的 Jaspr Web 应用提供了极致流畅的开发体验。本文将带您领略其在鸿蒙生态中的美学实战。前言什么是 Deepyr？它是一套基于 Jaspr（下一代 Dart Web 框架）的 UI

从零开始玩转PaddleOCR-VL-WEB：Jupyter一键启动教程

从零开始玩转PaddleOCR-VL-WEB：Jupyter一键启动教程 1. 简介与学习目标 PaddleOCR-VL-WEB 是基于百度开源的 PaddleOCR-VL 技术构建的一款高效、多语言支持的文档解析系统。该模型融合了动态分辨率视觉编码器与轻量级语言模型，能够在低资源消耗下实现对文本、表格、公式和图表等复杂元素的高精度识别，广泛适用于全球化场景下的智能文档处理任务。本文将带你从零开始部署并使用 PaddleOCR-VL-WEB 镜像，通过 Jupyter Notebook 实现一键启动网页推理服务。无论你是 AI 初学者还是有一定工程经验的开发者，都能快速上手，完成本地化 OCR 大模型的部署与调用。学习目标 * 掌握 PaddleOCR-VL-WEB 镜像的基本结构与核心能力 * 完成镜像部署与环境配置 * 在 Jupyter 中执行一键启动脚本 * 使用 Web 界面进行图像 OCR 推理 * 理解常见问题及解决方案前置知识 * 基础 Linux 操作命令（cd、ls、chmod 等）