大模型训练实战经验总结

大模型训练实战经验总结 | 极客日志

{
    "completion": "下埔，是台湾宜兰县头城镇的一个传统地域名称...",
    "source": "wikipedia.zh"
}

{
    "instruction": "你是谁？",
    "input": "",
    "output": "我是一个由 XXX 自主训练的生成式自然语言处理模型...",
    "history": [
        ["你好", "你好呀！请问有什么需要帮助的地方？"]
    ]
}

{
    "instruction": "我需要举办 6 人晚宴。你能帮我推荐三道不包括坚果或海鲜的菜吗？",
    "input": "",
    "output": [
        "好的，我将为您推荐三道不包含坚果或海鲜的菜...",
        "尖椒干豆腐，土豆丝，红烧肉",
        "如果是六个人，就点八个菜..."
    ],
    "history": []
}

{
    "instruction": "解释为什么下面的分数等于 1/4\n4/16",
    "input": "",
    "output": [
        "分数 4/16 等于 1/4，因为分子和分母都可以被 4 整除...",
        "1/4 与 1/4 相同。"
    ]
}

大模型训练实战经验总结

大模型训练实战经验总结

背景与核心价值

定制化需求

数据隐私和安全

更好的模型使用

数据处理：巧妇难为无米之炊

数据的清洗步骤

什么是数据配比？数据配比有什么用？

训练基础：工欲善其事

大模型的训练如何简单地理解

显存资源需求分析（全量训练）

训练优化策略补充

微调方案选择

基模型的 Base 和 Chat 选择

LoRA 训练详解

数据格式规范

二次预训练（Pre-train, PT）

有监督学习（Supervised Finetune, SFT）

奖励模型（Reward Model, RM）

DPO / PPO 直接偏好优化

中文大模型训练经验

垂域模型的二次预训练数据选择

如何解决 SFT 训练变傻的问题

常见的模型测评内容

结语

更多推荐文章

相关免费在线工具

大模型训练实战经验总结

大模型训练实战经验总结

背景与核心价值

定制化需求

数据隐私和安全

更好的模型使用

数据处理：巧妇难为无米之炊

数据的清洗步骤

什么是数据配比？数据配比有什么用？

训练基础：工欲善其事

大模型的训练如何简单地理解

显存资源需求分析（全量训练）

训练优化策略补充

微调方案选择

基模型的 Base 和 Chat 选择

LoRA 训练详解

数据格式规范

二次预训练（Pre-train, PT）

有监督学习（Supervised Finetune, SFT）

奖励模型（Reward Model, RM）

DPO / PPO 直接偏好优化

中文大模型训练经验

垂域模型的二次预训练数据选择

如何解决 SFT 训练变傻的问题

常见的模型测评内容

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具