2024 年大模型实践中的收获与反思

2024 年大模型发展迅速，开源社区进步显著，Qwen 等国产模型表现优异。数据质量成为核心竞争力，合成数据在训练占比提升。Continue-Pretrain 因成本和通用性影响减少，Post-training 更受重视。RAG 落地面临文档解析、向量召回及多模态处理挑战，GraphRAG 成本较高。Agent 概念火热但实际落地多为 WorkFlow，稳定性优于动态决策。多模态模型在复杂任务中稳定性不如纯文本 LLM。O1 模型通过强化学习和推理时间扩展开辟新路径。2025 年发展方向聚焦于智能体、合成数据及推理计算优化。

蓝绿部署发布于 2025/2/6更新于 2026/7/3154 浏览

又到了一年一度年终总结时刻，不过今年这篇总结，跟往年的不同，今年只聊 LLM。

2024 年是 LLM 蓬勃发展的第二年，发展确实十分迅速，层出不穷的新技术也让很多人看清了 LLM 现有的缺点。今天就跟大家分享一下 2024 年做了一年 LLM 的感受。

LLM 的开源社区让我大为震惊

首先感谢一波 Qwen。其次，我要先承认，我是 Qwen 吹。对不起，只感谢 Qwen 确实对其他开源模型有些不公，但实事求是的讲，论模型尺寸的多样性、更新的速度、以及全面性，Qwen 确实开的够多。

当然 Llama、GLM、Yi、DeepSeek、MiniCPM 等等，也都在发力中，甚至前两天 DeepSeek 还开泼大的，671B，也是望尘莫及，虽然看着很强，但是我真没法跑，真没那么多卡。但反过来想一想，这也是 LLM 应用落地的现状，有时候从成本和推理优化的角度出发，本地化部署不如 API 调用，但出于数据安全等考虑，又不得不直接僵住。

此外开源的很多端侧模型（SLM）也是发展的很好，在降级成本的情况下，很多任务上做的都很不错。

我有个朋友说，做人最忌讳是既要有要，参数量就在那儿摆着呢，要不就别用 SLM，既然已经决定想省了，就别那么在乎效果了。

我又要祭出我拿着陈年老图了，虽然很多新模型还没放到上面，但是足以说明，开源社区做的越来越好，不能说智能性已经追赶上了闭源模型，但是在大多数任务上，开源模型已经可以做的足够好了。

开源模型能力对比图

最后，我想说，虽然在闭源模型上，中国相较于国外是还有一定差距，但在开源模型上，我想大声喊出那句，'我们是冠军'！请别再无脑吹'Llama'了，我们也有，而且更强！起码 2024 年是这样！

做好数据就等于 LLM 已经做好了 90%

90% 是我随便说的哈，爱较真的朋友不要在意，理解我想表达的意思就行，就是数据很重要。

其实 2023 年的时候，我们已经知道数据的重要性了，数据的质和量都很重要。很多的算法工程师的日常工作就是洗数据，不愿面对也没有办法，这就是事实。

无论是在 Pre-training 阶段，还是 Post-training 阶段，数据的合成与收集、高质量数据过滤、多样性筛选都是必不可少的。单机的模型微调 deepspeed 足够保证训练效率，又有多少人真正读过 megatron 的代码呢？不过有时也真的没必要，可能真的也用不上，很多时候修改数据路径，修改模型保持路径之后，直接 bash sft_train.sh 就结束了。

所以，大部分时间还是在做数据的工作。

同时，合成数据也成为了 2024 年的关键词，在 Post-training 阶段，合成数据已经成为了必不可少的内容，而且在 Phi-4 的报告中也显示，预训练阶段，合成数据使用的占比也是高达 40%。

Phi-4 技术报告数据占比图