又到了一年一度年终总结时刻,不过今年这篇总结,跟往年的不同,今年只聊 LLM。
2024 年是 LLM 蓬勃发展的第二年,发展确实十分迅速,层出不穷的新技术也让很多人看清了 LLM 现有的缺点。今天就跟大家分享一下 2024 年做了一年 LLM 的感受。
LLM 的开源社区让我大为震惊
首先感谢一波 Qwen。其次,我要先承认,我是 Qwen 吹。对不起,只感谢 Qwen 确实对其他开源模型有些不公,但实事求是的讲,论模型尺寸的多样性、更新的速度、以及全面性,Qwen 确实开的够多。
当然 Llama、GLM、Yi、DeepSeek、MiniCPM 等等,也都在发力中,甚至前两天 DeepSeek 还开泼大的,671B,也是望尘莫及,虽然看着很强,但是我真没法跑,真没那么多卡。但反过来想一想,这也是 LLM 应用落地的现状,有时候从成本和推理优化的角度出发,本地化部署不如 API 调用,但出于数据安全等考虑,又不得不直接僵住。
此外开源的很多端侧模型(SLM)也是发展的很好,在降级成本的情况下,很多任务上做的都很不错。
我有个朋友说,做人最忌讳是既要有要,参数量就在那儿摆着呢,要不就别用 SLM,既然已经决定想省了,就别那么在乎效果了。
我又要祭出我拿着陈年老图了,虽然很多新模型还没放到上面,但是足以说明,开源社区做的越来越好,不能说智能性已经追赶上了闭源模型,但是在大多数任务上,开源模型已经可以做的足够好了。

最后,我想说,虽然在闭源模型上,中国相较于国外是还有一定差距,但在开源模型上,我想大声喊出那句,'我们是冠军'!请别再无脑吹'Llama'了,我们也有,而且更强!起码 2024 年是这样!
做好数据就等于 LLM 已经做好了 90%
90% 是我随便说的哈,爱较真的朋友不要在意,理解我想表达的意思就行,就是数据很重要。
其实 2023 年的时候,我们已经知道数据的重要性了,数据的质和量都很重要。很多的算法工程师的日常工作就是洗数据,不愿面对也没有办法,这就是事实。
无论是在 Pre-training 阶段,还是 Post-training 阶段,数据的合成与收集、高质量数据过滤、多样性筛选都是必不可少的。单机的模型微调 deepspeed 足够保证训练效率,又有多少人真正读过 megatron 的代码呢?不过有时也真的没必要,可能真的也用不上,很多时候修改数据路径,修改模型保持路径之后,直接 bash sft_train.sh 就结束了。
所以,大部分时间还是在做数据的工作。
同时,合成数据也成为了 2024 年的关键词,在 Post-training 阶段,合成数据已经成为了必不可少的内容,而且在 Phi-4 的报告中也显示,预训练阶段,合成数据使用的占比也是高达 40%。

图片来自:Phi-4 Technical Report
并且 Ilya 在 NeurIPS 2024 的演讲中也提到'Synthetic data'是未来的发展方向,可见合成数据的重要性。
说回数据的重要,现在对于很多企业或者产品的核心竞争力,我依然依然是数据。
我有个朋友,每次在 Qwen、LLama 等大模型有更新的时候,就说今年的 KPI 稳了,直接老数据 + 新模型,效果又拉满了!
那么如果没有老数据的你,该怎么办!所以现在对于大多数人或企业来说,数据的积累(数据本身、数据合成的方法、数据清洗的方法)才是现在的核心竞争力。
当然,随着模型的不断发展,本身使用的数据越多,那么对没那么封闭的领域的冲击也会越来越大,这也无法避免的,基础的 LLM 终将会吃掉一些领域的。
还有,你觉得为什么会有那么多 API 免费调用,我不说,大家自己体会。
我有个朋友,经常说你的数据其实也是垃圾,别人也不一定使用,所以也不用担心,想那么多。
最后,想吐槽一下,别老想着三五百条微调大模型,真没必要,不如 ICL+ 动态示例,来的实在~~~









