技术报告
当下最有含金量的论文值得反复阅读。重点留意方向包括:方法创新、预训练(pretrain)数据配比、预训练超参数设置、退火阶段策略、监督微调(SFT)的任务种类与数据量级、DPO/ppo 训练技巧以及合成数据生成方法等。
从开源贡献度来看,国外如 Mistral,国内如 MiniCPM 在模型开放方面较为大方。OpenAI 2023 年以前的论文属于经典之作,值得反复品味,当时它们更注重技术影响力而非商业秀肌肉。现在发布的内容往往带有更强的商业目的或存在信息不对称。
评估 > 训练
这一观点需要重点分析。大模型发展至今,除非 OpenAI 推出突破性优化或有人提出类似 Flash Attention、RoPE 的惊世创举,否则预训练、SFT、DPO 等训练方法和技巧已基本定型。核心变量集中在 Scaling Law、数据配比、学习率、优化器选择、退火阶段、梯度裁剪、正则化、正负例 Loss 调整以及网络结构的引入或移除等方面。
如何确定是否加入某个技巧?如何确定正确使用方法?学习率和数据配比的具体数值是多少?SFT 该使用多少数据?这些问题目前主要靠'经验'回答,理论支撑相对薄弱。
我们需要一个可靠的评估结果来辅助实验分析,通过倒果为因的方式解释某个训练技巧是否有效。计算机作为一门经验学科,依靠丰富经验进行判断并非贬义。几年前,分析 BERT 结构相比于 RNN 结构更优越属于 NLP 八股文;当下,分析 Transformer 结构的优异性也已成为 LLM 领域的共识基础。
然而,业界目前缺乏高效、全面且快速的评估手段。常用的评估方式主要有以下几种:
- 刷 Benchmark:盲目相信白盒 Benchmark 结果并不靠谱。大家都刷 C-Eval、MMLU,不刷就无法获得关注,这形成了一个死循环。
- 自动化评估:效果不稳定。例如 AlignBench、MT-Bench 这类榜单,用 GPT-4 跑 10 次,最好和最差结果可能相差十几个点。
- 人工评估具体 Case:好用且有用,但速度慢、成本高,不适合大规模指导训练。
此外,做题能力不能完全反映模型的真实能力,可能需要从分布等更深层次内容分析。即使 GSM8K、MathQA 等评测集未被提前训练过,也不完全等同于数学能力,模型可能存在记忆现象。
因此,评估依旧是当下最大的瓶颈。谁评估快、谁评估准,谁就能积攒更多训练经验。这也引出了一个观点:评估工作的论文含金量比单纯训练工作的论文更高。无论是提出新方法还是构建评测集,都应认真研读,或许能转化为自动化评估 Pipeline。
关于开源模型刷榜的点评:Benchmark Top1 的位置频繁易主,换汤不换药的现象普遍。部分厂商对标的是 OpenAI,但实际能力差距明显。目前主流网络结构多为 Llama 架构,Qwen2 等虽为优秀开源模型,但直接对标 GPT-4 仍显吃力。内卷式刷榜本身衡量不了模型真实能力,务实一点应先搞懂 Scaling Law 理念。评测集建得再好,拿来训了干什么?在 GSM8K 数据集上拿 99.9% 准确率并不能代表解决了实际问题。
ArXiv > 顶会
虽然看似倒反天罡,但事实确实如此。顶会论文投稿周期太长,半年才发布,而大模型行业半年足以重新洗牌。各公司做的有意义的工作,都要抓紧时间发表以提高技术影响力,即使最终发表在顶会上,大概率也在几个月前已泄露在 ArXiv 上。
企业 > 高校
只有清华等少数机构有足够的机器去实操大模型训练,许多高校大佬已流向企业实习。由于缺乏算力和批量访问 API 的资金,高校工作多集中在 LoRA 微调、小模型微调、幻觉解决、Prompt Engineering 等工作。说实话,对实际工作的指导意义有限,有时显得华而不实。不如听听企业讲的洗数据经验。企业写出来的文章,至少是玩过百卡规模的人写的,对解决实际问题往往更有帮助。
纯文本 vs 多模态
大势所趋,纯文本能做几个产品?多模态有不能做的产品吗?学有余力的时候,早早了解多模态肯定没坏处。
可解释性工作
建议当作课外读物。这种论文读起来非常有意思,感觉醍醐灌顶,马上就可以把大模型玩弄于股掌之中,但实际情况是连手头的模型问题都解决不了。我个人非常推崇可解释性的工作,但不能太把它们当回事,这不是现阶段该考虑的核心方向。
网络结构 / 训练方法工作
这两种论文放在一起谈,特点相似:鱼龙混杂。上限可以很高,类似于 RoPE 等均是类似的论文,但同时也可以是纯灌水。我的建议是:国内外大厂可以看,名校大佬可以看,有数学证明的可以看。
有没有数学证明就是这类工作的分水岭。好的工作不仅仅是观察到了实验现象,而且一定有严格的推导去证明这个现象的正确性。总之,我可以看不懂你的数学证明,但你不能没有数学证明。
以上,大抵就是我对论文实用度的判断方法,主打一个保守,'宁可错过,绝不滥读'。对于大多数人来说,不能老把自己代入伯乐的角色,总觉着自己能慧眼识珠发现有价值的工作。就像 Meta 给 RoPE 证明一样,等大佬告诉我们什么是有价值的工作就行了,再学也来得及。


