LLM 论文淘金：大模型精选论文解读与实用建议

探讨了大模型领域论文的筛选标准与实用价值。核心观点认为评估工作的重要性高于训练工作，因为当前训练技巧趋于定型，而评估瓶颈限制了经验积累。建议优先阅读 ArXiv 上的最新成果而非等待顶会，企业实践论文比高校理论更具指导意义。在论文选择上，应关注是否有数学证明，避免盲目追求刷榜和内卷。同时指出可解释性工作虽有趣但非当前核心，网络结构与训练方法类论文需甄别质量。整体主张保守阅读，依赖权威验证后再跟进学习。

狂少发布于 2025/2/6更新于 2026/7/2137 浏览

技术报告

当下最有含金量的论文值得反复阅读。重点留意方向包括：方法创新、预训练（pretrain）数据配比、预训练超参数设置、退火阶段策略、监督微调（SFT）的任务种类与数据量级、DPO/ppo 训练技巧以及合成数据生成方法等。

从开源贡献度来看，国外如 Mistral，国内如 MiniCPM 在模型开放方面较为大方。OpenAI 2023 年以前的论文属于经典之作，值得反复品味，当时它们更注重技术影响力而非商业秀肌肉。现在发布的内容往往带有更强的商业目的或存在信息不对称。

评估 > 训练

这一观点需要重点分析。大模型发展至今，除非 OpenAI 推出突破性优化或有人提出类似 Flash Attention、RoPE 的惊世创举，否则预训练、SFT、DPO 等训练方法和技巧已基本定型。核心变量集中在 Scaling Law、数据配比、学习率、优化器选择、退火阶段、梯度裁剪、正则化、正负例 Loss 调整以及网络结构的引入或移除等方面。

如何确定是否加入某个技巧？如何确定正确使用方法？学习率和数据配比的具体数值是多少？SFT 该使用多少数据？这些问题目前主要靠'经验'回答，理论支撑相对薄弱。

我们需要一个可靠的评估结果来辅助实验分析，通过倒果为因的方式解释某个训练技巧是否有效。计算机作为一门经验学科，依靠丰富经验进行判断并非贬义。几年前，分析 BERT 结构相比于 RNN 结构更优越属于 NLP 八股文；当下，分析 Transformer 结构的优异性也已成为 LLM 领域的共识基础。

然而，业界目前缺乏高效、全面且快速的评估手段。常用的评估方式主要有以下几种：

刷 Benchmark：盲目相信白盒 Benchmark 结果并不靠谱。大家都刷 C-Eval、MMLU，不刷就无法获得关注，这形成了一个死循环。
自动化评估：效果不稳定。例如 AlignBench、MT-Bench 这类榜单，用 GPT-4 跑 10 次，最好和最差结果可能相差十几个点。
人工评估具体 Case：好用且有用，但速度慢、成本高，不适合大规模指导训练。

此外，做题能力不能完全反映模型的真实能力，可能需要从分布等更深层次内容分析。即使 GSM8K、MathQA 等评测集未被提前训练过，也不完全等同于数学能力，模型可能存在记忆现象。

因此，评估依旧是当下最大的瓶颈。谁评估快、谁评估准，谁就能积攒更多训练经验。这也引出了一个观点：评估工作的论文含金量比单纯训练工作的论文更高。无论是提出新方法还是构建评测集，都应认真研读，或许能转化为自动化评估 Pipeline。

关于开源模型刷榜的点评：Benchmark Top1 的位置频繁易主，换汤不换药的现象普遍。部分厂商对标的是 OpenAI，但实际能力差距明显。目前主流网络结构多为 Llama 架构，Qwen2 等虽为优秀开源模型，但直接对标 GPT-4 仍显吃力。内卷式刷榜本身衡量不了模型真实能力，务实一点应先搞懂 Scaling Law 理念。评测集建得再好，拿来训了干什么？在 GSM8K 数据集上拿 99.9% 准确率并不能代表解决了实际问题。

ArXiv > 顶会

虽然看似倒反天罡，但事实确实如此。顶会论文投稿周期太长，半年才发布，而大模型行业半年足以重新洗牌。各公司做的有意义的工作，都要抓紧时间发表以提高技术影响力，即使最终发表在顶会上，大概率也在几个月前已泄露在 ArXiv 上。

企业 > 高校

只有清华等少数机构有足够的机器去实操大模型训练，许多高校大佬已流向企业实习。由于缺乏算力和批量访问 API 的资金，高校工作多集中在 LoRA 微调、小模型微调、幻觉解决、Prompt Engineering 等工作。说实话，对实际工作的指导意义有限，有时显得华而不实。不如听听企业讲的洗数据经验。企业写出来的文章，至少是玩过百卡规模的人写的，对解决实际问题往往更有帮助。

纯文本 vs 多模态

大势所趋，纯文本能做几个产品？多模态有不能做的产品吗？学有余力的时候，早早了解多模态肯定没坏处。

可解释性工作

建议当作课外读物。这种论文读起来非常有意思，感觉醍醐灌顶，马上就可以把大模型玩弄于股掌之中，但实际情况是连手头的模型问题都解决不了。我个人非常推崇可解释性的工作，但不能太把它们当回事，这不是现阶段该考虑的核心方向。

网络结构 / 训练方法工作

这两种论文放在一起谈，特点相似：鱼龙混杂。上限可以很高，类似于 RoPE 等均是类似的论文，但同时也可以是纯灌水。我的建议是：国内外大厂可以看，名校大佬可以看，有数学证明的可以看。

有没有数学证明就是这类工作的分水岭。好的工作不仅仅是观察到了实验现象，而且一定有严格的推导去证明这个现象的正确性。总之，我可以看不懂你的数学证明，但你不能没有数学证明。

以上，大抵就是我对论文实用度的判断方法，主打一个保守，'宁可错过，绝不滥读'。对于大多数人来说，不能老把自己代入伯乐的角色，总觉着自己能慧眼识珠发现有价值的工作。就像 Meta 给 RoPE 证明一样，等大佬告诉我们什么是有价值的工作就行了，再学也来得及。

LLM 论文淘金：大模型精选论文解读与实用建议

技术报告

评估 > 训练

ArXiv > 顶会

企业 > 高校

纯文本 vs 多模态

可解释性工作

网络结构 / 训练方法工作

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

LLM 论文淘金：大模型精选论文解读与实用建议

技术报告

评估 > 训练

ArXiv > 顶会

企业 > 高校

纯文本 vs 多模态

可解释性工作

网络结构 / 训练方法工作

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具