做LLM的两年感悟,2024年终总结

LLM 的第二年就要结束了,如果 2023 年的主题叫“从零到一”,那么 2024 年的主题无疑是“颠覆认知”。
过去的颠覆
年初的观点,年末的笑话,在 LLM 的大时代下,技术的迭代变更就是这么快,当下的认知和见解很可能三个月后就被打脸。
如果细分这些被颠覆的认知,其背后大概有两个层面的原因:
- 实践出真知:很多原本符合直觉的东西,在实际做了之后,就会发现未必如此。例如,在实操 continue pretrain 之前,我以为更多的 pretrain 语料会让模型通用和领域都有提升,实操之后我意识到“领域能力的增强一定伴随着通用能力的下降,cpt 无法提升模型通用能力”,cpt 的重心应放在如何防止通用能力丢失,而不是如何强化领域能力。强如 qwen 团队,为了提高 qwen2.5 的 math / code 能力,某些中文通用场景较 qwen2 略有下降;为了提高 qwen2.5 的逻辑推理能力,模型经常会不遵循“直接输出答案” 这一指令。
- 机械降神:OpenAI 几乎是以一己之力,逼迫所有从业者接受“用推理时间换取模型在复杂问题上的准确性”这一方案,在那之前,几乎没有团队敢如此尝试(由于尚不知道 o3 的技术路线,本文我依然用 o1 指代逻辑推理增强模型)。
无论是在实践中摸爬滚打,还是听大神指点迷津,都间接促进了大模型从业者们的进步,本质上是一桩喜事。我毫不质疑,我这篇文章的观点和想法依旧会被颠覆,但无所谓了,学新知识嘛,被打脸不寒碜。墨守陈规踌躇不前,跟不上前沿技术的步伐,那才是丢人的事情。
言归正传,从年初到年末,今年到底有多少被颠覆的认知呢?大概如下吧:
- 角色扮演模型大红大紫 —— 付费聊天无人买单
- agent 近在咫尺 —— agent 前路漫漫
- 文本退位,多模态是 AGI 的未来 —— o1 有话说:AGI 的辟路先锋还是文本
- dpo 简单好用 —— o1 有话说:rl 是 llm 核心技术
- llm 不适合复杂逻辑推理 —— o1 有话说:啊?
- llm 需要更快更好 —— inference_scaling_law:要想好,就得慢
- moe 是 GPT4 的关键 —— 黑客的情报害人不浅
- llama:行业的灯塔 —— qwen / deepseek:国产的荣光
- 初创公司勃勃生机 —— bytedance:请问 money 这个单词怎么读
- ……
这些被颠覆的认知大概就是过去一年的国产大模型发展总结吧 —— 以“role_play / agent / 多模态”三驾马车为开场,以国产开源模型崛起为高潮,以 o1 横空出世为落幕。
当下的迷茫
目前,大模型已经能覆盖 95% 用户的需求了:信息抽取,文案设计,表格生成,简单代码,简单问答…… 乍一看这似乎是件喜事,可作为从业者的我却开心不起来一点。一个不可忽视的“矛盾”摆在眼前:这 95% 的需求均是简单任务,并不需要模型有很强的能力,那剩下的 5% 涉及到复杂逻辑推理的需求,到底该不该继续投入呢?
行百里者半于九十,这 5% 的需求背后,是 AGI 的技术瓶颈,是以 o1 为代表的新技术范式,是算法从业者最想深钻最想花时间去攻克的难题 —— 但同时,也是天价的算力投入。
继续加大投入,也许 2025 年上半年国产大模型就能追上 o1 的脚步,但收益呢?攻克了 5% 的难题并不会带来更多的日活,大部分的用户并不需要模型有复杂的逻辑能力。甚至连互联网圈最引以为傲的技术影响力都不一定能获得,有影响力需要建立在 OpenAI 没有抛出新技术方向的前提下。
我的子标题是“当下的迷茫”,不过实话说我毫不迷茫,我是一定要去学最前沿的技术方向的。我只是有点担心我的老板会迷茫,进而导致我的精力无法全部投入在这些方向。哎,倒也无妨,有一种加班叫为自己加班。
还是希望每个老板都能支持自己的员工去攻克新的技术瓶颈,求求了,满足下孩子们的技术梦吧!
未来的方向
“合成数据,Agent,o1”是曹宇老师认可的未来比较重要的三个方向,我十分认同,而且我觉着这三个方向的提出是有逻辑关系在的:
- 合成数据是基石:如 Ilya 所说,我们只有一个互联网来提供数据,因此我们需要更多更好的 pretrain / alignment 数据;
- o1 是技术手段:通过 o1,让 llm 具有逻辑思考能力,一个不会思考的模型是和智能毫不沾边的;
- agent 是目标:AGI 的最终目标一定是 agent,这个毋庸置疑。
每个人对 agent 都有自己的理解和定义,我的定义则是:一个能与环境进行交互的智能体。
前面我说过,2024 年初的时候,大家都认为 agent 很快就能实现。为什么?因为 function_call 的技术路线已经突破了。通过让 function_call 调用 API,我们轻易就能让 llm 和环境进行交互。然后,各家公司的 agent 模型应运而出,却都像一个没灵魂的躯壳,完全让用户提不起兴趣。
问题出在哪里?我个人觉着是这个 agent 没有思考能力,导致和环境的交互太死板了。毕竟目前的 function_call,本质就是把一堆 if else 语句变成训练语料让模型来背,遇见代码就 call_python_API,遇见天气就 call_weather_API。当我把 prompt 写出来的时候,就能预测到模型会调什么函数了。
如果我们给 function_call 再配一个大脑(o1)呢?试想一下:
- 我们给模型抛出一个问题,模型通过 cot 认为自己的知识无法回答,于是调用了 call_rag;
- 拿到 rag 结果后再 cot,发现 rag 的结果有很多冲突的内容,感觉不是很置信,于是修改了 query 并且再次 call_rag;
- 检索结果还是很奇怪,通过 cot,模型决定不再 call_rag 了,它去 call_other_llm 了,把问题抛给别的模型,拿到别的模型的结果并返回给了你;
- 你发现它花了很长时间还是给了错误答案,很生气,喷它了;
- 它很委屈,通过 cot 反思自己,觉着自己已经做出了当下的最优抉择,就决定把自己的三次调用 API 的过程告诉你,向你解释它尽力了。
- ……
一个配备了大脑和 function_call 的模型,“模型与环境交互几次 / 什么时机下交互 / 该用什么交互方式” 都是通过 cot 思考出来的,而不是通过 sft 给训死的。我们每次和它交互的结果都是无法预测的,它的每一条回复,每一次调用 API 都是有理有据的,甚至因为 do_sample 的缘故每次脑回路还会不太一样。换言之,它的回复全是惊喜!
我不知道大家对 agent 的定义是怎么样的,但如果能成功把 o1 加持给 agent,我认为我心中的 agent 是已经实现了 —— 数据 + o1 + agent,冲冲冲!
大模型的效果是如此惊艳,以至于大家无法判断,距离 AGI 的最后一步到底是触手可及,还是咫尺天涯 —— 希望 2025 年可以看出一些端倪吧。

如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
