AI 时代大模型学习指南:技术原理与 Prompt 技巧总结
本文梳理了 AI 大模型的学习路径与核心技术原理。内容涵盖 GPT 系列演进、Transformer 架构解析、GPT-4 特性及 Prompt 工程实践技巧。结合 Andrej Karpathy 与陆奇的行业观点,分析大模型作为新操作系统的潜力与未来趋势,为技术人员和产品经理提供系统化的认知框架与资源指引。

本文梳理了 AI 大模型的学习路径与核心技术原理。内容涵盖 GPT 系列演进、Transformer 架构解析、GPT-4 特性及 Prompt 工程实践技巧。结合 Andrej Karpathy 与陆奇的行业观点,分析大模型作为新操作系统的潜力与未来趋势,为技术人员和产品经理提供系统化的认知框架与资源指引。

大模型无疑是近年来最热门的领域。面对如此巨大的风口,许多人产生了困惑:大语言模型真的是无所不能的吗?它真的会是下一个风口吗?个人该如何参与?
本文旨在梳理在大模型发展大潮下的学习路径,探讨其用户价值与商业价值,并整理关键的学习资料与发展趋势。
大语言模型对个人而言,除去大小公司的融资和产品八卦新闻,几乎是一个空白。不想从乱七八糟的资讯开始形成不够客观的认知立场,就要选择值得信赖的最好能有大局观的信息来源。
前 Tesla AI 高级总监 Andrej Karpathy(AK)回归 OpenAI 并在微软 BUILD 2023 发表了演讲。AK 之前在 Tesla 的 AI DAY 进行过自动驾驶介绍,从演讲语言风格和 Keynote 内容都通俗易懂、趣味性强。从他的演讲开始,是建立认知的最好选择。
AK 的视频能够对技术实现、关键环节有大致的理解,但对了解技术的边界是不够的。第一性原理出发,了解技术的实现细节,才能知道技术的边界,所以开始看 GPT 的论文。B 站有亚马逊资深首席科学家李沐的讲解视频,适合入门。
真正任职大企业、作为负责人主导过关键业务的人手把手讲解是一个很粗暴的过滤方式,暂时也没有比他们更权威的技术解读。那些挂着虚头巴脑 Title、没有任何实操项目的'专家',建议少看。
纸上得来终觉浅,绝知此事要躬行。现成的 AIGC 工具就摆在眼前,实践是最好的验证手段。选取与自己工作关联性相对强、通用性比较好的 Midjourney 和 ChatGPT,在工作和生活中强迫自己更多使用。ChatGPT 升级之后直接融合 DALL-E,实际使用中会发现大语言模型输出的稳定性、准确性和连贯性都堪忧,所以需要去研究各种技巧来提升生产效率。吴恩达的课程有 Python 实操,DAIR.AI 对技巧进行了高度浓缩,都是不错的课程。
在学习的过程中,我保留了自认为有价值的资料,并进行了粗浅的排序与分类。力求把资料中最有价值的信息总结出来。
AK 在微软 BUILD 2023 大会的演讲总长 43 分钟,分为两部分:
Wolfram 3 万字长文介绍,生动形象地介绍了 ChatGPT 的底层机制,不涉及复杂的公式,绝大部分软件从业者可以轻松阅读。ChatGPT 的本质就是基于提供的文本根据内部机制去推测下一个单词(更准确说法应该是 token)。第一次接触到这个概念的时候,对于 GPT 数学不好、证据链不足的认知就豁然开朗了。
第二个比较有趣的观点在于在处理人类样式任务的时候,解决更复杂的问题比简单问题要容易(仅技术方案和效果而言,更大的模型工程复杂度和费用投入更大),端到端解决效果更好。
最后部分关于计算语言的探讨涉及到 Wolfram 自己长期研究的方向,可以作为延伸阅读。建议通读一遍这篇文章,对 GPT 的机制有一个大致的了解,细节看不懂也没有关系。然后在了解 GPT 1-3、Transformer 和 GPT-4 的论文后,再回头强化学习,会有不少新感悟。
为了从根源开始学习,决定从 GPT-3 开始学习。李沐老师的视频直接从 GPT-1 开始干到 GPT-3,从当时最前沿的 GPT 应用,到和 BERT 的恩怨纠葛发史。
GPT-1 提到了使用到了 Transformer 的架构。Transformer 是基于机器翻译提出来,但是意想不到具有很不错的泛化性。核心解决的是 RNN 模型无法大规模并行的效率问题。论文有清晰的流程图,加上逐步解释,很好理解。部分技术细节,像 batch_norm 和 layer_norm 的区别,甚至会展开绘图讲解。
没有技术细节,只有案例和功能验证 showcase 秀肌肉,在各种人类社会的考证任务中遥遥领先,加入了视觉输入。GPT-4 在稳定性和可预测性上都有了出乎意料的提升。微调貌似不能优化大语言模型的结果正确率,但是 RLHF 可以让回答更符合公序良俗,更有'人味儿'。为了更有人味儿,GPT-4 引入了 System Message。
理论学习的同时,实践也要跟上。Prompt 工程领域在 GPT 兴起之后很快就变成热门,专业岗位薪酬水涨船高,垂直教程层出不同。关于使用技巧的学习还在持续进行中。
建议课程资料学习和上手实操同时进行,不管是直接用 ChatGPT 还是撸代码。实践是验证自己到底搞懂没的唯一标准。
DAIR.AI 视频质量尚可,演讲者带有一定的口音,字幕也校对得不是很好。不过强烈推荐,视频较短,浓缩了 Prompt 基础概念介绍、当下热门的技巧及案例讲解(Few-Shot、CoT、Self-Consistency、Knowledge Generation、PAL、ReAct)、常用工具、机会和发展(安全、越狱、RLHF,其他)。具有一定的知识基础之后很容易理解和接受。
吴恩达教学视频拆分为 9 个章节,层层递进拓展关于 ChatGPT 的核心概念理解,最后以完成一个聊天机器人作为收官,完整性较好。官方的课程网页可以同步进行 Python 代码实操,能够强化对具体实现的理解。官方视频的缺点是没有中文字幕,英文字幕在双屏下可读性不是很好。
Learning Prompt 有系统介绍和案例实操,中文友好。如果对之前的理念不太理解,可以通过更多的实践来强化理解。网站会有一些 Prompt 的实例可以进行操作,同时提供一些外部的学习材料可以参考。可以视作一个阶段内的各类相关同行的智慧结晶。
为了进一步巩固学习效果,以下是对文中提及的关键 Prompt 技巧的补充说明:
这些技巧在实际工作中能显著提升大模型的输出质量和可控性。
大模型的发展太过迅速,如果只关注眼前的实现,很可能过段时间就发现努力的内容已是昨日黄花,抬头看天的任务显得尤为重要。我也在寻找以一种相对宏观的视角来不断刷新认知,目前能做的就是紧跟最前沿领军人物的认知分享。
AK 在 11 月又在 Scale AI 进行了一次内部分享,然后个人重新录制了一版上传到网上。演讲的主题还是面向普通人介绍 LLM,过去半年,AK 在 LLM 的描述(也可以视作他的理解)又有了更宏观更前沿的认知。后续 ChatGPT 的一系列新能力也反向印证他们正在朝着该方向前进。
其中最震撼的是 AK 把 LLM 类比或者是定义为新的操作系统,既因为和自己的工作领域相关,也因为该想法把 LLM 的未来真正具像化用我可以想象的方式表现出来。这意味着未来的软件开发将更多地依赖于自然语言交互,而非传统的代码编写。
在看完 AK 的演讲之后,反问了自己一个问题:我对大模型的理解是否太肤浅?陆奇 4 月份在奇绩论坛发表了一份极具影响力,同时立场相当极端的演讲。当时还觉得是深耕多年守得云开见月明的范进式论调。
现在对大模型有一定的了解,开始对 Qi 的认知有表面的理解,他对世界的抽象化认知在一个更高的维度。由于领先企业成功地将边际成本变成了固定成本,OpenAI 完成了过去 Google、微软、微信、支付宝在信息时代完成的基础建设,可能世界真的拐点已经开始了。
更重要的是根据 Qi 的分析,行业或者个人的发展机会是在哪里?Qi 给出了一个可能的结构化方法论供参考。这提示我们,在技术变革期,不仅要关注技术本身,更要关注技术带来的生产力重构和商业模式的变迁。
大模型时代,企业对人才的需求变了,AIGC 相关岗位人才难求。掌握大模型技术不仅能带来薪资上浮,还能拥有更多可能性。成为一名全栈大模型工程师,包括 Prompt、LangChain、LoRA 等技术开发、运营、产品等方向全栈工程;能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用。
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去。希望本文整理的学习路线和资源能帮助大家在 AI 大模型领域少走弯路,快速入门并深入探索。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online