AI 时代大模型学习指南:技术原理与 Prompt 技巧总结
背景
大模型无疑是近年来最热门的领域。面对如此巨大的风口,许多人产生了困惑:大语言模型真的是无所不能的吗?它真的会是下一个风口吗?个人该如何参与?
本文旨在梳理在大模型发展大潮下的学习路径,探讨其用户价值与商业价值,并整理关键的学习资料与发展趋势。
学习资料与策略
信息筛选
大语言模型对个人而言,除去大小公司的融资和产品八卦新闻,几乎是一个空白。不想从乱七八糟的资讯开始形成不够客观的认知立场,就要选择值得信赖的最好能有大局观的信息来源。
前 Tesla AI 高级总监 Andrej Karpathy(AK)回归 OpenAI 并在微软 BUILD 2023 发表了演讲。AK 之前在 Tesla 的 AI DAY 进行过自动驾驶介绍,从演讲语言风格和 Keynote 内容都通俗易懂、趣味性强。从他的演讲开始,是建立认知的最好选择。
AK 的视频能够对技术实现、关键环节有大致的理解,但对了解技术的边界是不够的。第一性原理出发,了解技术的实现细节,才能知道技术的边界,所以开始看 GPT 的论文。B 站有亚马逊资深首席科学家李沐的讲解视频,适合入门。
真正任职大企业、作为负责人主导过关键业务的人手把手讲解是一个很粗暴的过滤方式,暂时也没有比他们更权威的技术解读。那些挂着虚头巴脑 Title、没有任何实操项目的'专家',建议少看。
纸上得来终觉浅,绝知此事要躬行。现成的 AIGC 工具就摆在眼前,实践是最好的验证手段。选取与自己工作关联性相对强、通用性比较好的 Midjourney 和 ChatGPT,在工作和生活中强迫自己更多使用。ChatGPT 升级之后直接融合 DALL-E,实际使用中会发现大语言模型输出的稳定性、准确性和连贯性都堪忧,所以需要去研究各种技巧来提升生产效率。吴恩达的课程有 Python 实操,DAIR.AI 对技巧进行了高度浓缩,都是不错的课程。
核心内容梳理
在学习的过程中,我保留了自认为有价值的资料,并进行了粗浅的排序与分类。力求把资料中最有价值的信息总结出来。
State of GPT
AK 在微软 BUILD 2023 大会的演讲总长 43 分钟,分为两部分:
- 如何练习 GPT 模型助手:看完基本可以对 GPT 如何'制造'有完整的认识,对预训练、微调、RLHF 等名词有概念,对不同的模型分类知道英语缩写的全称,对'力大砖飞'的投入成本有量化感知。
- 如何使用 GPT 模型助手:重点介绍了 GPT 的限制或者说边界,以及 Prompt、Plugin 和其他工程的价值就在于引导 GPT 去完成更具有逻辑性的行为,并提供对应的案例和使用技巧。
What is ChatGPT Doing … and Why Does It Work?
Wolfram 3 万字长文介绍,生动形象地介绍了 ChatGPT 的底层机制,不涉及复杂的公式,绝大部分软件从业者可以轻松阅读。ChatGPT 的本质就是基于提供的文本根据内部机制去推测下一个单词(更准确说法应该是 token)。第一次接触到这个概念的时候,对于 GPT 数学不好、证据链不足的认知就豁然开朗了。
第二个比较有趣的观点在于在处理人类样式任务的时候,解决更复杂的问题比简单问题要容易(仅技术方案和效果而言,更大的模型工程复杂度和费用投入更大),端到端解决效果更好。
最后部分关于计算语言的探讨涉及到 Wolfram 自己长期研究的方向,可以作为延伸阅读。建议通读一遍这篇文章,对 GPT 的机制有一个大致的了解,细节看不懂也没有关系。然后在了解 GPT 1-3、Transformer 和 GPT-4 的论文后,再回头强化学习,会有不少新感悟。
理论基础 / 技术论文
GPT 1-2-3:暴力出奇迹
为了从根源开始学习,决定从 GPT-3 开始学习。李沐老师的视频直接从 GPT-1 开始干到 GPT-3,从当时最前沿的 GPT 应用,到和 BERT 的恩怨纠葛发史。
- GPT-1:使用 CV 领域很成熟的预训练模型方式通过没有标号的文本数据进行训练,然后在子任务上进行微调,在后续执行任务时不对模型进行调整。GPT-1 还是围绕着分类、蕴含、相似、多选等 NLP 基础问题进行,而且在输入时需要很明确的开始、分隔、抽取符号来区分。
- GPT-2:因为 BERT 的存在,方法不能变,简单粗暴堆数据新意度不够。那就只能在泛化性上做尝试,也就是 Zero-Shot,全方位开火轰炸总能覆盖目标。GPT-1 格式化的开始、分隔、抽取符号不再需要,开始向自然语言靠近,Prompt 出现。研究员是用 Reddit 的 Karma 来过滤网页的数据集,提取出高质量的网页文本数据集。
- GPT-3:这篇文章从作者数量和文章长度开始体现真正的力大砖飞。都到 1750 亿个参数,模型更新成本已经高得离谱,不做微调好像也是自然而然的结果。Prompt 的一些技巧开始在论文中若隐若现。数据集的清洗也在继续,继续用 Reddit 的高质量内容对 CommonCrawl 进行筛选;去重相似度高的网页;复用历史的高质量数据;并且数据集来源的权重不一样。


