《大模型应用开发极简入门》书评:GPT-4 与 ChatGPT 实战指南
本书是 O'Reilly 出版的《大模型应用开发极简入门:基于 GPT-4 和 ChatGPT》,由机器学习研究员 Olivier Caelen 和数据工程师 Marie-Alice Blete 共同撰写。两位作者分别侧重学术理论与工程实践,结合 GPT-4 和 ChatGPT 的前沿内容,为开发者提供了一本系统性的入门读物。
核心知识一:GPT-4 和 ChatGPT 的基本工作原理和工作方式
第 1 章:初始 GPT-4 和 ChatGPT
开篇大模型概述中,作者首先帮助读者理清了一个关键问题:大语言模型在人工智能领域属于哪一个具体研究范畴?
AI <
Machine Learning <
Deep Learning (artificial neural network) <
NLP < Transformer >
>
>
>
如果你进入一座大山,只有出发点,没有目的地,你会感到迷茫。普通开发者初学大模型时也是同样困惑,面对人工智能众多术语,一时不知道学什么、从哪里入手。现在,我们明确了 GPT 是基于特定神经网络架构 Transformer 的用于自然语言处理的大模型。我们说的大语言模型,通常就是指这个。
确定了目标是 Transformer 之后,书中介绍了为什么是 Transformer。它的进化历程如下:
n-gram 模型 -> 循环神经网络(RNN)-> 长短期记忆(LSTM)网络 -> Transformer
从最初的 n-gram 模型,到 Transformer 其实也发展了好几年。因为前面的模型存在一些性能瓶颈,容易忘记长上下文等问题,人们不断寻找解决方案才进化到 Transformer 模型。直到 ChatGPT 的出现,才确立了现在 Transformer 的主流地位,因为它确实取得了显著成果。当然,Transformer 还在持续进化中。
接下来,介绍了 Transformer 的实现机制:注意力机制。Transformer 架构广泛使用了交叉注意力模块和自注意力模块。这部分内容通过图文搭配方式,逻辑条理地介绍了 Transformer 注意力机制的工作原理,以及 Transformer 相比于其他架构的一些优势。这其中并没有涉及复杂的数学和机器学习、神经网络的细节。你可以把这些细节当作一种黑盒,从宏观层面和逻辑层面来建立 Transformer 的工作模型。这对于入门上手去实现大模型应用已经足够。
接下来还介绍了 OpenAI 从 GPT-1 到 GPT-4 的演化过程。了解这个过程对于普通开发者的收获应该是,知道人工智能领域监督学习、数据集、非监督学习、监督微调、强化学习、对齐、多模态等名词术语背后的技术作用是什么。并了解 GPT 中「温度(temperature)」参数的实际作用在哪里,以及了解 GPT-3.5 和 GPT-4 有什么区别。
最后通过介绍一些案例让你了解大模型在医疗辅助、金融服务、在线教育、语言学习、数据分析、视频广告和游戏等领域的应用潜力。本章最后又介绍了大模型目前的缺陷:幻觉。了解这个缺陷有助于开发者在不同领域的应用中选择如何利用 GPT:
- 对于创意性的应用,可以多利用 GPT 的幻觉。幻觉会辅助和启示人类的创意。
- 对于严谨的应用,比如医疗,则可以利用插件(比如浏览器插件/知识库等)或微调 GPT(投喂更精确的数据再训练)来减少幻觉。
总的来说,这一章的内容足够全面和系统,从大模型发展历程、工作机制、应用开发类型、注意事项都介绍到了。
第 2 章:深入了解 GPT-4 和 ChatGPT 的 API
对大模型及大模型应用开发有基本认识以后,就开始介绍 GPT-4 的 API 了。其实这些 API 在 OpenAI 的官网都有。可能有的人会说,去看文档就行了。毕竟文档相对而言更加零散,不够系统,作为普通开发者,需要花时间自己去探索这些 API 文档,形成自己系统的理解。本章则为普通开发者节省了这个时间。
首先,介绍了如何使用 OpenAI Playground 进行测试 OpenAI 语言模型。然后介绍了如何安全管理 API Key。接着通过使用 GPT-4 和 ChatGPT 介绍了如何使用 OpenAI Python 库与 API 进行交互。重点介绍了 端点及其 方法,以及一些重要的参数,比如 、、(可选参数)。并推荐使用 tiktoken 库来估算成本。


