《大模型应用开发极简入门》书评
本书是 O'Reilly 出版的《大模型应用开发极简入门:基于 GPT-4 和 ChatGPT》,由机器学习研究员 Olivier Caelen 和数据工程师 Marie-Alice Blete 共同撰写。两位作者分别侧重学术与工程,结合前沿的大模型内容,为开发者提供了一本值得参考的入门读物。
核心目标与知识体系
从书名可知,本书面向想要入门大模型应用开发的普通开发者。所谓'极简入门',并非忽略细节,而是强调系统性。本书旨在帮助读者建立大模型应用开发的知识体系结构,而非陷入琐碎的技术细节。作者主要抛出了两个核心问题:
- GPT-4 和 ChatGPT 的基本工作原理和工作方式。
- 在 Python 程序中集成大模型开发智能应用的方法。
目录结构清晰地展示了这一路径:
- 第 1 章:初始 GPT-4 和 ChatGPT
- 第 2 章:深入了解 GPT-4 和 ChatGPT 的 API
- 第 3 章:使用 GPT 和 ChatGPT 构建应用程序
- 第 4 章:GPT 和 ChatGPT 的高级技巧
- 第 5 章:使用 LangChain 和 插件增强 LLM 应用
核心知识一:GPT-4 和 ChatGPT 的基本原理
第 1 章:初始 GPT-4 和 ChatGPT
开篇首先厘清大语言模型在人工智能领域的定位:
AI <
Machine Learning <
Deeping Learning ( artificial neural network) <
NLP < Transformer >
>
>
>
对于初学者,明确目标是 Transformer 架构至关重要。其进化历程如下:
n-gram 模型 -> 循环神经网络(RNN)-> 长短期记忆(LSTM)网络 -> Transformer
早期模型存在性能瓶颈或难以处理长上下文等问题,Transformer 的出现解决了这些痛点,确立了主流地位。书中通过图文介绍了 Transformer 的核心机制:注意力机制(交叉注意力和自注意力模块)。这部分内容不深入数学细节,而是从宏观逻辑层面建立工作模型,足以支撑入门开发。
此外,章节还梳理了 OpenAI 从 GPT-1 到 GPT-4 的演化过程,解释了监督学习、微调、强化学习、对齐等术语的实际作用,并对比了 GPT-3.5 与 GPT-4 的区别。最后,通过医疗、金融、教育等领域的案例展示大模型潜力,并指出当前缺陷——幻觉。开发者需根据场景应对:创意类应用可利用幻觉激发灵感,严谨类应用则需通过插件或微调减少幻觉。
第 2 章:深入了解 GPT-4 和 ChatGPT 的 API
本章帮助开发者节省探索官方文档的时间,重点在于掌握 API 的基本架构。
- 测试工具:介绍如何使用 OpenAI Playground 进行测试。
- 密钥管理:强调安全管理 API Key 的重要性。
- Python 交互:重点介绍
openai.ChatCompletion端点及其create方法,涉及model、messages、max_tokens等参数,推荐使用tiktoken库估算成本。 - 旧版接口:提及
GPT-3.5 turbo的openai.Completion端点及prompt参数。 - 其他概念:涵盖模型定价、Token 限制、安全隐私、词嵌入等。


