LLM 正逐步成为信息世界的新革命力量,其通过强大的自然语言理解、自然语言生成能力,为开发者提供了新的、更强大的应用开发选择。随着国内外 LLM API 服务开放,如何基于 LLM API 快速、便捷地开发具备更强能力、集成 LLM 的应用,开始成为开发者的一项重要技能。
目前,关于 LLM 的介绍以及零散的 LLM 开发技能课程已有不少,但质量参差不齐,且没有很好地整合,开发者需要搜索大量教程并阅读大量相关性不强、必要性较低的内容,才能初步掌握大模型开发的必备技能,学习效率低,学习门槛也较高。
动手学大模型应用开发
本教程从实践出发,结合最常见、通用的个人知识库助手项目,深入浅出逐步拆解 LLM 开发的一般流程、步骤,旨在帮助没有算法基础的小白通过一个课程完成大模型开发的基础入门。同时,我们也对项目本身做了清晰、全面的逐层规划及封装,实现了不同 LLM API 到项目的统一整合,帮助开发者能够自由、统一调用不同 LLM,充分降低学习门槛。
内容简介
这是一个面向开发者的大模型应用开发教程,以个人知识库助手项目为实践目标,通过这个项目完成大模型开发的重点入门。
主要内容包括:
- 大模型简介:何为大模型、大模型特点是什么、LangChain 是什么,针对开发者的简单介绍;
- API 调用:介绍了国内外知名大模型产品 API 的多种调用方式,包括调用原生 API、封装为 LangChain LLM、封装为 Fastapi 等调用方式,同时将百度文心、讯飞星火、智谱 AI 等多种大模型 API 进行了统一形式封装;
- 开发流程及架构:大模型应用开发的基本流程、一般思想和项目架构分析;
- 数据库搭建:不同类型知识库文档的加载、处理,向量数据库的搭建;
- Prompt 设计:如何设计 Prompt 来让大模型完成特定任务,Prompt Engineering 的原则和技巧有哪些;
- 验证迭代:大模型开发如何实现验证迭代,一般的评估方法有什么;
- 前后端开发:如何使用 Gradio、FastAPI 等框架快速开发大模型 Demo,展示应用能力。
该教程为入门级,对学习者的人工智能基础、算法基础没有任何要求,仅需要掌握基本 Python 语法、掌握初级 Python 开发技能即可。
示例章节演示
大模型开发的整体流程
一般可以将大模型开发分解为以下几个流程:
- 确定目标:在进行开发前,首先需要确定开发的目标,即要开发的应用的应用场景、目标人群、核心价值。对于个体开发者或小型开发团队而言,一般应先设定最小化目标,从构建一个 MVP(最小可行性产品)开始,逐步进行完善和优化。
- 设计功能:在确定开发目标后,需要设计本应用所要提供的功能,以及每一个功能的大体实现逻辑。虽然我们通过使用大模型来简化了业务逻辑的拆解,但是越清晰、深入的业务逻辑理解往往也能带来更好的 Prompt 效果。例如,打造一款个人知识库助手,核心功能就是结合个人知识库内容进行问题的回答,那么其上游功能的用户上传知识库、下游功能的用户手动纠正模型回答就是必须要设计实现的子功能。
- 搭建整体架构:目前,绝大部分大模型应用都是采用的特定数据库 + Prompt + 通用大模型的架构。我们需要针对所设计的功能,搭建项目的整体架构,实现从用户输入到应用输出的全流程贯通。一般来说,推荐基于 LangChain 框架进行开发。LangChain 提供了 Chain、Tool 等架构的实现,可以基于 LangChain 进行个性化定制,实现从用户输入到数据库再到大模型最后输出的整体架构连接。
- 搭建数据库:个性化大模型应用需要有个性化数据库进行支撑。由于大模型应用需要进行向量语义检索,一般使用诸如 Chroma 的向量数据库。在该步骤中,需要收集数据并进行预处理,再向量化存储到数据库中。数据预处理一般包括从多种格式向纯文本的转化,例如 pdf、markdown、html、音视频等,以及对错误数据、异常数据、脏数据进行清洗。完成预处理后,需要进行切片、向量化构建出个性化数据库。
- Prompt Engineering:优质的 Prompt 对大模型能力具有极大影响,需要逐步迭代构建优质的 Prompt Engineering 来提升应用性能。在该步中,首先应该明确 Prompt 设计的一般原则及技巧,构建出一个来源于实际业务的小型验证集,基于小型验证集设计满足基本要求、具备基本能力的 Prompt。
- 验证迭代:验证迭代在大模型开发中是极其重要的一步,一般指通过不断发现 Bad Case 并针对性改进 Prompt Engineering 来提升系统效果、应对边界情况。在完成上一步的初始化 Prompt 设计后,应该进行实际业务测试,探讨边界情况,找到 Bad Case,并针对性分析 Prompt 存在的问题,从而不断迭代优化,直到达到一个较为稳定、可以基本实现目标的 Prompt 版本。


