大模型应用开发简易指南：基于 LangChain 构建个人知识库助手

大模型应用开发简易指南：基于 LangChain 构建个人知识库助手 | 极客日志

LLM（Large Language Model）正逐步成为信息世界的新革命力量，其通过强大的自然语言理解与生成能力，为开发者提供了新的、更强大的应用开发选择。随着国内外 LLM API 服务的开放，如何基于 LLM API 快速、便捷地开发具备更强能力、集成 LLM 的应用，已成为开发者的一项重要技能。

目前，关于 LLM 的介绍以及零散的 LLM 开发技能课程已有不少，但质量参差不齐，且缺乏系统性整合。开发者往往需要搜索大量教程并阅读大量相关性不强、必要性较低的内容，才能初步掌握大模型开发的必备技能，导致学习效率低，学习门槛高。

动手学大模型应用开发

开源教程「动手学大模型应用开发」从实践出发，结合最常见、通用的个人知识库助手项目，深入浅出地逐步拆解 LLM 开发的一般流程与步骤。该教程旨在帮助没有算法基础的小白通过一个完整的项目完成大模型开发的基础入门。同时，项目本身做了清晰、全面的逐层规划及封装，实现了不同 LLM API 到项目的统一整合，帮助开发者能够自由、统一调用不同 LLM，充分降低学习门槛。

内容简介

「动手学大模型应用开发」是一个面向小白开发者的大模型应用开发教程，以个人知识库助手项目为实践目标，通过这个项目完成大模型开发的重点入门。

主要内容包括：

大模型简介：何为大模型、大模型特点是什么、LangChain 是什么，针对小白开发者的简单介绍；
API 调用：如何调用大模型 API，介绍了国内外知名大模型产品 API 的多种调用方式，包括调用原生 API、封装为 LangChain LLM、封装为 FastAPI 等，同时将百度文心、讯飞星火、智谱 AI 等多种大模型 API 进行了统一形式封装；
开发流程及架构：大模型应用开发的基本流程、一般思想和「动手学大模型应用开发」的架构分析；
数据库搭建：不同类型知识库文档的加载、处理，向量数据库的搭建；
Prompt 设计：如何设计 Prompt 来让大模型完成特定任务，Prompt Engineering 的原则和技巧有哪些；
验证迭代：大模型开发如何实现验证迭代，一般的评估方法有什么；
前后端开发：如何使用 Gradio、FastAPI 等框架快速开发大模型 Demo，展示应用能力。

该教程为入门级，对学习者的人工智能基础、算法基础没有任何要求，仅需要掌握基本 Python 语法、掌握初级 Python 开发技能即可。

大模型开发的整体流程

教程中提到，一般可以将大模型开发分解为以下几个流程：

确定目标。在进行开发前，首先需要确定开发的目标，即要开发的应用的应用场景、目标人群、核心价值。对于个体开发者或小型开发团队而言，一般应先设定最小化目标，从构建一个 MVP（最小可行性产品）开始，逐步进行完善和优化。
设计功能。在确定开发目标后，需要设计本应用所要提供的功能，以及每一个功能的大体实现逻辑。虽然我们通过使用大模型来简化了业务逻辑的拆解，但是越清晰、深入的业务逻辑理解往往也能带来更好的 Prompt 效果。例如，想打造一款个人知识库助手，核心功能就是结合个人知识库内容进行问题的回答，那么其上游功能的用户上传知识库、下游功能的用户手动纠正模型回答就是必须设计实现的子功能。
搭建整体架构。目前，绝大部分大模型应用都是采用特定数据库 + Prompt + 通用大模型的架构。我们需要针对所设计的功能，搭建项目的整体架构，实现从用户输入到应用输出的全流程贯通。一般来说，推荐基于 LangChain 框架进行开发。LangChain 提供了 Chain、Tool 等架构的实现，我们可以基于 LangChain 进行个性化定制，实现从用户输入到数据库再到大模型最后输出的整体架构连接。
搭建数据库。个性化大模型应用需要有个性化数据库进行支撑。由于大模型应用需要进行向量语义检索，一般使用诸如 Chroma 的向量数据库。在该步骤中，我们需要收集数据并进行预处理，再向量化存储到数据库中。数据预处理一般包括从多种格式向纯文本的转化，例如 pdf、markdown、html、音视频等，以及对错误数据、异常数据、脏数据进行清洗。完成预处理后，需要进行切片、向量化构建出个性化数据库。
Prompt Engineering。优质的 Prompt 对大模型能力具有极大影响，我们需要逐步迭代构建优质的 Prompt Engineering 来提升应用性能。在该步中，首先应该明确 Prompt 设计的一般原则及技巧，构建出一个来源于实际业务的小型验证集，基于小型验证集设计满足基本要求、具备基本能力的 Prompt。
验证迭代。验证迭代在大模型开发中是极其重要的一步，一般指通过不断发现 Bad Case 并针对性改进 Prompt Engineering 来提升系统效果、应对边界情况。在完成上一步的初始化 Prompt 设计后，我们应该进行实际业务测试，探讨边界情况，找到 Bad Case，并针对性分析 Prompt 存在的问题，从而不断迭代优化，直到达到一个较为稳定、可以基本实现目标的 Prompt 版本。
前后端搭建。完成 Prompt Engineering 及其迭代优化之后，我们就完成了应用的核心功能，可以充分发挥大语言模型的强大能力。接下来需要搭建前后端，设计产品页面，让我们的应用能够上线成为产品。此处将主要介绍两种快速开发 Demo 的框架：Gradio 和 Streamlit，可以帮助个体开发者迅速搭建可视化页面实现 Demo 上线。
体验优化。在完成前后端搭建之后，应用就可以上线体验了。接下来就需要进行长期的用户体验跟踪，记录 Bad Case 与用户负反馈，再针对性进行优化即可。

代码实现示例

为了更直观地理解上述流程，以下提供基于 Python 和 LangChain 的核心代码实现片段。

1. 环境准备与 API 配置

import os
from langchain.llms import OpenAI, ZhipuAI

# 设置环境变量
os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY"
os.environ["ZHIPUAI_API_KEY"] = "YOUR_ZHIPUAI_API_KEY"

2. 文档加载与向量化

from langchain.document_loaders import DirectoryLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma

# 加载本地文档
txt_loader_kwargs={'encoding': 'utf-8'}
loader = DirectoryLoader('./data', glob="**/*.txt", loader_cls=TextLoader, loader_kwargs=txt_loader_kwargs)
docs = loader.load()

# 文本分片
splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = splitter.split_documents(docs)

# 创建向量数据库
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
vectorstore = Chroma.from_documents(documents=texts, embedding=embeddings)

3. 构建检索问答链

from langchain.chains import RetrievalQA
from langchain.chat_models import ChatOpenAI

llm = ChatOpenAI(temperature=0, model_name="gpt-3.5-turbo")
qa_chain = RetrievalQA.from_chain_type(
    llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever(),
    return_source_documents=True
)

result = qa_chain({"query": "请总结本文档的核心内容"})
print(result["result"])

个人知识库助手系统架构

「动手学大模型应用开发」中的个人知识库助手项目，基于 LangChain 框架搭建，核心技术包括 LLM API 调用、向量数据库、检索问答链等。项目整体架构如下：

从底向上依次分为 LLM 层、数据层、数据库层、应用层与服务层：

LLM 层：主要基于四种流行 LLM API（OpenAI-ChatGPT、百度文心、讯飞星火、智谱 GLM）进行了 LLM 调用封装，支持用户以统一的入口、方式来访问不同的模型，支持随时进行模型的切换。
数据层：主要包括个人知识库的源数据（包括 pdf、txt、md 等）以及 Embedding API。源数据经过 Embedding 处理可以被向量数据库使用。我们在数据层自定义了智谱提供的 Embedding API 的封装，支持上层以统一方式调用智谱 Embedding 或 OpenAI Embedding。
数据库层：数据库层主要存放了向量数据库文件。同时，在该层实现了源数据处理、创建向量数据库的方法。为个人知识库源数据搭建的向量数据库，在本项目中选择了 Chroma。
应用层：为核心功能的最顶层封装，应用层封装了整个项目的全部核心功能。基于 LangChain 提供的检索问答链基类进行了进一步封装，从而支持不同模型切换以及便捷实现基于数据库的检索问答；也支持通过 model 参数来灵活切换使用的 LLM。我们实现了两个检索问答链，分别是有历史记录的 Chat_QA_Chain 和没有历史记录的 QA_Chain。
服务层：分别实现了 Gradio 搭建 Demo 与 FastAPI 组建 API 两种方式来支持本项目的服务访问。

Prompt Engineering 最佳实践

在开发过程中，Prompt 的设计直接决定了大模型的表现。以下是一些关键原则：

角色设定：明确告诉模型它扮演的角色，例如'你是一位资深的技术专家'。
上下文提供：尽可能提供相关的背景信息和约束条件。
少样本学习（Few-Shot）：提供几个输入输出的示例，帮助模型理解任务模式。
思维链（Chain of Thought）：引导模型一步步思考，提高复杂任务的准确率。
结构化输出：要求模型以 JSON、Markdown 等特定格式返回结果，便于程序解析。

部署与优化

完成核心功能开发后，可以通过 Gradio 快速生成 Web 界面。

import gradio as gr

def respond(query):
    result = qa_chain({"query": query})
    return result["result"]

gr.Interface(fn=respond, inputs="text", outputs="text", title="个人知识库助手").launch()

此外，还可以利用 FastAPI 将服务封装为 RESTful API，方便与其他系统集成。在生产环境中，建议引入缓存机制减少重复计算，并监控 Token 消耗以控制成本。

结语

「动手学大模型应用开发」是从零开始，全面又简短的大模型教程。对相关大模型开发理论、概念和基本技能进行了项目主导的重构，删去不需要理解的底层原理和算法细节，涵盖所有大模型开发的核心技能。通过本教程的学习，你将掌握如何构建个人知识库助手，独立搭建一个大模型应用，成为一名合格的大模型应用开发者。后续可继续探索更多高级主题，如长短期记忆分配、自动 Prompt 调优、检索系统优化等，以解决更复杂的开发难题。

大模型应用开发简易指南：基于 LangChain 构建个人知识库助手

动手学大模型应用开发

内容简介

大模型开发的整体流程

代码实现示例

个人知识库助手系统架构

Prompt Engineering 最佳实践

部署与优化

结语

更多推荐文章

相关免费在线工具

大模型应用开发简易指南：基于 LangChain 构建个人知识库助手

动手学大模型应用开发

内容简介

大模型开发的整体流程

代码实现示例

个人知识库助手系统架构

Prompt Engineering 最佳实践

部署与优化

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具