跳到主要内容 动手学大模型应用开发:从零构建个人知识库助手 | 极客日志
Python AI 算法
动手学大模型应用开发:从零构建个人知识库助手 本文介绍基于 LangChain 框架开发大模型应用的方法。通过构建个人知识库助手项目,涵盖 LLM API 调用、向量数据库搭建、Prompt 设计及前后端 Demo 实现。内容涉及数据预处理、检索问答链封装及 Gradio/FastAPI 快速开发,帮助开发者掌握大模型应用核心技能。
LLM 正逐步成为信息世界的新革命力量,其通过强大的自然语言理解、自然语言生成能力,为开发者提供了新的、更强大的应用开发选择。随着国内外 LLM API 服务开放,如何基于 LLM API 快速、便捷地开发具备更强能力、集成 LLM 的应用,开始成为开发者的一项重要技能。
目前,关于 LLM 的介绍以及零散的 LLM 开发技能课程已有不少,但质量参差不齐,且没有很好地整合,开发者需要搜索大量教程并阅读大量相关性不强、必要性较低的内容,才能初步掌握大模型开发的必备技能,学习效率低,学习门槛也较高。
动手学大模型应用开发 本教程从实践出发,结合最常见、通用的个人知识库助手项目,深入浅出逐步拆解 LLM 开发的一般流程、步骤,旨在帮助没有算法基础的小白通过一个课程完成大模型开发的基础入门。同时,我们也对项目本身做了清晰、全面的逐层规划及封装,实现了不同 LLM API 到项目的统一整合,帮助开发者能够自由、统一调用不同 LLM,充分降低学习门槛。
内容简介 这是一个面向开发者的大模型应用开发教程,以个人知识库助手项目为实践目标,通过这个项目完成大模型开发的重点入门。
大模型简介 :何为大模型、大模型特点是什么、LangChain 是什么,针对开发者的简单介绍;
API 调用 :介绍了国内外知名大模型产品 API 的多种调用方式,包括调用原生 API、封装为 LangChain LLM、封装为 Fastapi 等调用方式,同时将百度文心、讯飞星火、智谱 AI 等多种大模型 API 进行了统一形式封装;
开发流程及架构 :大模型应用开发的基本流程、一般思想和项目架构分析;
数据库搭建 :不同类型知识库文档的加载、处理,向量数据库的搭建;
Prompt 设计 :如何设计 Prompt 来让大模型完成特定任务,Prompt Engineering 的原则和技巧有哪些;
验证迭代 :大模型开发如何实现验证迭代,一般的评估方法有什么;
前后端开发 :如何使用 Gradio、FastAPI 等框架快速开发大模型 Demo,展示应用能力。
该教程为入门级,对学习者的人工智能基础、算法基础没有任何要求,仅需要掌握基本 Python 语法、掌握初级 Python 开发技能即可。
示例章节演示
大模型开发的整体流程
确定目标 :在进行开发前,首先需要确定开发的目标,即要开发的应用的应用场景、目标人群、核心价值。对于个体开发者或小型开发团队而言,一般应先设定最小化目标,从构建一个 MVP(最小可行性产品)开始,逐步进行完善和优化。
设计功能 :在确定开发目标后,需要设计本应用所要提供的功能,以及每一个功能的大体实现逻辑。虽然我们通过使用大模型来简化了业务逻辑的拆解,但是越清晰、深入的业务逻辑理解往往也能带来更好的 Prompt 效果。例如,打造一款个人知识库助手,核心功能就是结合个人知识库内容进行问题的回答,那么其上游功能的用户上传知识库、下游功能的用户手动纠正模型回答就是必须要设计实现的子功能。
搭建整体架构 :目前,绝大部分大模型应用都是采用的特定数据库 + Prompt + 通用大模型的架构。我们需要针对所设计的功能,搭建项目的整体架构,实现从用户输入到应用输出的全流程贯通。一般来说,推荐基于 LangChain 框架进行开发。LangChain 提供了 Chain、Tool 等架构的实现,可以基于 LangChain 进行个性化定制,实现从用户输入到数据库再到大模型最后输出的整体架构连接。
搭建数据库 :个性化大模型应用需要有个性化数据库进行支撑。由于大模型应用需要进行向量语义检索,一般使用诸如 Chroma 的向量数据库。在该步骤中,需要收集数据并进行预处理,再向量化存储到数据库中。数据预处理一般包括从多种格式向纯文本的转化,例如 pdf、markdown、html、音视频等,以及对错误数据、异常数据、脏数据进行清洗。完成预处理后,需要进行切片、向量化构建出个性化数据库。
Prompt Engineering :优质的 Prompt 对大模型能力具有极大影响,需要逐步迭代构建优质的 Prompt Engineering 来提升应用性能。在该步中,首先应该明确 Prompt 设计的一般原则及技巧,构建出一个来源于实际业务的小型验证集,基于小型验证集设计满足基本要求、具备基本能力的 Prompt。
验证迭代 :验证迭代在大模型开发中是极其重要的一步,一般指通过不断发现 Bad Case 并针对性改进 Prompt Engineering 来提升系统效果、应对边界情况。在完成上一步的初始化 Prompt 设计后,应该进行实际业务测试,探讨边界情况,找到 Bad Case,并针对性分析 Prompt 存在的问题,从而不断迭代优化,直到达到一个较为稳定、可以基本实现目标的 Prompt 版本。
前后端搭建 :完成 Prompt Engineering 及其迭代优化之后,就完成了应用的核心功能,可以充分发挥大语言模型的强大能力。接下来需要搭建前后端,设计产品页面,让应用能够上线成为产品。前后端开发是非常经典且成熟的领域,此处将主要介绍两种快速开发 Demo 的框架:Gradio 和 Streamlit,可以帮助个体开发者迅速搭建可视化页面实现 Demo 上线。
体验优化 :在完成前后端搭建之后,应用就可以上线体验了。接下来就需要进行长期的用户体验跟踪,记录 Bad Case 与用户负反馈,再针对性进行优化即可。
个人知识库助手系统架构 个人知识库助手项目,基于 LangChain 框架搭建,核心技术包括 LLM API 调用、向量数据库、检索问答链等。项目整体架构如下:
从底向上依次分为 LLM 层、数据层、数据库层、应用层与服务层:
LLM 层 :主要基于四种流行 LLM API(OpenAI-ChatGPT、百度文心、讯飞星火、智谱 GLM)进行了 LLM 调用封装,支持用户以统一的入口、方式来访问不同的模型,支持随时进行模型的切换;
数据层 :主要包括个人知识库的源数据(包括 pdf、txt、md 等)以及 Embedding API,源数据经过 Embedding 处理可以被向量数据库使用;源数据需要经过 Embedding 处理才能进入向量数据库,我们在数据层自定义了智谱提供的 Embedding API 的封装,支持上层以统一方式调用智谱 Embedding 或 OpenAI Embedding。
数据库层 :数据库层主要存放了向量数据库文件。同时,在该层实现了源数据处理、创建向量数据库的方法。为个人知识库源数据搭建的向量数据库,在本项目中选择了 Chroma;
应用层 :为核心功能的最顶层封装,应用层封装了整个项目的全部核心功能。基于 LangChain 提供的检索问答链基类进行了进一步封装,从而支持不同模型切换以及便捷实现基于数据库的检索问答;也支持通过 model 参数来灵活切换使用的 LLM。实现了两个检索问答链,分别是有历史记录的 Chat_QA_Chain 和没有历史记录的 QA_Chain。
服务层 :分别实现了 Gradio 搭建 Demo 与 FastAPI 组建 API 两种方式来支持本项目的服务访问。
环境准备与代码实现 为了完整复现上述架构,以下是关键步骤的代码实现参考。
1. 安装依赖 pip install langchain chromadb python-dotenv gradio
2. 数据加载与处理 使用 UnstructuredLoader 或 TextLoader 读取本地知识库文件。
from langchain.document_loaders import TextLoader, UnstructuredPDFLoader
import os
def load_documents (directory ):
docs = []
for filename in os.listdir(directory):
if filename.endswith('.txt' ):
loader = TextLoader(os.path.join(directory, filename))
docs.extend(loader.load())
elif filename.endswith('.pdf' ):
loader = UnstructuredPDFLoader(os.path.join(directory, filename))
docs.extend(loader.load())
return docs
3. 文本切片与向量化 将文档切分为适合模型处理的片段,并使用 Embedding 模型转换为向量。
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2" )
splitter = CharacterTextSplitter(chunk_size=1000 , chunk_overlap=100 )
docs = load_documents('./data' )
split_docs = splitter.split_documents(docs)
4. 向量数据库搭建 from langchain.vectorstores import Chroma
vectorstore = Chroma.from_documents(documents=split_docs, embedding=embeddings)
retriever = vectorstore.as_retriever(search_kwargs={"k" : 3 })
5. 构建检索问答链 结合 LLM 和 Retriever 形成完整的 RAG 链路。
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
llm = OpenAI(temperature=0 , model_name="gpt-3.5-turbo-instruct" )
qa_chain = RetrievalQA.from_chain_type(
llm=llm,
chain_type="stuff" ,
retriever=retriever,
return_source_documents=True
)
result = qa_chain({"query" : "什么是大模型?" })
print (result["result" ])
6. Prompt 工程优化 在 System Prompt 中注入角色定义和约束条件。
from langchain.prompts import PromptTemplate
PROMPT_TEMPLATE = """
你是一位专业的知识库助手。请根据以下上下文回答问题。
如果上下文中没有相关信息,请直接告知无法回答。
上下文:{context}
问题:{question}
回答:
"""
prompt = PromptTemplate(template=PROMPT_TEMPLATE, input_variables=["context" , "question" ])
7. 前端 Demo 搭建 import gradio as gr
def answer_question (question ):
result = qa_chain({"query" : question})
return result["result" ]
iface = gr.Interface(fn=answer_question, inputs="text" , outputs="text" , title="个人知识库助手" )
iface.launch()
验证迭代与评估 验证迭代是大模型开发中极其重要的一步。一般指通过不断发现 Bad Case 并针对性改进 Prompt Engineering 来提升系统效果、应对边界情况。
Bad Case 分析 :收集用户反馈中的错误回答,分析是检索失败还是生成错误。
Prompt 调优 :针对特定类型的 Bad Case,调整 Prompt 模板,增加 Few-Shot 示例。
检索策略调整 :如果检索召回率低,可尝试调整 Chunk Size 或更换 Embedding 模型。
自动化评估 :引入 RAGAS 等指标框架,自动计算答案的相关性、忠实度等分数。
总结 通过示例章节的演示可以看出,本教程是从零开始,全面又简短的大模型教程。对相关大模型开发理论、概念和基本技能进行了项目主导的重构,删去不需要理解的底层原理和算法细节,涵盖所有大模型开发的核心技能。学完本教程,你已经掌握了如何构建个人知识库助手,也可以独立搭建一个大模型应用,成为一名大模型应用开发者。
后续可进一步探索长短期记忆分配、自动 Prompt 调优、优化检索系统等高级主题,积累更多应用构建技巧。
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
curl 转代码 解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online