基于 LangChain 和 Streamlit 搭建 PDF 问答知识库 | 极客日志

PythonAI算法

基于 LangChain 和 Streamlit 搭建 PDF 问答知识库

如何使用 Python、LangChain 和 Streamlit 搭建一个基于 PDF 的 ChatGPT 问答知识库。内容涵盖环境配置、依赖安装、PDF 文本提取、文本分片策略、向量数据库 FAISS 的构建以及问答链的实现流程。同时针对国内网络环境提供了代理解决方案和 API 版本兼容性修复方法，并补充了安全实践与性能优化建议，帮助开发者快速落地 RAG 应用场景。

蓝绿部署发布于 2025/2/7更新于 2026/7/2840 浏览

基于 LangChain 和 Streamlit 搭建 PDF 问答知识库

1. 项目概述

检索增强生成（RAG, Retrieval-Augmented Generation）技术允许大语言模型利用外部知识库进行回答，从而解决模型幻觉和知识时效性问题。本项目旨在使用 Python、LangChain 框架以及 Streamlit 快速构建一个支持 PDF 文件上传的本地问答系统。

该系统主要包含以下核心组件：

文档加载器：pdfplumber 用于解析 PDF 文本。
文本分片器：CharacterTextSplitter 将长文本分割为适合向量化的片段。
向量化模型：OpenAIEmbeddings 将文本转换为向量。
向量数据库：FAISS 用于存储和检索向量相似度。
大语言模型：OpenAI API 用于生成最终答案。

2. 环境搭建

2.1 安装 Python

确保已安装 Python 3.8 及以上版本。访问官网下载并安装，安装时请勾选 "Add Python to PATH"。

2.2 创建虚拟环境

为避免依赖冲突，建议使用虚拟环境管理项目依赖。

# 创建项目目录
mkdir chatgpt-pdf-kb
cd chatgpt-pdf-kb

# 创建虚拟环境
python -m venv venv

# 激活虚拟环境
# Windows: venv\Scripts\activate
# macOS/Linux: source venv/bin/activate

2.3 安装依赖包

安装运行所需的核心库。

pip install langchain pdfplumber python-dotenv streamlit faiss-cpu openai tiktoken

langchain: 简化与大模型交互的框架。
pdfplumber: 高效提取 PDF 文本内容，对中文支持良好。
python-dotenv: 安全读取环境变量中的 API Key。
streamlit: 快速构建 Web UI 界面。
faiss-cpu: Facebook 开源的相似性搜索库（CPU 版）。
openai & tiktoken: OpenAI 接口调用及 Token 计数。

注意：若需 GPU 加速，可安装 faiss-gpu，但需注意 CUDA 版本兼容性。

3. 配置文件与密钥管理

3.1 环境变量配置

在根目录下创建 .env 文件，存放敏感信息如 API Key。

OPENAI_API_KEY=sk-your-api-key-here

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

[browser]
gatherUsageStats = false

from dotenv import load_dotenv
import os
import streamlit as st
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chains.question_answering import load_qa_chain
from langchain.llms import OpenAI
from langchain.callbacks import get_openai_callback
import pdfplumber

load_dotenv()

st.set_page_config(page_title="专属 PDF 知识库")
st.header("📚 专属 PDF 知识库")

# 文件上传组件
uploaded_file = st.file_uploader("上传 PDF 文件", type="pdf")

if uploaded_file is not None:
    # 提取文本
    text = ""
    with pdfplumber.open(uploaded_file) as pdf_reader:
        for page in pdf_reader.pages:
            page_text = page.extract_text()
            if page_text:
                text += page_text + "\n"

    # 文本分片
    # chunk_size: 每个分片的字符数
    # chunk_overlap: 重叠部分，保留上下文信息
    text_splitter = CharacterTextSplitter(
        separator="\n",
        chunk_size=1000,
        chunk_overlap=200,
        length_function=len
    )
    chunks = text_splitter.split_text(text)
    
    st.success(f"成功提取 {len(chunks)} 个文本分片")

    # 初始化 Embedding 模型
    embeddings = OpenAIEmbeddings()
    
    # 创建向量库
    knowledge_base = FAISS.from_texts(chunks, embeddings)

    user_question = st.text_input("请输入您的问题：")
    
    if user_question:
        # 相似度搜索
        docs = knowledge_base.similarity_search(user_question, k=3)
        
        # 初始化 LLM
        llm = OpenAI(temperature=0)
        
        # 加载 QA 链
        chain = load_qa_chain(llm, chain_type="stuff")
        
        # 执行查询
        with get_openai_callback() as cb:
            response = chain.run(input_documents=docs, question=user_question)
            print(f"消耗 Token: {cb.total_tokens}, 成本：${cb.total_cost}")
        
        st.write(response)

OPENAI_API_BASE=https://your-worker-domain.com/v1

embeddings = OpenAIEmbeddings(openai_api_version='2020-11-07')
llm = OpenAI(openai_api_version='2020-11-07')

基于 LangChain 和 Streamlit 搭建 PDF 问答知识库

基于 LangChain 和 Streamlit 搭建 PDF 问答知识库

1. 项目概述

2. 环境搭建

2.1 安装 Python

2.2 创建虚拟环境

2.3 安装依赖包

3. 配置文件与密钥管理

3.1 环境变量配置

更多推荐文章

相关免费在线工具

3.2 Streamlit 隐私设置

4. 核心代码实现

4.1 基础结构

4.2 页面布局

4.3 文本提取与处理

4.4 向量化与索引

4.5 问答逻辑

5. 常见问题与优化

5.1 国内网络访问问题

方案一：Cloudflare Workers

方案二：本地代理工具

5.2 API 版本兼容性问题

5.3 性能优化建议

6. 安全最佳实践

7. 总结

更多推荐文章

相关免费在线工具

基于 LangChain 和 Streamlit 搭建 PDF 问答知识库

基于 LangChain 和 Streamlit 搭建 PDF 问答知识库

1. 项目概述

2. 环境搭建

2.1 安装 Python

2.2 创建虚拟环境

2.3 安装依赖包

3. 配置文件与密钥管理

3.1 环境变量配置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 Streamlit 隐私设置

4. 核心代码实现

4.1 基础结构

4.2 页面布局

4.3 文本提取与处理

4.4 向量化与索引

4.5 问答逻辑

5. 常见问题与优化

5.1 国内网络访问问题

方案一：Cloudflare Workers

方案二：本地代理工具

5.2 API 版本兼容性问题

5.3 性能优化建议

6. 安全最佳实践

7. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具