基于 LangChain 搭建本地知识库系统

基于 LangChain 搭建本地知识库系统 | 极客日志

pip install langchain
pip install langchain-community
pip install langchain-core
pip install langchain-experimental
pip install langserve[all]
pip install langchain-cli
pip install langsmith

from langchain_community.embeddings import QianfanEmbeddingsEndpoint
import os

def get_embedding():
    os.environ["QIANFAN_AK"] = "YOUR_API_KEY"
    os.environ["QIANFAN_SK"] = "YOUR_SECRET_KEY"
    return QianfanEmbeddingsEndpoint()

from langchain_openai import AzureChatOpenAI

def get_llm():
    os.environ["AZURE_OPENAI_ENDPOINT"] = "YOUR_ENDPOINT"
    os.environ["AZURE_OPENAI_API_KEY"] = "YOUR_KEY"
    llm = AzureChatOpenAI(
        azure_deployment="gpt-4",
        openai_api_version="2023-05-15"
    )
    return llm

import os
import getpass
from typing import Any

# 导入 LangChain 相关组件
from langchain_community.vectorstores import Chroma
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.pydantic_v1 import BaseModel
from langchain_core.runnables import RunnableParallel, RunnablePassthrough
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.embeddings import QianfanEmbeddingsEndpoint
from langchain_openai import AzureChatOpenAI

# 1. 初始化 Embedding 模型
def init_embedding():
    os.environ["QIANFAN_AK"] = "YOUR_QIANFAN_AK"
    os.environ["QIANFAN_SK"] = "YOUR_QIANFAN_SK"
    return QianfanEmbeddingsEndpoint()

# 2. 初始化 LLM
def init_llm():
    os.environ["AZURE_OPENAI_ENDPOINT"] = "YOUR_ENDPOINT"
    os.environ["AZURE_OPENAI_API_KEY"] = "YOUR_KEY"
    return AzureChatOpenAI(
        azure_deployment="gpt-4",
        openai_api_version="2023-05-15"
    )

# 3. 加载与处理文档
loader = WebBaseLoader("https://docs.dify.ai/v/zh-hans/getting-started/readme")
docs = loader.load()
splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
splits = splitter.split_documents(docs)

# 4. 创建向量库
vectorstore = Chroma.from_documents(
    documents=splits,
    collection_name="rag_chroma",
    embedding=init_embedding()
)
retriever = vectorstore.as_retriever()

# 5. 构建 Prompt 模板
template = """Answer the question in Chinese based only on the following context:
{context}

Question: {question}
"""
prompt = ChatPromptTemplate.from_template(template)

# 6. 构建 Chain
llm = init_llm()
chain = (
    RunnableParallel({"context": retriever, "question": RunnablePassthrough()})
    | prompt
    | llm
    | StrOutputParser()
)

# 7. 定义输入类型
class Question(BaseModel):
    __root__: str

chain = chain.with_types(input_type=Question)

# 8. 执行查询
if __name__ == "__main__":
    print(chain.invoke("dify 是什么？"))
    print(chain.invoke("dify 能干什么？请用列表形式回答"))
    print(chain.invoke("dify 可以导入哪些数据？"))

langchain serve

基于 LangChain 搭建本地知识库系统

基于 LangChain 搭建本地知识库系统

什么是 RAG

LLM 现存的痛点

环境准备

核心组件配置

1. Embedding 模型配置

2. LLM 配置

实现流程

完整代码实现

启动服务

注意事项

总结

更多推荐文章

相关免费在线工具

基于 LangChain 搭建本地知识库系统

基于 LangChain 搭建本地知识库系统

什么是 RAG

LLM 现存的痛点

环境准备

核心组件配置

1. Embedding 模型配置

2. LLM 配置

实现流程

完整代码实现

启动服务

注意事项

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具