LangChain 框架详解与大语言模型应用实践

LangChain 框架详解与大语言模型应用实践 | 极客日志

OPENAI_API_KEY=
HUG_API_KEY=
SERPAPI_API_KEY=
WANDB_API_KEY=

pip install openai python-dotenv langchain google-search-results tiktoken sentence_transformers chromadb redis faiss-cpu playwright wandb langflow

模块	说明	安装命令
openai python-dotenv langchain	主要的 LangChain 模块	`pip install openai python-dotenv langchain`
google-search-results	使用 Google 搜索的接口	`pip install google-search-results`
tiktoken	进行 summary 的时候，需要进行分割	`pip install tiktoken`
sentence_transformers	进行文本 Embedding	`pip install sentence_transformers`
chromadb	向量数据库，存储文本嵌入向量	`pip install chromadb`
redis	如果 chromadb 有 bug，使用 redis 存储向量也可以	`pip install redis`
faiss-cpu	Facebook 的相似性向量搜索库	`pip install faiss-cpu`
playwright	浏览器测试工具，Agent 测试时候用	`pip install playwright`
wandb	LangChain 调试工具	`pip install wandb`
langflow	LangChain 可视化配置工具	`pip install langflow`

名称	说明
文档加载器 (Document loaders)	用于从各种数据源（如文本文件、网页、视频等）中提取文本数据，并将这些数据以一种标准化的形式（即'文档'）进行管理和使用。
文档转换器 (Document transformers)	在加载了文档之后，对它们进行转换，以便更好地适应应用。例如，将一个长文档分割成可以适应模型上下文窗口的小块。
嵌入 (Embeddings)	将一段文本转化为一个向量表示，可以做一些语义搜索，相似性搜索。在 LangChain 中，基础的 Embeddings 类提供了两种方法：嵌入文档和嵌入查询。
向量存储库 (Vector Store)	负责存储嵌入数据并执行向量搜索。查询'最相似'的嵌入向量。
Retriever	一个接口，它可以根据非结构化查询返回文档。它比向量存储更为通用。Retriever 不需要存储文档，只需要返回（或检索）文档。向量存储可以作为 Retriever 的基础。

名称	说明
Stuff Documents Chain	这是最直接的文档链。它接收一系列文档，将它们全部插入到一个提示中，然后将该提示传递给一个 LLM。这个链适合于文档较小且大多数调用只传入少量文档的应用。
Refine Documents Chain	这个链通过循环处理输入文档并迭代更新其答案来构建响应。对于每个文档，它将所有非文档输入、当前文档和最新的中间答案传递给一个 LLM 链以获取新的答案。这个链适合需要分析比模型上下文可以容纳的更多文档的任务。
Map Reduce Documents Chain	这个链首先将一个 LLM 链单独应用到每个文档上（Map 步骤），将链输出视为新的文档。然后，它将所有新的文档传递给一个单独的 combine documents 链，以获取单一的输出（Reduce 步骤）。如果需要，它可以首先压缩或折叠映射的文档，以确保它们适合在 combine documents 链中。
Map Re-rank Documents Chain	这个链首先在每个文档上运行一个初始提示，该提示不仅试图完成任务，而且还给出了对其答案的确定程度的评分。返回得分最高的响应。

initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True)

名称	说明
Zero-shot ReAct	仅根据工具的描述来确定使用哪个工具。要求为每个 Tool 提供一个描述，不限制 Tool 数量。
Structured input ReAct	能够使用多输入工具，结构化的参数输入。
Conversational	为对话设置设计的 Agent，使用 Memory 来记住之前的对话交互。
Self ask with search	自问自答，会使用 Google 搜索工具。
ReAct document store	用于和文档进行交互的 Agent。必须提供两个 Tool：一个搜索工具和一个查找工具。搜索工具应该搜索文档，而查找工具应该在最近找到的文档中查找一个术语。
OpenAI Functions	某些 OpenAI 模型（如 gpt-3.5-turbo-0613 和 gpt-4-0613）已经明确地进行了微调，如果使用这些模型，可以考虑使用 OpenAI Functions 的 AgentType。

import base64
import json
import os
from io import BytesIO

import requests
from PIL import Image
from pydantic import BaseModel, Field

from langchain.agents import AgentType, initialize_agent, load_tools
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI
from langchain.tools import BaseTool, StructuredTool, Tool, tool
from langchain import LLMMathChain, SerpAPIWrapper

def generate_image(prompt: str) -> str:
    """
    根据提示词生成对应的图片

    Args:
        prompt (str): 英文提示词

    Returns:
        str: 图片的路径
    """
    url = "http://127.0.0.1:7860/sdapi/v1/txt2img"
    headers = {
        "accept": "application/json",
        "Content-Type": "application/json"
    }
    data = {
        "prompt": prompt,
        "negative_prompt": "(worst quality:2), (low quality:2),disfigured, ugly, old, wrong finger",
        "steps": 20,
        "sampler_index": "Euler a",
        "sd_model_checkpoint": "cheeseDaddys_35.safetensors [98084dd1db]",
        # "sd_model_checkpoint": "anything-v3-fp16-pruned.safetensors [d1facd9a2b]",
        "batch_size": 1,
        "restore_faces": True
    }

    response = requests.post(url, headers=headers, data=json.dumps(data))

    if response.status_code == 200:
        response_data = response.json()
        images = response_data['images']

        for index, image_data in enumerate(images):
            img_data = base64.b64decode(image_data)
            img = Image.open(BytesIO(img_data))
            file_name = f"image_{index}.png"
            file_path = os.path.join(os.getcwd(), file_name)
            img.save(file_path)
            print(f"Generated image saved at {file_path}")
            return file_path
    else:
        print(f"Request failed with status code {response.status_code}")

def random_poem(arg: str) -> str:
    """
    随机返回中文的诗词

    Returns:
        str: 随机的中文诗词
    """
    llm = OpenAI(temperature=0.9)
    text = """
        能否帮我从中国的诗词数据库中随机挑选一首诗给我，希望是有风景，有画面的诗：
        比如：山重水复疑无路，柳暗花明又一村。
    """
    return llm(text)

def prompt_generate(idea: str) -> str:
    """
    生成图片需要对应的英文提示词

    Args:
        idea (str): 中文提示词

    Returns:
        str: 英文提示词
    """
    llm = OpenAI(temperature=0, max_tokens=2048)
    res = llm(f"""
    Stable Diffusion is an AI art generation model similar to DALLE-2.
    Below is a list of prompts that can be used to generate images with Stable Diffusion:

    - portait of a homer simpson archer shooting arrow at forest monster, front game card, drark, marvel comics, dark, intricate, highly detailed, smooth, artstation, digital illustration by ruan jia and mandy jurgens and artgerm and wayne barlowe and greg rutkowski and zdislav beksinski
    - pirate, concept art, deep focus, fantasy, intricate, highly detailed, digital painting, artstation, matte, sharp focus, illustration, art by magali villeneuve, chippy, ryan yee, rk post, clint cearley, daniel ljunggren, zoltan boros, gabor szikszai, howard lyon, steve argyle, winona nelson
    - ghost inside a hunted room, art by lois van baarle and loish and ross tran and rossdraws and sam yang and samdoesarts and artgerm, digital art, highly detailed, intricate, sharp focus, Trending on Artstation HQ, deviantart, unreal engine 5, 4K UHD image
    - red dead redemption 2, cinematic view, epic sky, detailed, concept art, low angle, high detail, warm lighting, volumetric, godrays, vivid, beautiful, trending on artstation, by jordan grimmer, huge scene, grass, art greg rutkowski
    - a fantasy style portrait painting of rachel lane / alison brie hybrid in the style of francois boucher oil painting unreal 5 daz. rpg portrait, extremely detailed artgerm greg rutkowski alphonse mucha greg hildebrandt tim hildebrandt
    - athena, greek goddess, claudia black, art by artgerm and greg rutkowski and magali villeneuve, bronze greek armor, owl crown, d & d, fantasy, intricate, portrait, highly detailed, headshot, digital painting, trending on artstation, concept art, sharp focus, illustration
    - closeup portrait shot of a large strong female biomechanic woman in a scenic scifi environment, intricate, elegant, highly detailed, centered, digital painting, artstation, concept art, smooth, sharp focus, warframe, illustration, thomas kinkade, tomasz alen kopera, peter mohrbacher, donato giancola, leyendecker, boris vallejo
    - ultra realistic illustration of steve urkle as the hulk, intricate, elegant, highly detailed, digital painting, artstation, concept art, smooth, sharp focus, illustration, art by artgerm and greg rutkowski and alphonse mucha

    I want you to write me a list of detailed prompts exactly about the idea written after IDEA. Follow the structure of the example prompts. This means a very short description of the scene, followed by modifiers divided by commas to alter the mood, style, lighting, and more.

    IDEA: {idea}""")
    return res

class PromptGenerateInput(BaseModel):
    """
    生成英文提示词所需的输入模型类
    """
    idea: str = Field()

class GenerateImageInput(BaseModel):
    """
    生成图片所需的输入模型类
    """
    prompt: str = Field(description="英文提示词")


tools = [
    Tool.from_function(
        func=random_poem,
        name="诗歌获取",
        description="随机返回中文的诗词"
    ),
    Tool.from_function(
        func=prompt_generate,
        name="提示词生成",
        description="生成图片需要对应的英文提示词，当前工具可以将输入转换为英文提示词，以便方便生成",
        args_schema=PromptGenerateInput
    ),
    Tool.from_function(
        func=generate_image,
        name="图片生成",
        description="根据提示词生成对应的图片，提示词需要是英文的，返回是图片的路径",
        args_schema=GenerateImageInput
    ),
]

def main():
    """
    主函数，初始化代理并执行对话
    """
    llm = OpenAI(temperature=0)
    agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True)
    agent.run("帮我生成一张诗词的图片？")

if __name__ == '__main__':
    main()

import os
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.embeddings import OpenAIEmbeddings
from langchain.indexes import VectorstoreIndexCreator
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.llms import OpenAI

# 设置代理
os.environ['HTTP_PROXY'] = 'socks5h://127.0.0.1:13659'
os.environ['HTTPS_PROXY'] = 'socks5h://127.0.0.1:13659'

# 创建文本加载器
loader = TextLoader('/Users/aihe/Downloads/demo.txt', encoding='utf8')

# 加载文档
documents = loader.load()

# 文本分块
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

# 计算嵌入向量
embeddings = OpenAIEmbeddings()

# 创建向量库
db = Chroma.from_documents(texts, embeddings)

# 将向量库转换为检索器
retriever = db.as_retriever()

# 创建检索问答系统
qa = RetrievalQA.from_chain_type(llm=OpenAI(), chain_type="stuff", retriever=retriever)

# 运行问题答案检索
query = "如何申请租户？"
print(qa.run(query))

print(qa.run("能否说明下你可以提供的功能？"))

import requests
from langchain.agents import AgentType, initialize_agent
from langchain.chat_models import ChatOpenAI
from langchain.tools import StructuredTool
from pydantic import BaseModel, Field

def post_message(type: str, param: dict) -> str:
    """
     当需要生成人群、分析画像、咨询问题时，使用如下的指示：url 固定为：http://localhost:3001/
     如果请求是生成人群，请求的 type 为 crowd; 如果请求是分析画像，请求的 type 为 analyze; 如果是其他或者答疑，请求的 type 为 question;
     请求 body 的 param 把用户指定的条件传进来即可
     """
    result = requests.post("http://localhost:3001/", json={"type": type, "param": param})
    return f"Status: {result.status_code} - {result.text}"

class PostInput(BaseModel):
    # body: dict = Field(description="""格式:{"type":"","param":{}}""")
    type: str = Field(description="请求的类型，人群为 crowd，画像为 analyze")
    param: dict = Field(description="请求的具体描述")


llm = ChatOpenAI(temperature=0)
tools = [
    StructuredTool.from_function(post_message)
]
agent = initialize_agent(tools, llm, agent=AgentType.STRUCTURED_CHAT_ZERO_SHOT_REACT_DESCRIPTION, verbose=True)
agent.run("我想生成一个性别为男并且在 180 天访问过淘特的人群？")

pip install langflow

langflow

LangChain 框架详解与大语言模型应用实践

一、引言

二、介绍

什么是 LangChain？

LangChain 的主要模块？

三、LangChain 主要概念与示例

Model I/O

Model

Prompt

Output Parsers

Data Connection

Chains

Memory

Agent

Debug

四、LangChain 应用案例

LangChain 生成图片

LangChain 做答疑

Langchain 输出结构化 JSON 数据

LangChain 做一款自己的聊天机器人

其它案例

五、最佳实践与生产环境建议

六、总结

更多推荐文章

相关免费在线工具

LangChain 框架详解与大语言模型应用实践

一、引言

二、介绍

什么是 LangChain？

LangChain 的主要模块？

三、LangChain 主要概念与示例

Model I/O

Model

Prompt

Output Parsers

Data Connection

Chains

Memory

Agent

Debug

四、LangChain 应用案例

LangChain 生成图片

LangChain 做答疑

Langchain 输出结构化 JSON 数据

LangChain 做一款自己的聊天机器人

其它案例

五、最佳实践与生产环境建议

六、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具