LangChain 大模型输出结构化解析指南 | 极客日志

PythonAI算法

LangChain 大模型输出结构化解析指南

LangChain 提供了多种输出解析器，用于将大语言模型的文本输出转换为结构化数据。涵盖列表、日期时间、枚举、Pydantic JSON 及结构化输出解析器，并包含错误修复与重试机制。通过示例展示如何配置提示词以获取符合格式的响应，以及自定义解析器以满足特定业务需求，实现稳定的模型交互与数据提取。

云间漫步发布于 2025/2/7更新于 2026/7/1938 浏览

LangChain 大模型输出结构化解析指南

简介

在大语言模型（LLM）的应用开发中，无论模型能力多么强大，其输入和输出本质上都是文本格式。虽然纯文本对人类阅读友好，但在需要与程序交互、存入数据库或进行后续逻辑处理时，非结构化的文本往往带来解析困难和稳定性问题。

为了确保应用能够稳定地获取机器可读的数据，LangChain 提供了完善的 Output Parsers 解决方案。这些解析器能够将 LLM 的自然语言回复转换为 Python 对象、JSON 字典、列表或其他特定数据结构，从而简化集成流程。

BaseOutputParser 基础类

LangChain 中所有的输出解析器都继承自 BaseOutputParser。这是一个抽象基类，定义了输出解析的核心接口。

核心方法

class BaseOutputParser(BaseModel, ABC, Generic[T]):

    @abstractmethod
    def parse(self, text: str) -> T:
        """将 LLM 输出的字符串解析为特定结构。

        Args:
            text: 语言模型的输出文本

        Returns:
            结构化后的数据
        """
        pass

    def parse_with_prompt(self, completion: str, prompt: PromptValue) -> Any:
        """可选方法，结合提示词解析输出。

        Args:
            completion: LLM 输出
            prompt: 原始提示词

        Returns:
            结构化输出
        """
        return self.parse(completion)

    def get_format_instructions(self) -> str:
        """返回指导 LLM 如何格式化输出的指令。
        """
        raise NotImplementedError

    @property
    def _type(self) -> str:
        """返回解析器的类型标识，用于序列化。
        """
        raise NotImplementedError

parse: 核心抽象方法，子类必须实现。负责将字符串转换为目标类型。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from langchain.output_parsers import CommaSeparatedListOutputParser
from langchain.prompts import PromptTemplate

output_parser = CommaSeparatedListOutputParser()
format_instructions = output_parser.get_format_instructions()

prompt = PromptTemplate(
    template="列出几种{subject}。\n{format_instructions}",
    input_variables=["subject"],
    partial_variables={"format_instructions": format_instructions + "用中文回答"}
)

_input = prompt.format(subject="水果")
# 假设 model 已初始化
# output = model(_input)
# print(output_parser.parse(output))

from langchain.output_parsers import DatetimeOutputParser

parser = DatetimeOutputParser()
# 设置格式为 ISO 8601
parser.format = "%Y-%m-%dT%H:%M:%S.%fZ"

instructions = parser.get_format_instructions()

from enum import Enum
from langchain.output_parsers import EnumOutputParser

class Color(Enum):
    RED = "red"
    GREEN = "green"
    BLUE = "blue"

parser = EnumOutputParser(enum=Color)

from pydantic import BaseModel, Field
from langchain.output_parsers import PydanticOutputParser

class Student(BaseModel):
    name: str = Field(description="学生的姓名")
    age: int = Field(description="学生的年龄")
    is_active: bool = Field(default=True, description="是否在读")

parser = PydanticOutputParser(pydantic_object=Student)

prompt = PromptTemplate(
    template="根据以下信息生成学生数据。\n{format_instructions}\n{query}",
    input_variables=["query"],
    partial_variables={"format_instructions": parser.get_format_instructions()}
)

from langchain.output_parsers import StructuredOutputParser, ResponseSchema

response_schemas = [
    ResponseSchema(name="name", description="姓名"),
    ResponseSchema(name="age", description="年龄")
]
output_parser = StructuredOutputParser.from_response_schemas(response_schemas)

from langchain.output_parsers import OutputFixingParser
from langchain.chat_models import ChatOpenAI

new_parser = OutputFixingParser.from_llm(parser=base_parser, llm=ChatOpenAI())
try:
    result = new_parser.parse(misformatted_output)
except Exception as e:
    # 处理最终无法修复的情况
    pass

import re
from typing import List
from langchain.output_parsers import BaseOutputParser

class KeywordExtractor(BaseOutputParser[List[str]]):
    keywords: List[str]

    def parse(self, text: str) -> List[str]:
        found = []
        for kw in self.keywords:
            if kw in text:
                found.append(kw)
        return found

    def get_format_instructions(self) -> str:
        return f"请确保回复中包含以下关键词之一：{', '.join(self.keywords)}"

    @property
    def _type(self) -> str:
        return "keyword_extractor"

LangChain 大模型输出结构化解析指南

LangChain 大模型输出结构化解析指南

简介

BaseOutputParser 基础类

核心方法

更多推荐文章

相关免费在线工具

常用 Output Parser 详解

List Parser (列表解析)

Datetime Parser (日期时间解析)

Enum Parser (枚举解析)

Pydantic (JSON) Parser

Structured Output Parser

XML Parser

错误修复与重试机制

OutputFixingParser

RetryWithErrorOutputParser

自定义 Output Parser

最佳实践与注意事项

总结

更多推荐文章

相关免费在线工具

LangChain 大模型输出结构化解析指南

LangChain 大模型输出结构化解析指南

简介

BaseOutputParser 基础类

核心方法

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

常用 Output Parser 详解

List Parser (列表解析)

Datetime Parser (日期时间解析)

Enum Parser (枚举解析)

Pydantic (JSON) Parser

Structured Output Parser

XML Parser

错误修复与重试机制

OutputFixingParser

RetryWithErrorOutputParser

自定义 Output Parser

最佳实践与注意事项

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具