Eino 组件核心篇：文档进入 RAG 前，Loader 和 Parser 的职责划分 | 极客日志

Go / GolangAI算法

Eino 组件核心篇：文档进入 RAG 前，Loader 和 Parser 的职责划分

Eino 框架中 Document Loader 负责统一来源接入，将不同源内容转为标准 schema.Document；Parser 负责内容解释，根据格式解析原始流。两者分工明确，Loader 解决“从哪来”，Parser 解决“怎么进”。MetaData、Option 和 Callback 机制确保链路可观测与扩展。正确理解边界有助于构建稳定的 RAG 系统。

游戏玩家发布于 2026/3/29更新于 2026/6/314 浏览

Eino 组件核心篇：文档进入 RAG 前，Loader 和 Parser 的职责划分

很多人第一次看到 Document Loader，第一反应都很直接：

不就是'读文件'或者'抓网页'吗？

本地文件读出来，网页内容拉下来，能拿到一段文本，事情似乎就结束了。

可如果你真把它只理解成一个'读取器'，后面一旦进入知识库入库、文档追踪、多格式解析、链路编排，你很快就会发现这个理解太浅了。

因为在 Eino 里，Document Loader 真正要解决的，不只是'把内容读出来'，而是：

把不同来源的原始内容，统一成标准的 []*schema.Document。

而在这条链路里，最容易被忽视的，其实不是 Load 本身，而是 Loader 背后的 Parser。

你可以把这篇文章先记成一句话：

Loader 管来源接入，Parser 管内容解释；前者解决'东西从哪来'，后者解决'这些内容该怎么进文档协议'。

如果这两层边界没拆开，很多人后面做 RAG 时，文档链路虽然也能跑，但通常会写得很糙。

1. `Document Loader` 到底解决什么，不只是'把文件读出来'

先说结论：

Document Loader 不是简单的 I/O 封装，它是文档进入系统前的'来源收口层'。

这层价值主要有三件事。

第一，它统一了来源。

你的文档可能来自本地文件、网络 URL、S3，甚至以后还可能接企业内部对象存储。
如果每一种来源都让上层逻辑直接自己读、自己转、自己拼元数据，后面的链路很快就会变得很散。

Loader 做的，就是把'来源差异'先压平。

第二，它统一了输出协议。

不管前面读到的是 Markdown、HTML、PDF，还是普通文本，出去的时候都得变成 []*schema.Document。
一旦这个协议立住了，后面的 Chain、Graph、切分、索引、检索，才有稳定输入。

第三，它把文档接入正式纳入运行时链路。

这也是很多人容易忽略的点。
在 Eino 里，Loader 的 ctx 不只是拿来取消请求，它还承担 Callback Manager 的传递。
这就意味着，文档加载不是一段藏在角落里的工具函数，而是可以被观察、被编排、被扩展的正式组件。

放到 RAG 里看，它是'数据进入系统的第一站'，但它还不是检索、不是索引、也不是切分策略本身。

它解决的是入口统一，不是后续所有问题。

2. 看懂 `Loader` 接口后，才知道官方真正想收口什么

官方给出的核心接口其实非常短：

type Loader interface {
	Load(ctx context.Context, src Source, opts ...LoaderOption) ([]*schema.Document, error)
}

type Source struct {
	URI string
}

很多人第一次看到这段代码，会觉得信息量不大。
可实际上，官方想收口的边界已经放得很清楚了。

先看 Load。

它返回的不是 string，也不是，而是。这一步非常关键。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

[]byte

[]*schema.Document

type Document struct {
	ID       string
	Content  string
	MetaData map[string]any
}

type Parser interface {
	Parse(ctx context.Context, reader io.Reader, opts ...Option) ([]*schema.Document, error)
}

URI -> Loader 获取原始内容 -> Parser 依据格式解析 -> 构造 []*schema.Document -> 进入 Chain / Graph -> 再进入后续切分、索引、检索链路

chain := compose.NewChain[document.Source, []*schema.Document]()
chain.AppendLoader(loader)

graph := compose.NewGraph[document.Source, []*schema.Document]()
graph.AddLoaderNode("loader_node", loader)

// 创建纯文本解析器，作为未知扩展名文件的兜底解析器。
textParser := parser.TextParser{}

// 创建 HTML 解析器，仅提取 body 节点内容，避免把 head、script 等无关内容混入文档。
htmlParser, _ := html.NewParser(ctx, &html.Config{
	Selector: gptr.Of("body"),
})

// 创建 PDF 解析器，用于解析 .pdf 文件内容。
pdfParser, _ := pdf.NewPDFParser(ctx, &pdf.Config{})

// 按文件扩展名分发到对应解析器：
// - .html 使用 HTML 解析器
// - .pdf 使用 PDF 解析器
// - 其他类型回退到纯文本解析器
extParser, _ := parser.NewExtParser(ctx, &parser.ExtParserConfig{
	Parsers: map[string]parser.Parser{
		".html": htmlParser,
		".pdf":  pdfParser,
	},
	FallbackParser: textParser,
})

// 创建文件加载器：
// - UseNameAsID=true 表示使用文件名作为文档 ID，便于排查和追踪来源
// - Parser 指定统一的扩展名解析器
loader, _ := file.NewFileLoader(ctx, &file.FileLoaderConfig{
	UseNameAsID: true,
	Parser:      extParser,
})

// 加载并解析目标文件，返回标准化后的文档列表。
docs, _ := loader.Load(ctx, document.Source{
	URI: "./testdata/test.html",
})

// 输出文档 ID（此处通常为文件名或基于文件名生成的标识）。
fmt.Println(docs[0].ID)

// 输出解析后的正文内容。
fmt.Println(docs[0].Content)

// 输出文档元数据，便于调试解析结果和来源信息。
fmt.Printf("%#v\n", docs[0].MetaData)

func (l *CustomLoader) Load(
	ctx context.Context,
	src document.Source,
	opts ...document.LoaderOption,
) ([]*schema.Document, error) {
	// 合并调用方传入的可选参数，并以 Loader 默认超时作为基线配置。
	loaderOpts := document.GetLoaderImplSpecificOptions(&loaderOptions{
		Timeout: l.timeout,
	}, opts...)

	// 打开数据源，返回可读取的流；由当前方法统一负责关闭。
	reader, err := l.open(ctx, src, loaderOpts)
	if err != nil {
		return nil, err
	}
	defer reader.Close()

	// 触发加载开始回调，便于链路追踪、审计和观测。
	ctx = callbacks.OnStart(ctx, &document.LoaderCallbackInput{
		Source: src,
	})

	// 调用底层解析器解析文档内容，并注入标准来源信息：
	// - URI：供解析器识别文件类型或来源
	// - source 元数据：便于后续检索、追踪和排障
	docs, err := l.parser.Parse(ctx, reader, parser.WithURI(src.URI), parser.WithExtraMeta(map[string]any{"source": src.URI}),)
	if err != nil {
		// 解析失败时上报错误回调，确保监控链路完整。
		callbacks.OnError(ctx, err)
		return nil, err
	}

	// 解析成功后触发结束回调，输出源信息和解析结果。
	callbacks.OnEnd(ctx, &document.LoaderCallbackOutput{
		Source: src,
		Docs:   docs,
	})
	return docs, nil
}

Eino 组件核心篇：文档进入 RAG 前，Loader 和 Parser 的职责划分

Eino 组件核心篇：文档进入 RAG 前，Loader 和 Parser 的职责划分

1. `Document Loader` 到底解决什么，不只是'把文件读出来'

2. 看懂 `Loader` 接口后，才知道官方真正想收口什么

更多推荐文章

相关免费在线工具

3. `Source` 和 `schema.Document` 为什么是这条链路的关键协议

4. 为什么 `Parser` 不是配角，而是 Loader 内部真正的内容解释层

5. 一条完整链路在 Eino 里到底怎么走

6. 一个最小例子，把 `FileLoader`、`ExtParser` 和元数据串起来

7. `Option` 和 `Callback` 为什么不是装饰品

8. 自己实现 Loader / Parser 时，真正该守住哪些边界

9. 总结

参考资料

更多推荐文章

相关免费在线工具

Eino 组件核心篇：文档进入 RAG 前，Loader 和 Parser 的职责划分

Eino 组件核心篇：文档进入 RAG 前，Loader 和 Parser 的职责划分

1. Document Loader 到底解决什么，不只是'把文件读出来'

2. 看懂 Loader 接口后，才知道官方真正想收口什么

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. Source 和 schema.Document 为什么是这条链路的关键协议

4. 为什么 Parser 不是配角，而是 Loader 内部真正的内容解释层

5. 一条完整链路在 Eino 里到底怎么走

6. 一个最小例子，把 FileLoader、ExtParser 和元数据串起来

7. Option 和 Callback 为什么不是装饰品

8. 自己实现 Loader / Parser 时，真正该守住哪些边界

9. 总结

参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1. `Document Loader` 到底解决什么，不只是'把文件读出来'

2. 看懂 `Loader` 接口后，才知道官方真正想收口什么

3. `Source` 和 `schema.Document` 为什么是这条链路的关键协议

4. 为什么 `Parser` 不是配角，而是 Loader 内部真正的内容解释层

6. 一个最小例子，把 `FileLoader`、`ExtParser` 和元数据串起来

7. `Option` 和 `Callback` 为什么不是装饰品