使用 AutoFlow 快速搭建 TiDB 向量搜索本地知识库问答机器人

基于 AutoFlow 快速搭建 TiDB 向量搜索的本地知识库问答机器人

导读

本文将详细介绍如何通过 PingCAP 开源项目 AutoFlow 实现快速搭建基于 TiDB 的本地知识库问答机器人。如果提前准备好 Docker、TiDB 环境，整个搭建过程估计在 10 分钟左右即可完成，无须开发任何代码。

文中使用一篇 TiDB 文档作为本地数据源作为示例，在实际情况中，您可以基于自己的企业环境用同样的方法快速构造企业内部知识库问答机器人。

AutoFlow 界面截图

AutoFlow 是 PingCAP 开源的一个基于 Graph RAG、使用 TiDB 向量存储和 LlamaIndex 构建的对话式知识库聊天助手。https://tidb.ai 也是 PingCAP 基于 AutoFlow 实现的一个 TiDB AI 智能问答系统，我们可以向 tidb.ai 咨询任何有关 TiDB 的问题，比如 "TiDB 对比 MySQL 有什么优势？"

AutoFlow 回答示例

以下是 tidb.ai 的回答，从结果来说，tidb.ai 非常准确的理解了用户的问题并给出了相应的回答。它首先给出 TiDB 优势及 MySQL 限制的详细说明，然后给出一个结论性的总结，最后给出更多的参考链接。

AutoFlow 详细回答

AutoFlow 参考链接

相信通过前面的一些介绍，大家对 tidb.ai 的能力已经有了一个清楚的认识。TiDB 的使用人员很幸运，因为有了 tidb.ai，几乎任何有关 TiDB 的问题都可以在这个统一的平台得到相应的解答，一方面节省了自己人工去查找 TiDB 官方文档或 AskTUG 论坛的时间，另一方面 tidb.ai 拥有比普通大模型更专业的 TiDB 知识问答。

在技术实现上，tidb.ai 背后主要使用到 TiDB 的 Graph RAG 技术、TiDB 向量检索功能以及 LLM 大模型的使用。实际上，在 AutoFlow 出来之前，我们也可以通过 python 编程开发的方式基于 LLM+RAG+TiDB 实现一套问答系统。主要的开发流程如下：

准备私域文本数据
对文本进行切分
通过 Embedding 将文本转为向量数据
把向量数据保存到 TiDB
获得用户输入问题并进行向量化，然后从 TiDB 中进行相似度搜索
将上述片段和历史问答作为上下文，与用户问题一起传入大模型，最后输出结果

传统开发流程

基于 python 开发这样一套问答系统，一般要结合大模型常用开发框架如 Langchain，Langchain 集成了多种文件格式或 URL 网址的导入功能。如果希望给这个系统增加 Web 界面的能力，还需要引入前端可视化工具，如 Gradio 或 Steamlit。但是如果使用开源的 AutoFlow，即使对于没有任何开发背景的同学来说，搭建一套这样的问答系统也是一件轻而易举的事情，以下我们具体演示整个搭建的过程。