RAGFlow 实现 GraphRAG 知识库多模态问答与 AI 编排流体验
1. RAGFlow 简介
RAGFlow 是一款基于深度文档理解的开源 RAG(Retrieval-Augmented Generation)引擎。它旨在解决传统 RAG 系统在处理复杂非结构化数据时的局限性,通过引入 GraphRAG(基于知识图谱的检索增强生成)技术,显著提升检索的准确性和可解释性。
核心特性
'Quality in, quality out'
- 深度文档理解:能够从各类复杂格式的非结构化数据中提取真知灼见,不仅仅是简单的文本切片。
- 无限上下文支持:真正在长上下文(Long Context)场景下快速完成大海捞针测试,确保关键信息不丢失。
基于模板的文本切片
- 可控可解释:不仅仅是智能,更重要的是可控。提供多种文本模板供用户选择,适应不同文档结构。
- 可视化调整:文本切片过程可视化,支持手动调整切片边界,优化检索效果。
降低幻觉(Hallucination)
- 有理有据:答案提供关键引用的快照并支持追根溯源,减少大模型幻觉问题。
- GraphRAG 支持:启发于知识图谱和思维导图,利用实体关系增强检索逻辑。
兼容各类异构数据源
- 丰富文件类型:支持 Word 文档、PPT、Excel 表格、txt 文件、图片、PDF、影印件、复印件、结构化数据、网页等。
- 多模态解析:支持解析音频文件,Q&A 解析方式支持 Markdown 文件和 Docx 文件,支持提取 Docx 中的图片和 Markdown 中的表格。
自动化的 RAG 工作流
- 企业级架构:全面优化的 RAG 工作流可以支持从个人应用乃至超大型企业的各类生态系统。
- 灵活配置:大语言模型 LLM 以及向量模型均支持配置,支持多路召回、融合重排序。
- API 集成:提供易用的 API,可以轻松集成到各类企业系统。
2. 环境要求与准备
在开始部署之前,请确保服务器满足以下最低硬件和软件要求:
- CPU:>= 4 核
- RAM:>= 16 GB(建议 32GB 以上以获得更好的性能)
- Disk:>= 50 GB(根据知识库大小预留空间)
- Docker:>= 24.0.0
- Docker Compose:>= v2.26.1
如果本机未安装 Docker,请参考官方文档自行安装。
2.1 系统参数优化
vm.max_map_count是 Linux 内核中的一个重要参数,它定义了一个进程可以拥有的最大内存映射区域数。RAGFlow 依赖 Elasticsearch 进行数据存储和检索,该服务对内存映射有较高需求。
- 性能优化:增加
vm.max_map_count的值,允许应用程序创建更多的内存映射区域,从而提高性能和效率。 - 稳定性保障:如果超过限制,可能导致映射失败,引发性能问题或直接导致应用程序崩溃。
设置方法
-
临时设置:


