腾讯开源 WeKnora(IMA):重新定义企业级智能文档检索
WeKnora(维娜拉)是腾讯开源的一款企业级文档理解与语义检索框架,基于 RAG(检索增强生成)机制构建。它专为结构复杂、内容异构的文档场景设计,能够精准理解 PDF、Word、图片等多种格式文档,并结合上下文生成高质量、可追溯的答案。
一、WeKnora 简介
WeKnora(在微信生态中也被称为 IMA)是腾讯开源的一款企业级文档理解与语义检索框架,基于 RAG(检索增强生成)机制构建。它专为结构复杂、内容异构的文档场景设计,能够精准理解 PDF、Word、图片等多种格式文档,并结合上下文生成高质量、可追溯的答案。
核心价值定位
- 打破格式壁垒:统一处理多模态文档,提取结构化知识
- 语义智能检索:超越传统关键词搜索,实现真正的'理解式检索'
- 企业级安全可控:支持本地化和私有云部署,数据完全自主管理
- 零门槛部署:提供 Docker 一键部署,非技术人员也能快速上手
二、核心架构:五层模块化设计
WeKnora 的强大源于其精心设计的五层模块化架构,各模块既独立封装又协同联动,形成完整的文档处理闭环。
1️⃣ 文档解析层
打破格式壁垒,支持多种文档类型的智能解析:
- 格式支持:PDF(含扫描件)、Word、TXT、Markdown、图片
- 图文融合:OCR 识别 + 图像描述生成(Caption)
- 结构化提取:自动识别表格、公式,转化为统一语义视图
- 批量导入:支持文件夹导入、URL 在线爬取
2️⃣ 知识建模层
将文档转化为可检索的知识表示:
- 自适应分块:采用滑动窗口算法(默认 512 token),保证语义完整性
- 多模态向量化:文本通过 Sentence-BERT/BGE 生成 768 维向量,图片通过 CLIP 生成视觉向量
- 知识图谱构建:自动提取实体与关系(如'产品 - 参数 - 价格'三元组)
3️⃣ 检索引擎层
采用混合检索策略,兼顾精准与全面:
| 检索策略 | 技术实现 | 适用场景 |
|---|---|---|
| 关键词检索 | BM25 算法 | 精确术语匹配 |
| 向量召回 | BGE/GTE 嵌入模型 | 语义相似搜索 |
| 知识图谱增强 | GraphRAG | 跨文档关联推理 |
动态权重调整:
- 事实性问题:关键词权重 60%
- 语义性问题:向量检索权重 70%
- Top10 准确率高达 89%
4️⃣ 大模型推理层
基于 RAG 机制,确保答案的真实性:

