腾讯开源 WeKnora(IMA):重新定义企业级智能文档检索
WeKnora(维娜拉)是腾讯开源的一款企业级文档理解与语义检索框架,基于 RAG(检索增强生成)机制构建。它专为结构复杂、内容异构的文档场景设计,能够精准理解 PDF、Word、图片等多种格式文档,并结合上下文生成高质量、可追溯的答案。
腾讯开源 WeKnora(IMA)是一款基于 RAG 机制的企业级文档理解与语义检索框架。它支持 PDF、Word 等多格式文档解析,结合 OCR 和向量化技术实现知识图谱构建。核心架构包含文档解析、知识建模、检索引擎、大模型推理及交互展示五层。支持 ReACT Agent 模式、混合检索策略及本地私有云部署。适用于企业知识管理、学术研究、法律医疗等场景。提供 Docker 一键部署方案,兼容多种大模型与向量数据库,旨在提升文档检索效率与知识激活能力。
WeKnora(维娜拉)是腾讯开源的一款企业级文档理解与语义检索框架,基于 RAG(检索增强生成)机制构建。它专为结构复杂、内容异构的文档场景设计,能够精准理解 PDF、Word、图片等多种格式文档,并结合上下文生成高质量、可追溯的答案。
WeKnora(在微信生态中也被称为 IMA)是腾讯开源的一款企业级文档理解与语义检索框架,基于 RAG(检索增强生成)机制构建。它专为结构复杂、内容异构的文档场景设计,能够精准理解 PDF、Word、图片等多种格式文档,并结合上下文生成高质量、可追溯的答案。
WeKnora 的强大源于其精心设计的五层模块化架构,各模块既独立封装又协同联动,形成完整的文档处理闭环。
打破格式壁垒,支持多种文档类型的智能解析:
将文档转化为可检索的知识表示:
采用混合检索策略,兼顾精准与全面:
| 检索策略 | 技术实现 | 适用场景 |
|---|---|---|
| 关键词检索 | BM25 算法 | 精确术语匹配 |
| 向量召回 | BGE/GTE 嵌入模型 | 语义相似搜索 |
| 知识图谱增强 | GraphRAG | 跨文档关联推理 |
动态权重调整:
基于 RAG 机制,确保答案的真实性:
提供直观易用的用户界面:
WeKnora 在众多 RAG 工具中脱颖而出,具备三大核心亮点。
ReACT(Reasoning and Acting)模式是 WeKnora v0.2.0 的核心突破,通过'思考 - 行动 - 观察'循环模拟人类解决问题的逻辑:
实战案例:输入'分析 2025 年 AI 行业政策并生成合规报告',Agent 会自动拆解任务、检索信息、整合分析,全程无需人工干预。
对于金融、医疗等敏感行业:
WeKnora 的应用价值已在多个实际场景中得到验证。
搭建统一智能知识中台,整合各部门分散文档:
整合知网、万方等平台文献资源:
精准匹配专业文档:
WeKnora 采用 MIT 开源协议,提供完整的 Docker 化部署方案,个人与企业均可免费使用。
# 1. 克隆项目
git clone https://github.com/Tencent/WeKnora.git
cd WeKnora
# 2. 配置环境变量
cp .env.example .env
# 编辑 .env,填入对应配置信息(大模型 API、向量数据库等)
# 3. 一键启动
./scripts/start_all.sh
启动成功后,访问 http://localhost 即可看到初始化配置页面。
| 配置项 | 说明 | 推荐值 |
|---|---|---|
| LLM 模型 | 对话大模型 | DeepSeek V3.1、Qwen 2.5 |
| Embedding 模型 | 向量化模型 | BAAI/bge-m3、OpenAI embedding-3-large |
| Rerank 模型 | 重排序模型 | BAAI/bge-reranker-v2-m3 |
| 多模态模型 | 图片理解 | Qwen/Qwen2.5-VL-72B-Instruct |
| 向量数据库 | 向量存储 | PostgreSQL (pgvector)、Elasticsearch、Milvus |
经过实际测试,WeKnora 在各类文档处理场景下表现优异:
| 文档类型 | 解析速度 | 检索延迟 | 问答准确率 |
|---|---|---|---|
| 技术手册(100 页) | 12 秒 | 0.8 秒 | 92% |
| 学术论文(PDF) | 8 秒 | 1.2 秒 | 89% |
| 扫描合同(图片) | 15 秒 | 1.5 秒 | 85% |
| 跨文档关联查询 | - | 2.3 秒 | 79% |
WeKnora 的模块化架构为开发者提供了丰富的扩展空间。
# weknora_config.yaml
retrieval:
strategy: "hybrid"
keyword_weight: 0.3
vector_weight: 0.7
rerank: true
vector_db:
type: "milvus"
host: "localhost"
port: 19530
腾讯 WeKnora 凭借以下核心优势,正在成为连接文档数据与大语言模型的核心桥梁:

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online