跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

Ollama 支持 Llama 3.2 Vision 及视觉 RAG 系统搭建指南

综述由AI生成Ollama 现已正式支持 Llama 3.2 Vision 模型,提供 11B 和 90B 参数版本。介绍如何在本地通过 Docker 更新并拉取该模型,展示其在图像识别、OCR、图表分析及图片问答方面的能力。此外,还演示了基于 LocalGPT-Vision 的视觉 RAG 系统搭建流程,利用 ColQwen 或 ColPali 进行页面检索,结合视觉语言模型实现文档对话。通过上传 PDF 并索引,用户可针对文档内容进行提问,验证了多模态大模型在检索增强生成场景下的应用效果。

山野来信发布于 2025/2/7更新于 2026/5/3124 浏览
Ollama 支持 Llama 3.2 Vision 及视觉 RAG 系统搭建指南

Ollama 更新:Llama 3.2 Vision 支持与视觉 RAG 系统搭建

在本文中,我将介绍 Ollama 最近对 Llama 3.2 Vision 的支持更新,并分享实测结果。同时,还将介绍一个视觉 RAG 系统,展示如何将 Llama 3.2 Vision 与该系统结合,完成基于视觉 RAG 检索的任务。

更新介绍

Ollama 现在正式支持 Llama 3.2 视觉模型(Llama 3.2 Vision)。

你可以像拖拽文件一样将图片发送给模型进行识别。

Ollama 拖拽识别演示

该模型有 11B 参数版和 90B 参数版。选择 90B 参数版时,文件大小约为 55GB。当然还有一些量化的版本。

Llama 3.2 Vision 版本信息

Llama 3.2 Vision 11B 至少需要 8GB VRAM,而 90B 型号至少需要 64 GB VRAM。

为了安装它,你需要更新一下 ollama。这里以 Docker 安装的 Ollama 为例,没更新前拉取这个视觉模型不成功,我们需要删掉容器,再 pull 更新它。

Docker 更新操作

更新完之后我们可以执行拉取操作。

拉取模型命令

如果你的是 Linux 版本 Ollama 由于网络问题下载不成功的话,可以参考相关社区资源解决。

你可以使用 ollama python 库这样运行它的测试。

import ollama

response = ollama.chat(
    model='llama3.2-vision',
    messages=[{
        'role': 'user',
        'content': '这张图片是什么?',
        'images': ['path/to/image.jpg'],
    }]
)
print(response['message']['content'])

通过本地图像路径向模型提问'这张图片是什么'。

本地图像测试

模型返回了结果,描述图片中有'日落、袋鼠和一群鸟,太阳位于画面中央,但被云遮挡。'这正是图片内容。

模型输出示例

'这是什么城市?',模型会给出答案:'我猜这是日本的城市,可能是东京或大阪。'

我们看看其他一些场景的情况:

手写内容识别

手写识别

光学字符识别 (OCR)

OCR 识别

图表和表格

图表分析

图片问答

图片问答

效果还是不错的。

视觉 RAG 系统 + Llama 3.2 Vision

LocalGPT-Vision 是一个基于视觉的检索增强生成 (RAG) 系统,它可以让你与文档进行对话,使用 Vision 语言模型实现端到端的 RAG 系统。

LocalGPT-Vision 架构

该项目使用 ColQwen 或 ColPali 模型进行基于视觉的页面信息检索,检索到的页面将传递到视觉语言模型 (VLM) 以生成响应。

检索流程

安装项目

首先,你需要克隆代码仓库或拉取最新的更改;然后你需要创建一个新的虚拟环境来使用 conda;最后使用 pip install -r requirements.txt 安装所有需要的包。

安装步骤

为了启动主应用程序,我们将使用 python app.py,这会启动我们的 Flask 服务器,并在该 URL 上运行。只需在浏览器中访问即可。

这是本地 GPT Vision 的主界面。如果你进入模型列表,将看到检索模型。我将选择 ColQwen,它是最适合的模型之一。

选择检索模型

对于生成模型,你有多个选项,我将选择 Ollama Llama Vision。

选择生成模型

然后保存更改。

对于被 RAG 的对象,我们使用一篇名叫 Light RAG 论文,这是一种简单快速的检索增强生成方法,结合了知识库和基于密集向量的方式,特别适用于具有某种关系的实体。

Light RAG 论文

开始使用

点击上传文档按钮,选择相应的 PDF 文件,然后点击'开始索引'。

上传文档

此时,后台将使用 ColQwen 模型为 PDF 中的每一页创建多维向量表示,转换成图像并计算嵌入,所有这些操作都依赖于强大的 poppler 库。

索引过程

如果遇到问题,请确保已安装 poppler 库,因为有些人在使用这个库时遇到过问题。索引完成后,点击'确定',然后开始与刚才创建的知识库进行交互。

首先,我们用一个简单的提示开始:'这篇论文的标题是什么?'

你可以看到,论文的标题是《Light RAG: Simple and Fast Retrieval Augmented Generation》。

查询标题

它与标题完全一致。

接下来我们可以看看它是否能够解释该图像的详细信息。

我问:'你能详细解释图 1 吗?'

查询图 1

图 1 作为论文中的一个插图,讨论了索引过程和检索过程,并展示了提议的 Light RAG 框架的整体架构。该页面还包含了其他信息,特别是数学公式,它们本质上也解释了相同的概念。

原文是这样的

原文截图

这里是这个视觉 RAG 系统回答的翻译版本:

系统回答

生成的响应是:'该图像展示了 Light RAG 框架的全面概述,该框架旨在增强信息检索系统的性能和效率。'然后它讨论了不同的组件,包括数据索引器和数据检索器。

这些信息似乎来自图像本身或图像所在页面上的文本。描述可以做得更好一些,可能 90B 版本的模型会做得更好。

我在这里补充它回答后续的截图:

后续回答

此外,这些视觉开源大模型往往也可以用于一些视频帧的分析的场景。

目录

  1. Ollama 更新:Llama 3.2 Vision 支持与视觉 RAG 系统搭建
  2. 更新介绍
  3. 手写内容识别
  4. 光学字符识别 (OCR)
  5. 图表和表格
  6. 图片问答
  7. 视觉 RAG 系统 + Llama 3.2 Vision
  8. 安装项目
  9. 开始使用
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Flutter 三方库 Bavard 在 OpenHarmony 端的适配实践与协议设计
  • 深入理解并查集数据结构与实战应用
  • RetinaFace+CurricularFace 人脸识别实战指南
  • 5 款免费 AIGC 检测工具推荐与论文降重指南
  • CANN 生态 cann-dataset:AIGC 大模型全链路数据管理方案
  • 国内主流 AI 工具横评:豆包、元宝、千问等七款深度对比
  • 前端微前端:别让你的应用变成巨石应用
  • MySQL 数据库基础入门:从概念到实战
  • OpenCode 开源 AI 编码助手安装与使用指南
  • Mac 端百度网盘第三方插件安装与性能优化指南
  • VsCode 前端开发 AI 助手体验对比:Copilot、通义灵码、iFlyCode 与 Trae
  • 前端日志本地持久化方案
  • Qwen-Multiple-Angles:角色与产品多视角生成插件,96 种相机角度控制
  • CentOS 系统安装 Docker 完整指南
  • AI生成HTML原型导入Axure实操指南
  • OpenClaw Windows 10 本地 AI 智能体一键部署指南
  • GitHub 热门:支持国内股票分析的 AI 开源项目
  • Python 智慧农业农产品商城小程序系统设计
  • Ubuntu 22.04/24.04 安装 ROS2 Humble/Jazzy 指南
  • 通过官方 API 搭建 QQ 群聊机器人

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online