Ollama 支持 Llama 3.2 Vision 及视觉 RAG 系统搭建指南

Ollama 更新：Llama 3.2 Vision 支持与视觉 RAG 系统搭建

在本文中，我将介绍 Ollama 最近对 Llama 3.2 Vision 的支持更新，并分享实测结果。同时，还将介绍一个视觉 RAG 系统，展示如何将 Llama 3.2 Vision 与该系统结合，完成基于视觉 RAG 检索的任务。

更新介绍

Ollama 现在正式支持 Llama 3.2 视觉模型（Llama 3.2 Vision）。

你可以像拖拽文件一样将图片发送给模型进行识别。

Ollama 拖拽识别演示

该模型有 11B 参数版和 90B 参数版。选择 90B 参数版时，文件大小约为 55GB。当然还有一些量化的版本。

Llama 3.2 Vision 版本信息

Llama 3.2 Vision 11B 至少需要 8GB VRAM，而 90B 型号至少需要 64 GB VRAM。

为了安装它，你需要更新一下 ollama。这里以 Docker 安装的 Ollama 为例，没更新前拉取这个视觉模型不成功，我们需要删掉容器，再 pull 更新它。

Docker 更新操作

更新完之后我们可以执行拉取操作。

拉取模型命令

如果你的是 Linux 版本 Ollama 由于网络问题下载不成功的话，可以参考相关社区资源解决。

你可以使用 ollama python 库这样运行它的测试。

import ollama

response = ollama.chat(
    model='llama3.2-vision',
    messages=[{
        'role': 'user',
        'content': '这张图片是什么？',
        'images': ['path/to/image.jpg'],
    }]
)
print(response['message']['content'])

通过本地图像路径向模型提问'这张图片是什么'。

本地图像测试