Ollama-OCR:基于 Llama 3.2-Vision 的本地高精度文字识别方案
Llama 3.2-Vision 是一种多模态大型语言模型,提供 11B 和 90B 两种参数量级版本。该模型能够同时处理文本和图像输入,并生成高质量的文本输出。在视觉识别、图像推理、图像描述以及回答图像相关问题方面,Llama 3.2-Vision 表现出色,在多个行业基准测试中均优于现有的开源和闭源多模态模型。
本文将详细介绍开源工具 ollama-ocr。它默认使用本地运行的 Llama 3.2-Vision 视觉模型,可准确识别图像中的文字,同时保留原始格式。相比传统 OCR 工具,基于大模型的 OCR 在处理复杂布局、手写体及模糊图像时具有显著优势。
Ollama-OCR 的核心特点
- 高精度识别:利用 Llama 3.2-Vision 强大的视觉理解能力进行文本提取。
- 格式保留:能够识别并保留原始文本的段落结构和排版信息。
- 多格式支持:兼容 JPG、JPEG、PNG 等多种常见图像格式。
- 灵活配置:支持自定义识别提示词(System Prompt)和切换不同模型。
- Markdown 输出:可选输出 Markdown 格式,便于后续文档处理。
Llama 3.2-Vision 应用场景
1. 识别手写文本
对于难以通过规则引擎解析的手写笔记或签名,Llama 3.2-Vision 能够通过上下文理解语义,提高识别准确率。
2. 票据与文档 OCR
适用于发票、收据、合同等结构化或非结构化文档的文字提取,并能保持表格或列表的层级关系。
3. 图片问答
除了提取文字,模型还能根据图片内容回答用户提出的问题,例如'这张图片里有什么?'或'计算结果是多少?'。
环境配置指南
安装 Ollama
在使用 Llama 3.2-Vision 之前,首先需要安装 Ollama。这是一个支持在本地运行多模态模型的平台,兼容 Windows、macOS 和 Linux。
- 下载 Ollama:访问 Ollama 官方网站,下载适用于您操作系统的安装包。
- 安装 Ollama:根据下载的安装包,按照提示完成安装。安装完成后,确保服务已启动。
- 验证安装:在终端运行
ollama --version确认安装成功。
安装 Llama 3.2-Vision 11B 模型
安装 Ollama 后,可使用以下命令拉取并运行 Llama 3.2-Vision 11B 模型:
ollama run llama3.2-vision
首次运行时会自动下载模型权重,请确保网络通畅且磁盘空间充足(约 6GB-8GB)。
安装 Ollama-OCR 库
本项目基于 Node.js 开发,需先初始化项目并安装依赖:
npm install ollama-ocr
# 或使用 pnpm
pnpm add ollama-ocr
使用 Ollama-OCR
基础 OCR 识别
最简单的用法是调用 函数,传入图片路径和系统提示词。


