GLM-OCR：基于 GLM-V 架构的多模态 OCR 模型

简介

GLM-OCR 是一款基于 GLM-V 编码器 - 解码器架构的多模态 OCR 模型，专注于复杂文档理解。该模型通过引入多令牌预测（MTP）损失和稳定的全任务强化学习，显著提升了训练效率、识别准确率和泛化能力。其核心架构包含基于大规模图文数据预训练的 CogViT 视觉编码器、采用高效令牌降采样的轻量级跨模态连接器，以及 GLM-0.5B 语言解码器。结合基于 PP-DocLayout-V3 的两阶段流程（版面分析 + 并行识别），GLM-OCR 能在各类文档布局场景中提供稳定优质的 OCR 性能。

核心优势

顶尖性能表现：在 OmniDocBench V1.5 评测中获得 94.62 分综合排名第一，在公式识别、表格识别、信息抽取等主流文档理解任务中均达到 SOTA 水平
真实场景优化：针对实际业务场景进行专项设计和优化，在复杂表格、代码密集文档、印章等具有挑战性的真实版面中保持稳健表现
高效推理部署：仅 0.9B 参数量，支持通过 vLLM/SGLang/Ollama 等多种方案部署，显著降低推理延迟和计算成本，适合高并发服务和边缘端部署
开箱即用体验：完全开源并配备完整 SDK 和推理工具链，提供简易安装、单行调用能力，可快速接入现有生产流程

使用指南

vLLM 方案

安装依赖：

pip install -U vllm --extra-index-url https://wheels.vllm.ai/nightly

或使用 Docker 镜像：

docker pull vllm/vllm-openai:nightly

启动服务：

pip install git+https://github.com/huggingface/transformers.git vllm serve zai-org/GLM-OCR --allowed-local-media-path / --port 8080

SGLang 方案

使用 Docker 镜像：

docker pull lmsysorg/sglang:dev

或源码安装：

pip install git+https://github.com/sgl-project/sglang.git#subdirectory=python

启动服务：

pip install git+https://github.com/huggingface/transformers.git python -m sglang.launch_server --model zai-org/GLM-OCR --port 8080

Ollama 方案

下载 Ollama
运行命令：

ollama run glm-ocr

拖拽图片至终端时自动识别文件路径：

ollama run glm-ocr Text Recognition: ./image.png

Transformers 方案

安装依赖：

pip install git+https://github.com/huggingface/transformers.git

示例代码：

from transformers import AutoProcessor, AutoModelForImageTextToText
 torch

MODEL_PATH = 
messages = [{:,:[{:,:},{:,:}],}]
processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = AutoModelForImageTextToText.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype=,
    device_map=,
)
inputs = processor.apply_chat_template(
    messages, tokenize=, add_generation_prompt=, return_dict=, return_tensors=
).to(model.device)
inputs.pop(,)
generated_ids = model.generate(**inputs, max_new_tokens=)
output_text = processor.decode(generated_ids[][inputs[].shape[]:], skip_special_tokens=)
(output_text)

GLM-OCR：基于 GLM-V 架构的多模态 OCR 模型

简介

使用指南

vLLM 方案

SGLang 方案

Ollama 方案

Transformers 方案

更多推荐文章

相关免费在线工具

提示词规范

GLM-OCR 开发套件

致谢

许可证

更多推荐文章

相关免费在线工具

GLM-OCR：基于 GLM-V 架构的多模态 OCR 模型

简介

使用指南

vLLM 方案

SGLang 方案

Ollama 方案

Transformers 方案

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

提示词规范

GLM-OCR 开发套件

致谢

许可证

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具