Qwen2.5-VL 系列模型正式开源及实测分析
Qwen2.5-VL 系列模型正式开源,包含 3B、7B 和 72B 三种尺寸。该模型采用原生训练的动态分辨率视觉编码器,引入空间坐标和时间编码以增强时空理解能力。实测显示其在表格解析、数学推理、信息抽取及 OCR 任务上表现优异,部分场景超越 GPT-4o 等竞品。支持长视频理解与 Agent 操作能力。本文提供模型架构介绍、功能特性详解及基于 Transformers 库的快速使用代码示例。

Qwen2.5-VL 系列模型正式开源,包含 3B、7B 和 72B 三种尺寸。该模型采用原生训练的动态分辨率视觉编码器,引入空间坐标和时间编码以增强时空理解能力。实测显示其在表格解析、数学推理、信息抽取及 OCR 任务上表现优异,部分场景超越 GPT-4o 等竞品。支持长视频理解与 Agent 操作能力。本文提供模型架构介绍、功能特性详解及基于 Transformers 库的快速使用代码示例。

通义千问团队正式开源了 Qwen2.5-VL 系列视觉语言模型。该系列包含三种尺寸:3B(适合端侧部署)、7B(速度与效果平衡)以及 72B(最强效果)。在多个榜单上,7B 版本已达到开源模型 Top1,72B 版本性能可与 GPT-4o、Claude 3.5 等闭源模型抗衡。
Qwen2.5-VL 在视觉编码器部分采用了原生训练的支持动态分辨率的 ViT(Vision Transformer)。
在空间维度引入大量检测框和点等坐标信息,使模型能够理解空间的尺寸和相对位置关系,这对于表格解析、图表理解等任务至关重要。
在时间维度引入动态 FPS 和绝对时间编码,使 mRoPE(multi-dimensional Rotary Positional Embedding)的 ids 与时间快慢进行对齐,让模型能够理解视频的时序流速。这使得模型支持长达 1 小时的视频理解,并具备更细粒度的时间感知能力。
除了基础的对话、指令跟随、数学计算和代码生成能力外,Qwen2.5-VL 还具备以下显著特性:
本次测试主要基于官方提供的在线演示链接进行验证,重点考察表格解析、数学推理及信息抽取能力。
表格识别是多模态大模型的难点之一。测试涵盖了简单、中等及复杂三种难度的表格。
相比 GPT-4o、Claude 及 Gemini 等竞品,Qwen2.5-VL 在表格解析任务上展现了显著优势。
测试选取了 2024 年高考全国甲卷数学试题(文科及理科)。
通过红绿色盲测试图验证颜色识别能力。图 1 结果正确,图 2 结果错误,整体通过率约 50%,表明在特定颜色区分任务上仍有优化空间。
目前相关代码位于 Hugging Face Transformers 主分支,使用前需安装最新版依赖。
pip install git+https://github.com/huggingface/transformers accelerate
以下是基于 Python 的调用示例:
from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
# 加载模型和处理器
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
"Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype="auto", device_map="auto"
)
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")
# 构造消息
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"},
{"type": "text", "text": "Describe this image."}
],
}
]
# 处理输入
text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to("cuda")
# 生成输出
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)
针对不同应用场景,建议选择合适的模型尺寸:
Qwen2.5-VL 系列模型在视觉理解、逻辑推理及结构化输出方面展现了强大的能力,特别是在表格解析和长视频理解上取得了突破性进展。随着生态的完善,该系列模型有望成为多模态应用开发的重要基础设施。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online