QVQ-72B 视觉推理大模型开源评测与代码实现

QVQ-72B 视觉推理大模型开源评测与代码实现 | 极客日志

QVQ-72B 视觉推理大模型开源评测与代码实现

引言

通义千问团队继开源代码推理模型 QWQ 之后，再次推出视觉推理大模型 QVQ-72B。该模型基于 Qwen2-VL-72B 进一步训练而来，旨在提升多模态场景下的复杂推理能力。本文将对 QVQ-72B 的性能表现、潜在问题及代码实践进行详细解析。

模型背景与架构

参数规模的重要性

QVQ 选择了 72B 参数量级，而非更小的 7B 版本。这主要考虑到 o1 式推理（Chain of Thought）对模型容量的要求。较小的参数量往往难以支撑复杂的思维链生成，导致推理效果不佳。QWQ 系列同样从 32B 起步，验证了大参数在逻辑推理任务中的关键作用。

技术基础

QVQ-72B 并非从零训练，而是建立在成熟的 Qwen2-VL-72B 视觉语言模型基础上。通过引入专门的推理指令微调（Instruction Tuning），模型被赋予了更强的逐步思考能力，使其在处理需要多步逻辑推导的视觉问题时表现更佳。

性能评估

基准测试表现

在 MMMU（Massive Multi-discipline Multimodal Understanding）等权威榜单上，QVQ-72B 取得了突破性成绩，分数突破 70 分。相较于基座模型 Qwen2-VL-72B，其在复杂视觉推理任务上的整体效果有显著提升。同时，该模型在多项指标上能够对标部分闭源商业模型，展现了开源模型的竞争力。

适用场景

复杂图表分析：能够理解包含数据趋势、逻辑关系的图表。
数学几何推理：结合图像信息进行几何证明或计算。
科学实验解读：分析实验装置图并推导结论。

局限性与风险

尽管 QVQ-72B 表现优异，但在当前 Preview 版本中仍存在以下需要注意的问题：

语言混乱：模型可能在中英文之间出现无意识的切换，影响输出的一致性。
循环推理：模型容易陷入自我重复的思维循环，导致回复内容冗长，甚至无法给出最终答案。
安全性考量：作为预览版，安全对齐可能尚未完善，需警惕潜在的有害输出。
幻觉风险：随着推理步骤的增加，模型可能逐渐偏离图像实际内容，产生幻觉。因此，它不能完全替代 Qwen2-VL-72B 用于简单的视觉问答任务。

快速开始指南

环境依赖

使用前请确保安装以下核心库：

pip install transformers torch qwen-vl-utils accelerate

代码实现

以下是使用 Hugging Face Transformers 加载和运行 QVQ-72B 的标准示例。请注意系统提示词（System Prompt）的特殊设置，这是触发推理模式的关键。

from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
import torch

# 1. 加载模型
# 使用 device_map="auto" 可自动分配 GPU 资源，适合单卡或多卡环境
model = Qwen2VLForConditionalGeneration.from_pretrained(
    "Qwen/QVQ-72B-Preview",
    torch_dtype="auto",
    device_map="auto"
)

# 2. 加载处理器 (Processor)
processor = AutoProcessor.from_pretrained("Qwen/QVQ-72B-Preview")

# 3. 构建对话消息
# 注意：system prompt 中包含 "think step-by-step" 以激活推理能力
messages = [
    {
        "role": "system",
        "content": [
            {"type": "text", "text": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."}
        ],
    },
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/QVQ/demo.png",
            },
            {"type": "text", "text": "What value should be filled in the blank space?"},
        ],
    }
]

# 4. 输入准备
# apply_chat_template 将消息转换为模型可接受的文本格式
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)

# 处理视觉信息
image_inputs, video_inputs = process_vision_info(messages)

inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)

# 将数据移至指定设备
inputs = inputs.to("cuda")

# 5. 模型推理
# max_new_tokens 设置为 8192 以支持长思维链生成
generated_ids = model.generate(**inputs, max_new_tokens=8192)

# 6. 结果解码
# 移除输入部分的 token，仅保留生成的内容
generated_ids_trimmed = [
    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]

output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)

print(output_text)

最佳实践建议

温度设置 (Temperature)：推理任务通常建议使用较低的温度（如 0.1-0.3）以保证逻辑的严谨性，避免发散。
截断检查：由于模型可能陷入循环，建议在应用层监控输出长度，若超过阈值则强制终止。
多轮交互：对于复杂问题，可将推理过程拆解为多轮对话，引导模型逐步完成。
本地部署：72B 模型显存占用较大，建议至少配备双卡 A100/A800 或消费级高端显卡组合，或使用量化版本以降低资源需求。

总结

QVQ-72B 是通义千问在视觉推理领域的重要探索，为开发者提供了强大的开源工具。虽然目前存在语言混合和循环推理等挑战，但其展现出的潜力足以支持科研与工程落地。建议开发者在使用时关注其局限性，并结合具体业务场景进行适当的后处理与优化。

更多模型详情可访问 Hugging Face 官方仓库：https://huggingface.co/Qwen/QVQ-72B-Preview

QVQ-72B 视觉推理大模型开源评测与代码实现