清华等机构推出 DreamBench++：基于 GPT-4o 的图像生成评估新基准

清华大学等机构联合推出 DreamBench++，首个引入 GPT-4o 的图像自动评估新基准。该基准通过精心设计的 Prompt 和思维链提示，使 GPT-4o 能够像人类一样评估图像生成的个性化效果。实验表明，DreamBench++ 在图像相似性和文本遵循方面与人类评价高度一致，显著优于传统的 DINO 和 CLIP 指标。此外，其构建的多元化数据集揭示了现有微调方法在新场景下的局限性，为个性化图像生成技术的评估提供了更可靠的标准。

NodeJser发布于 2025/2/7更新于 2026/7/2447 浏览

面对层出不穷的个性化图像生成技术，一个关键问题摆在眼前：缺乏统一标准来衡量这些生成的图片是否符合人们的喜好。传统的自动评估指标往往难以捕捉人类的主观审美偏好，导致模型优化方向与用户实际体验存在偏差。

对此，来自清华大学、西安交通大学、伊利诺伊大学厄巴纳 - 香槟分校、中国科学院以及旷视研究院的研究人员共同推出了一个新的评估基准——DreamBench++。该基准通过收集不同的图像和提示，利用 GPT-4o 实现了符合人类偏好的自动评估，旨在解决当前图像生成领域评估标准缺失的痛点。

简单来说，通过精心设计 Prompt 以及引入思维链（Chain-of-Thought）提示，团队让 GPT-4o 在图像评估过程中学会了像人类一样思考，并展现其思考过程。为了测试效果，团队以 7 名专业人类标注员的打分为基准，对 7 种不同的图像生成方法进行了评估。结果显示 DreamBench++ 与人类评价高度一致。

什么是 DreamBench++？

DreamBench++ 是一个全新的评估工具，它在个性化图像评估领域实现了两项关键技术突破：一是引入支持多模态的 GPT-4o，同时实现与人类偏好的深度对齐以及自动化评估；二是推出了一个更为全面和多元化的数据集。

与人类对齐的自动化评估

尽管 GPT-4o 支持多模态输入，但在评估图像中的细微差异时仍面临挑战。在评价不同方法的个性化效果时，研究人员选择直接打分而非对比，因为对比可能会受到不同方法生成的图像顺序的影响，而且两两对比需要更长的标注时间。

为了确保评估的准确性和一致性，研究人员设计了包含以下要素的 Prompt：

任务描述：明确评估的目标和要求。
评分标准解释：详细说明评估的依据。
评分范围定义：设定评分的量化标准。
格式规范：确保评分的统一性和可比性。

评分规则涵盖了形状、颜色、纹理以及面部细节（特别针对人和动物），以全面评估图像的个性化效果。最后，为了收集无偏的人类偏好数据，研究团队招募了 7 名经过专业培训、充分理解个性化任务的人类标注员。他们的标注结果被用作人类打分的基准，以确保评估结果的客观性和可靠性。

更全面的个性化数据集

为了确保评估过程的公正性和无歧视性，DreamBench++ 的研究人员构建了一个新的个性化数据集。这一数据集的构建过程涵盖了以下几个关键步骤：

获取主题关键词：团队挑选以及生成了一系列可用于个性化生成的主体名称，如猫、钟表、男人等，共 200 个关键词，分为物体（objects）、活物（living objects），以及风格化图片（style）三种类型。
图片收集：收集来源包含 Unsplash, Rawpixel 和 Google Image Search。接着，从这些图片中挑选了背景干净、主体占比大的图片，以确保图像的清晰度和识别度。
Prompt 生成：引导 GPT-4o 生成不同复杂程度的 Prompt。这些 Prompt 的复杂性与生成任务的难度相对应，即越复杂的 Prompt 对应越具有挑战性的生成任务。

实验结果与分析

在 DreamBench++ 平台上，研究团队对 7 种不同的图像生成方法进行了评估。这些方法涵盖了基于训练的、无需训练的，以及基于多模态大语言模型（MLLM）的多种方案。

评估结果显示：

在图像相似性方面，DINO-I 和 CLIP-I（现有的图像自动评估指标）的评分往往高于人类的评价。这可能是因为这些指标主要关注特征空间的距离，而忽略了语义层面的审美质量。
而在文本遵循方面，CLIP-T 的评分则相对较低，未能准确反映生成内容与提示词之间的语义关联。
相比之下，GPT-4o 在这两方面的评分均更接近人类的打分。

团队推测上述结果背后的原因是，GPT-4o 和人类评价者都会综合考虑多个视觉元素，如形状、轮廓、纹理，以及人或动物的面部细节等，最终给出一个综合性的评分。这种评价方式更符合人类的直觉和偏好，因为它不仅仅关注单一的方面，而是全面地评估图像的各个方面。

此外，团队还对不同图像生成方法在 DreamBench++ 上的生成结果进行了可视化展示。在评估图像生成结果的保持主体情况时，DreamBench++ 与人类评估者达到了 79.64% 的一致性。在遵循文本指令生成图像的能力方面，DreamBench++ 的一致性高达 93.18%。

从数据来看，DreamBench++ 的人类一致性比 DINO score 高出 54.1%，比 CLIP score 高出 50.7%。这也侧面说明，通过设计 Prompt，能够让 GPT-4o 较为准确地捕捉和反映人类的审美和偏好。

另外，DreamBench++ 的数据集多样性更高，与 DreamBench 相比，finetune-based 方法在 DreamBench++ 上的表现会下降。团队推测这可能是因为他们在 DreamBench 上调整了参数，而 DreamBench 的种类并不全面。同时，Emu2 在非自然或复杂图像上的表现也会下降。这些都说明 DreamBench++ 更全面的数据集暴露了已有的个性化方法中的新问题。

清华等机构推出 DreamBench++：基于 GPT-4o 的图像生成评估新基准

什么是 DreamBench++？

与人类对齐的自动化评估

更全面的个性化数据集

实验结果与分析

更多推荐文章

相关免费在线工具

技术背景与行业意义

更多推荐文章

相关免费在线工具

清华等机构推出 DreamBench++：基于 GPT-4o 的图像生成评估新基准

什么是 DreamBench++？

与人类对齐的自动化评估

更全面的个性化数据集

实验结果与分析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

技术背景与行业意义

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具