AutoFigure:从长文本到出版级科研插图
科研插图对于论文发表至关重要,一张清晰的图能让审稿人快速理解核心思想。然而,绘制高质量的科研插图往往需要数天时间,且要求作者兼具专业知识和设计能力。现有的文本生成图像模型(如 DALL-E)虽然美观但结构保真度差,而代码生成方法(如 TikZ/SVG)虽能保证结构但视觉效果不佳。
针对这一痛点,AutoFigure 提出了一种能从长文本直接生成 publication-ready 科研插图的 AI 框架。该框架不仅发布了首个专门针对科研插图生成的基准 FigureBench(包含 3300 对高质量文本 - 图片数据),还通过人类专家评测验证了其有效性——66.7% 的生成结果达到了可以直接放入正式论文的标准。

核心架构:先推理后渲染
AutoFigure 的核心贡献在于将复杂的插图生成任务拆解为三个相对独立的阶段,采用'先推理后渲染'(Reasoned Rendering)的分阶段范式。
第一阶段:概念提取和布局规划
给定一篇长文(例如 1 万多 tokens 的方法描述),系统首先利用大语言模型(LLM)进行语义解析,提取核心方法论,识别需要可视化的实体(entities)和关系(relations),并将其序列化为机器可读的符号布局(如 SVG 或 HTML)。
为了优化布局质量,AutoFigure 引入了一个 critique-and-refine 循环。评审 Agent 会从对齐度、平衡性、重叠避免等角度给出反馈,设计 Agent 根据反馈重新解读方法文本,生成新的候选布局。如果新布局得分更高,则替换当前最佳版本。公式表示如下:
$$F_{\text{best}}^{(i)} = \text{Feedback}(\Phi_{\text{critic}}(S_{\text{best}}, A_{\text{best}}))$$ $$(S_{\text{cand}}^{(i)}, A_{\text{cand}}^{(i)}) = \Phi_{\text{gen}}(T_{\text{method}}, F_{\text{best}}^{(i)})$$
这种迭代搜索机制相当于给 AI 增加了思考过程,能够找到全局最优的布局,而非一次性硬怼。
第二阶段:美学渲染和文本后处理
拿到结构化布局后,第二阶段的任务是将骨架变成有血有肉的图。系统使用 style-guided 方式,先用 LLM 把符号布局转成详细的 text-to-image prompt,配合结构图喂给多模态生成模型。
针对文字渲染经常模糊的问题,AutoFigure 采用了'擦除 - 纠正'(erase-and-correct)策略:
- 先用非 LLM 的 eraser 把生成图里的文字像素全擦掉,得到干净背景;
- 用 OCR 引擎提取出原图的文字内容和边界框;
- 用多模态 verifier 对照 ground-truth(从 SVG 里解析的标准文字)纠正 OCR 结果;
- 最后把纠正后的文字以矢量形式覆盖到干净背景上。
这一操作保证了最终图里的文字既清晰又准确。

评测与效果
论文进行了三类评测:自动化评测、人类专家评测、消融实验。在最具说服力的人类专家评测中,团队邀请了 10 位拥有第一作者论文的领域专家,让他们评价自己论文的 AI 生成图。
评测结果显示:
- AutoFigure 的胜率(win rate)达到 83.3%,仅次于人工原图的 96.8%;
- 66.7% 的专家愿意用 AutoFigure 生成的图发表论文;
- 在准确性、清晰度、美观性三个维度,AutoFigure 均显著超过 baseline。



