AutoFigure：从长文本自动生成高质量科研插图

近期有一篇顶会论文介绍了一个名为 AutoFigure 的 AI 框架，旨在解决科研人员绘制方法图耗时耗力的问题。该框架能够直接从长文本（如论文的方法部分）生成 publication-ready 的科研插图。

FigureBench 数据集组成

科研可视化的挑战与现状

一张高质量的科研插图能让审稿人快速理解核心思想，但绘制过程往往需要数天时间，且要求作者兼具专业知识和设计能力。现有的相关工作存在明显局限：

T2I 模型（如 DALL-E）：生成的图片美观，但结构保真度差，逻辑对不上。
代码生成方法（直接写 TikZ/SVG）：能保证结构，但视觉效果难以达到发表标准。

AutoFigure 瞄准的是更硬核的任务：让 AI 理解整篇论文的方法描述（平均 1 万多 tokens），规划视觉结构并生成完整的概念示意图。

核心架构：先推理后渲染

AutoFigure 将复杂任务拆分为两个相对独立的阶段，这种解耦设计抓住了问题的本质。

阶段一：概念提取和布局规划

首先进行语义解析。给定长文，LLM 提取核心方法论，识别实体和关系，序列化为机器可读的符号布局（如 SVG 或 HTML）。

为了优化布局，系统引入了 critique-and-refine 循环，模拟 AI 设计师与评审的对话：

$$ F_{\text{best}}^{(i)} = \text{Feedback}(\Phi_{\text{critic}}(S_{\text{best}}, A_{\text{best}})) $$ $$ (S_{\text{cand}}^{(i)}, A_{\text{cand}}^{(i)}) = \Phi_{\text{gen}}(T_{\text{method}}, F_{\text{best}}^{(i)}) $$

评审 Agent 从对齐度、平衡性、重叠避免等角度给出反馈，设计 Agent 根据反馈重新解读文本生成新候选布局。若得分更高则替换当前最佳版本。这种迭代搜索机制相当于给 AI 增加了'思考'过程，而非一次性硬怼。

阶段二：美学渲染和文本后处理

拿到结构化布局后，第二阶段负责将骨架变成有血有肉的图。采用 style-guided 方式，先用 LLM 将符号布局转为详细的 text-to-image prompt，配合结构图喂给多模态生成模型。

针对文字渲染易模糊的问题，AutoFigure 采用了 擦除 - 纠正（erase-and-correct） 策略：

使用非 LLM 的 eraser 擦掉生成图中的文字像素，得到干净背景。
用 OCR 引擎提取原图文字内容和边界框。
用多模态 verifier 对照 ground-truth（从 SVG 解析的标准文字）纠正 OCR 结果。
最后将纠正后的文字以矢量形式覆盖到干净背景上。

该操作保证了最终图中的文字清晰且准确。

AutoFigure 生成的多样化案例

评测与效果分析

论文进行了自动化评测、人类专家评测及消融实验。重点观察人类专家评测结果：团队邀请了 10 位拥有第一作者论文的专家，评价自己论文的 AI 生成图。

多维度打分：准确性、清晰度、美观性（1-5 分）。
整体排序：对比 6 个 AI 模型 + 原始人工图。

AutoFigure：从长文本自动生成高质量科研插图