AutoFigure:从长文本自动生成高质量科研插图
近期有一篇顶会论文介绍了一个名为 AutoFigure 的 AI 框架,旨在解决科研人员绘制方法图耗时耗力的问题。该框架能够直接从长文本(如论文的方法部分)生成 publication-ready 的科研插图。

科研可视化的挑战与现状
一张高质量的科研插图能让审稿人快速理解核心思想,但绘制过程往往需要数天时间,且要求作者兼具专业知识和设计能力。现有的相关工作存在明显局限:
- T2I 模型(如 DALL-E):生成的图片美观,但结构保真度差,逻辑对不上。
- 代码生成方法(直接写 TikZ/SVG):能保证结构,但视觉效果难以达到发表标准。
AutoFigure 瞄准的是更硬核的任务:让 AI 理解整篇论文的方法描述(平均 1 万多 tokens),规划视觉结构并生成完整的概念示意图。
核心架构:先推理后渲染
AutoFigure 将复杂任务拆分为两个相对独立的阶段,这种解耦设计抓住了问题的本质。
阶段一:概念提取和布局规划
首先进行语义解析。给定长文,LLM 提取核心方法论,识别实体和关系,序列化为机器可读的符号布局(如 SVG 或 HTML)。
为了优化布局,系统引入了 critique-and-refine 循环,模拟 AI 设计师与评审的对话:
$$ F_{\text{best}}^{(i)} = \text{Feedback}(\Phi_{\text{critic}}(S_{\text{best}}, A_{\text{best}})) $$ $$ (S_{\text{cand}}^{(i)}, A_{\text{cand}}^{(i)}) = \Phi_{\text{gen}}(T_{\text{method}}, F_{\text{best}}^{(i)}) $$
评审 Agent 从对齐度、平衡性、重叠避免等角度给出反馈,设计 Agent 根据反馈重新解读文本生成新候选布局。若得分更高则替换当前最佳版本。这种迭代搜索机制相当于给 AI 增加了'思考'过程,而非一次性硬怼。
阶段二:美学渲染和文本后处理
拿到结构化布局后,第二阶段负责将骨架变成有血有肉的图。采用 style-guided 方式,先用 LLM 将符号布局转为详细的 text-to-image prompt,配合结构图喂给多模态生成模型。
针对文字渲染易模糊的问题,AutoFigure 采用了 擦除 - 纠正(erase-and-correct) 策略:
- 使用非 LLM 的 eraser 擦掉生成图中的文字像素,得到干净背景。
- 用 OCR 引擎提取原图文字内容和边界框。
- 用多模态 verifier 对照 ground-truth(从 SVG 解析的标准文字)纠正 OCR 结果。
- 最后将纠正后的文字以矢量形式覆盖到干净背景上。
该操作保证了最终图中的文字清晰且准确。

评测与效果分析
论文进行了自动化评测、人类专家评测及消融实验。重点观察人类专家评测结果:团队邀请了 10 位拥有第一作者论文的专家,评价自己论文的 AI 生成图。
- 多维度打分:准确性、清晰度、美观性(1-5 分)。
- 整体排序:对比 6 个 AI 模型 + 原始人工图。
- 出版意愿:哪些图愿意放进 camera-ready 版本。
结果显示,AutoFigure 的 win rate 达到 83.3%,仅次于人工原图的 96.8%。66.7% 的专家愿意使用 AutoFigure 生成的图发表论文。在准确性、清晰度、美观性三个维度,AutoFigure 均显著超过 baseline。

自动化评测方面,AutoFigure 在四个文档类型(Blog、Survey、Textbook、Paper)上均为最高分。其中 Textbook 类别的 Win-Rate 高达 97.5%。
对比 Baseline 表现:
- GPT-Image:美观度尚可,但内容准确性差,Paper 类别 win rate 仅 7%。
- 代码生成方法:结构保真度可,但视觉效果平淡。
- Diagram Agent:各项指标全面崩盘,win rate 为 0%。
关键模块分析
消融实验揭示了几个关键发现:
- 渲染阶段提升明显:Visual Design 和 Overall 得分在渲染后有显著提升,证明 decoupled 的渲染阶段有效提升了视觉吸引力,未损害结构完整性。
- 迭代优化有效:Test-time scaling 实验显示,随着 critique-and-refine 循环次数增加,Overall 得分稳步上升,说明迭代优化确实在寻找更好的布局。
- 模型和格式选择关键:推理模型越强越好;中间格式中 SVG 和 HTML 表现优于 PPT,后者因多次增量插入代码易出现不一致。
数据集 FigureBench
FigureBench 是首个大规模科研插图生成 benchmark,包含 3300 对高质量文本 - 图片数据。构建过程严谨:
- 从 Research-14K 随机抽取 400 篇论文。
- 筛选最能代表核心方法的插图。
- 两个独立标注员审核,Cohen's κ = 0.91。
- 最终得到 200 个高质量样本,扩展出 3000 个开发集样本。
数据集统计显示任务具有挑战性:平均文本长度 10300 tokens,平均文本密度 41.2%,平均 6.2 种颜色、6.4 种形状。
跨领域生成能力
AutoFigure 展示了良好的跨领域适应性:
- 教科书插图:强调教学清晰度,将抽象概念转化为直观视觉结构。
- 技术博客:强调视觉吸引力,清晰标注流程和数据流动。
- 综述类插图:强调结构化呈现,层次化 taxonomy 组织井井有条。

总结
AutoFigure 通过将科研插图生成拆解为'结构推理'和'美学渲染'两个独立阶段,结合迭代优化布局与精确控制文本,实现了既准确又美观的 publication-ready 图片生成。这一工作触及了 AI 科学家的核心瓶颈——视觉表达能力。目前团队已开源代码、数据集及 HuggingFace 空间,项目地址为 https://github.com/ResearAI/AutoFigure。
此外,论文讨论了伦理问题,建议在使用 AutoFigure 生成的图时明确标注来源。总体而言,AutoFigure 标志着科研可视化自动化进程迈出了重要一步。

