AutoFigure：基于长文本生成高质量科研插图的 AI 框架

AutoFigure：从长文本到出版级科研插图

科研插图对于论文发表至关重要，一张清晰的图能让审稿人快速理解核心思想。然而，绘制高质量的科研插图往往需要数天时间，且要求作者兼具专业知识和设计能力。现有的文本生成图像模型（如 DALL-E）虽然美观但结构保真度差，而代码生成方法（如 TikZ/SVG）虽能保证结构但视觉效果不佳。

针对这一痛点，AutoFigure 提出了一种能从长文本直接生成 publication-ready 科研插图的 AI 框架。该框架不仅发布了首个专门针对科研插图生成的基准 FigureBench（包含 3300 对高质量文本 - 图片数据），还通过人类专家评测验证了其有效性——66.7% 的生成结果达到了可以直接放入正式论文的标准。

Figure 1: FigureBench 数据集组成

核心架构：先推理后渲染

AutoFigure 的核心贡献在于将复杂的插图生成任务拆解为三个相对独立的阶段，采用'先推理后渲染'（Reasoned Rendering）的分阶段范式。

第一阶段：概念提取和布局规划

给定一篇长文（例如 1 万多 tokens 的方法描述），系统首先利用大语言模型（LLM）进行语义解析，提取核心方法论，识别需要可视化的实体（entities）和关系（relations），并将其序列化为机器可读的符号布局（如 SVG 或 HTML）。

为了优化布局质量，AutoFigure 引入了一个 critique-and-refine 循环。评审 Agent 会从对齐度、平衡性、重叠避免等角度给出反馈，设计 Agent 根据反馈重新解读方法文本，生成新的候选布局。如果新布局得分更高，则替换当前最佳版本。公式表示如下：

$$F_{\text{best}}^{(i)} = \text{Feedback}(\Phi_{\text{critic}}(S_{\text{best}}, A_{\text{best}}))$$ $$(S_{\text{cand}}^{(i)}, A_{\text{cand}}^{(i)}) = \Phi_{\text{gen}}(T_{\text{method}}, F_{\text{best}}^{(i)})$$

这种迭代搜索机制相当于给 AI 增加了思考过程，能够找到全局最优的布局，而非一次性硬怼。

第二阶段：美学渲染和文本后处理

拿到结构化布局后，第二阶段的任务是将骨架变成有血有肉的图。系统使用 style-guided 方式，先用 LLM 把符号布局转成详细的 text-to-image prompt，配合结构图喂给多模态生成模型。

针对文字渲染经常模糊的问题，AutoFigure 采用了'擦除 - 纠正'（erase-and-correct）策略：

先用非 LLM 的 eraser 把生成图里的文字像素全擦掉，得到干净背景；
用 OCR 引擎提取出原图的文字内容和边界框；
用多模态 verifier 对照 ground-truth（从 SVG 里解析的标准文字）纠正 OCR 结果；
最后把纠正后的文字以矢量形式覆盖到干净背景上。

这一操作保证了最终图里的文字既清晰又准确。

Figure 2: AutoFigure 框架总览

评测与效果

论文进行了三类评测：自动化评测、人类专家评测、消融实验。在最具说服力的人类专家评测中，团队邀请了 10 位拥有第一作者论文的领域专家，让他们评价自己论文的 AI 生成图。

评测结果显示：

AutoFigure 的胜率（win rate）达到 83.3%，仅次于人工原图的 96.8%；
66.7% 的专家愿意用 AutoFigure 生成的图发表论文；

AutoFigure：基于长文本生成高质量科研插图的 AI 框架

AutoFigure：从长文本到出版级科研插图

核心架构：先推理后渲染

第一阶段：概念提取和布局规划

第二阶段：美学渲染和文本后处理

评测与效果

更多推荐文章

相关免费在线工具

消融分析与数据集

实战案例展示

总结

更多推荐文章

相关免费在线工具

AutoFigure：基于长文本生成高质量科研插图的 AI 框架

AutoFigure：从长文本到出版级科研插图

核心架构：先推理后渲染

第一阶段：概念提取和布局规划

第二阶段：美学渲染和文本后处理

评测与效果

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

消融分析与数据集

实战案例展示

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具