前天发了一个PaperBanana文章:
今天又刷到一篇ICLR 2026的论文,看完直接坐不住了。作为天天跟论文打交道的人,谁没为画一张像样的方法图熬过夜?现在终于有人把这事儿给彻底解决了——AutoFigure,一个能从长文本直接生成publication-ready科研插图的AI框架。

讲真,这次不是又来刷榜的那种工作。团队直接放了个大招:不仅搞出了第一个专门针对科研插图生成的benchmark FigureBench(3300对高质量文本-图片数据),还真的做出了一个能用的系统。最关键的是,人类专家评测显示,66.7%的生成结果达到了可以直接放进正式论文的标准。这可不是吹的,是实打实让10个一作来评价自己论文的图,然后给出的数据。

科研可视化这座大山,终于有人动了
咱们先聊聊为啥要做这个。科研插图有多重要?一张好图能让审稿人3分钟看懂你的核心思想,防止理解偏差。但问题是,画一张高质量的科研插图,往往要花好几天时间,还得同时具备专业知识和设计能力。
之前也有些相关工作,比如Paper2Fig100k、ACL-Fig这些数据集,但它们主要是从caption或者短文本重建图片。而AutoFigure瞄准的是更硬核的任务:给你一整篇论文的方法部分(平均1万多tokens),让AI理解透了之后,自己规划视觉结构,生成完整的概念示意图。
这个难度可不是一个量级的。现有的T2I模型(像DALL-E这种)虽然能生成漂亮图片,但结构保真度差,经常画出来的东西跟你描述的逻辑对不上号。代码生成方法(直接让LLM写TikZ/SVG代码)倒是能保证结构,但视觉效果惨不忍睹,完全达不到发表标准。
AutoFigure的贡献可以总结为三点:
- FigureBench:第一个大规模科研插图生成benchmark,覆盖论文、综述、博客、教材四种类型
- AutoFigure框架:基于"先推理后渲染"(Reasoned Rendering)的分阶段生成范式
真实可用:通过大量自动化评测+人类专家评估,证明生成质量达到出版标准

把"画图"拆成"想清楚"和"画出来"
AutoFigure最聪明的地方,就是把科研插图生成这个复杂任务,拆成了三个相对独立的阶段。这种decoupled的设计,真的是抓住了问题本质。
Stage I: 概念提取和布局规划
第一步是语义解析。给定一篇长文(比如1万tokens的方法描述),先用LLM提取核心方法论,识别出需要可视化的实体(entities)和关系(relations),然后把它们序列化成机器可读的符号布局,比如SVG或HTML格式。















