【论文阅读】ColorFlow: Retrieval-Augmented Image Sequence Colorization

【论文阅读】ColorFlow: Retrieval-Augmented Image Sequence Colorization

基于检索增强的漫画/图片序列上色任务。

intro

现有问题:不是把一张黑白图随便上色,而是要在同一角色跨多张分镜/多帧时,尽量保持发色、衣服配色等“身份颜色(ID color)”一致,而且还要让操作流程“像工具”一样好用:不需要为每个角色单独 finetune,也不强行抽取显式的 ID embedding。论文把整个方案拆成三个阶段:RAP(检索增强)、ICP(in-context 扩散上色)、GSRP(引导式超分复原)。


任务设定:Reference-based Image Sequence Colorization

  • 输入:一张待上色的黑白图(来自漫画/分镜序列中的某一帧)+ 一个“参考图池”(同章节或同序列里若干张已经有颜色的图)。
  • 输出:一张彩色结果,要求在序列层面尽量保持角色/物体的颜色身份一致(例如同一角色的头发颜色在多帧一致)。
  • 关键难点:参考池里信息多、分镜构图变化大、同角色会变形/遮挡/局部出现;如果只做“全图风格迁移式上色”,很容易把颜色“上对了氛围但上错了人”。

method

Retrieval-Augmented Pipeline

目的:把“对的颜色线索”先捞上来。这一步非常像 RAG 的“检索”思想:先从参考池里找最相关的彩色片段,再把这些片段组织成一个结构化的条件输入。

怎么切 patch(为什么是 4 个重叠 patch,且覆盖 3/4 尺寸)

  • 对输入黑白图:切成 4 个重叠 patch(左上/右上/左下/右下),每个 patch 覆盖原图的 3/4 宽高。这样做的直觉是:
    • 角色可能跨越中心线或边界,用重叠 + 大 patch能把关键局部(脸、头发、衣服)尽量完整包含进去;
    • 同时还能保留一定全局上下文(避免只看局部导致错配)。
  • 对每张参考彩色图:做 5 个 patch:同样的 4 个重叠 patch + 整张图 patch(full image),让检索既能匹配局部,也能在必要时用全局做兜底。

怎么检索(CLIP embedding + 余弦相似度 + top-k)

  • 对每个 query patch,和所有 reference patches 做余弦相似度,取每个区域最相似的 top-3 patch。

用预训练 CLIP image encoder对 query patch 和 reference patch 编码得到 embedding。

“拼贴(stitching)”成复合条件图(composite image)

  • 把检索到的结果按空间位置“拼回去”,形成一个 composite reference image(论文中强调这种空间摆放能让后续模型更容易对齐上下文)。
  • 训练时还会构造与之对应的“目标彩色拼贴”(把当前黑白帧对应的真彩色图按同样方式拼贴),形成训练对。
可以理解为:RAP不去做精确实例匹配,而是先保证“参考里大概率就有这人/这件衣服/这个场景的颜色线索”,把“可用信息密度”先抬起来。

In-context Colorization Pipeline

——扩散模型怎么“靠自注意力”学会对号入座。

论文最核心的设计有两点:

  1. 把参考和彩色目标放到同一“画布(canvas)”里,让扩散 U-Net 的 self-attention天然承担“在上下文里找对应”的工作;
  2. 做一个双分支结构:一支更偏“抽取/传递颜色身份线索”,另一支做主干去噪生成。

关键结构:Colorization Guider(辅助分支)

  • 由扩散模型 U-Net 的卷积层“复制初始化”(replicate weights)得到;
  • 输入包含三部分拼接:
    1. 噪声 latent zt(扩散过程中的当前状态),
    2. 复合条件图(composite image)经 VAE 编码得到的 latent,
    3. 下采样后的 mask m(指示哪些区域是需要上色/生成的区域)。
  • 这个 Guider 输出的多尺度特征会逐层(progressively)注入主 U-Net,让条件信息从“文本级/全局级”变成像素级、稠密的条件嵌入。

loss:

作用是“更贴合上色任务的 Control 分支”:不是只给一个向量条件,而是让参考拼贴图里的颜色线索,以多尺度特征的形式持续影响去噪过程。

 LoRA 微调:为什么说“轻量”且不容易把底模能力改坏

  • 他们用 LoRA 对预训练扩散模型做微调,用较小的低秩更新来适配上色任务,从而“保留底模已有的生成/上色能力”。

训练目标:为什么“去噪”就能实现上色?

  • ICP 的训练目标基本就是标准扩散训练:从真彩色 latent z0z_0z0​ 正向加噪得到 ztz_tzt​,训练 U-Net 预测噪声(或等价参数化),最小化噪声预测误差。
  • 条件信息(复合参考 + mask + guider 特征)把“结构必须对齐黑白图”“颜色要跟参考一致”的约束注入到去噪轨迹里:
    • 结构约束来自黑白内容与 mask(哪些区域要生成、线稿/明暗在哪里);
    • 颜色身份约束来自检索到的参考拼贴,以及 in-context self-attention 的“对齐能力”。

推理技巧:Timestep shifted sampling(为什么强调高 timestep)

  • 论文认为“上色主要在更高噪声阶段就决定了”,所以把采样的 timestep 做偏移,让采样更偏向高 timestep(论文里给了系数,取 1.5)。

风格增强:Screenstyle augmentation(适配漫画网点/印刷风格)

  • 用 ScreenVAE 把彩色漫画转换成日式黑白网点风格输出,再与普通灰度图做随机线性插值,扩充“黑白风格分布”,提升泛化。

训练省显存:Patch-wise training strategy

  • 因为拼贴后的图分辨率高、成本大,所以训练时随机裁剪一块来训,但保证黑白区域始终被包含,mask 也同步裁剪;推理时用完整拼贴图获取最大上下文。

Guided Super-Resolution Pipeline

——解决“低分辨率上色 + 解码形变”的后处理硬伤。ICP 往往在较低分辨率 latent 上做生成,最后 VAE 解码到高分辨率时容易产生结构细节扭曲。GSRP 的思路是:用高分辨率黑白图把结构细节“拉回来”。

做法要点:

  1. 把 ICP 输出的低分辨率彩色结果先插值上采样到高分辨率;
  2. 将“高分黑白图”和“上采样彩色图”都送入 VAE encoder,拿到多尺度中间特征;
  3. 用 skip guidance:把两路 encoder 的中间特征拼接,经融合模块后送到 decoder 对应层,做细节复原。

experiment

构建了 ColorFlow-Bench(30 个章节,每章 50 张黑白 + 40 张参考图)。

Read more

图谱驱动大模型智能体普惠时代:Neo4j Aura Agent正式全面上线

图谱驱动大模型智能体普惠时代:Neo4j Aura Agent正式全面上线

摘要: Neo4j Aura Agent正式商用,基于知识图谱的智能体构建平台实现分钟级部署,重塑企业AI应用开发范式。 往期推荐 [290页电子书]打造企业级知识图谱的实战手册,Neo4j 首席科学家力作!从图数据库基础到图原生机器学习 [550页电子书]2025年10月最新出版-知识图谱与大语言模型融合的实战指南:KG&LLM in Action [30页电子书]GraphRAG开发者指南 [180页电子书]GraphRAG全面解析及实践-Neo4j:构建准确、可解释、具有上下文意识的生成式人工智能应用 [140页]Neo4j GraphRAG白皮书 引言 在AI智能体(Agentic AI)市场快速扩张的当下,Neo4j宣布其开创性的智能体创建平台——Neo4j Aura Agent正式进入全面可用阶段,并在2026年2月全月提供免费使用。这一平台为AuraDB客户带来了革命性的体验:只需几分钟即可构建和部署基于知识图谱的智能体,并配备强大的新功能——包括基于本体的自动化智能体构建,以及一键部署到安全托管的MCP服务器。 智能体AI不仅仅是制造巨大的市

【论文阅读】DSRL: Steering Your Diffusion Policy with Latent Space Reinforcement Learning

【论文阅读】Steering Your Diffusion Policy with Latent Space Reinforcement Learning * 1 团队与发表时间 * 2. 问题背景与核心思路 * 3. 具体做法 * 3.1 模型设计 * 3.2 Loss 设计 * 3.3 数据设计 * 4 实验效果 * 5 结论 * 6 扩散模型进行RL的方案 * 6.1 纯离线设置 (Purely Offline Setting) * 6.2 在线设置 (Online Setting) * 6.3 残差策略 (Residual Policy) 1 团队与发表时间

Pix4Dmapper处理大疆无人机影像数据教程

Pix4Dmapper处理大疆无人机影像数据教程

初次接触无人机数据处理时,我完全找不到清晰的流程指引,甚至对大疆采集的数据如何使用都毫无头绪。查阅了不少资料,发现信息也相当有限。为避免日后遗忘,特此记录下摸索出的操作流程,权当备忘。 1. 想要使用Pix4D软件的朋友请注意:这款软件需要付费购买。我查阅了网上资源,发现大多数人都没有提供免费版本。我已经购买了“正版”软件,有需要的朋友可以私信我,我会分享下载链接给你。 2. 结束,到这里 下面是软件处理影像过程 (1)、首先打开Pix4DTool,点击start或者Auto start以后,立马会将软件的网进行断开,这样就可以进行使用pix4d软件了。 (2)、此时打开软件的界面如下所示 (3)、拷贝数据到电脑然后打开软件新建项目输入项目名称并选好路径点击下一步 (4)、添加无人机照片路径或选择添加照片完成并点击下一步 (5)、因为精灵RTK照片自带POS信息这里就直接默认坐标系,相机参数是写入在照片里可以自动读取,如果不确定就用记事本打开照片找到XMP把相机信息参数输入点击下一步 (6)、输出坐标系选择自己需要的坐标系,和像控点一致的

FPGA Transformer加速完全指南:从模型优化到硬件实现(附实战案例)

🚀 FPGA Transformer加速完全指南:从模型优化到硬件实现(附实战案例) 📚 目录导航 文章目录 * 🚀 FPGA Transformer加速完全指南:从模型优化到硬件实现(附实战案例) * 📚 目录导航 * 概述 * 第一部分:Transformer基础与FPGA加速价值定位 * 1.1 Transformer架构概览 * 1.1.1 Transformer的基本结构 * 1.1.2 Transformer的关键特性 * 1.1.3 常见的Transformer变体 * 1.2 Transformer推理的挑战 * 1.2.1 计算复杂度分析 * 1.2.2 内存访问瓶颈 * 1.2.3 非线性操作的挑战 * 1.2.4 推理延迟分析 * 1.3