PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

0. 前言

在本节中,我们将为扩散模型添加文本控制能力。学习如何通过文字描述来引导图像生成过程,实现从"纯噪声+文本"生成图像,而不仅是从纯噪声生成。

1. 基于扩散模型的文本生成图像

扩散模型的 UNet 模型训练流程中,我们仅训练模型从含噪图像中预测噪声。为实现文生图功能,需使用以下架构,将文本作为额外输入注入 UNet 模型:

条件UNet

这样的 UNet 模型称为条件 UNet 模型 ,或者更精确地说,是文本条件 UNet 模型,因为该模型会根据输入文本来生成图像。为了训练此类模型,首先我们需要将输入文本编码成一个可以输入 UNet 模型的嵌入向量。然后,我们需要对 UNet 模型稍作修改,以适配嵌入文本形式的额外输入数据(除了图像之外)。接下来,首先介绍文本编码。

2. 将文本输入编码

Read more

关于HBM(高带宽内存)的3D堆叠架构、先进封装技术以及在现代GPU、AI加速器上应用介绍

关于HBM(高带宽内存)的3D堆叠架构、先进封装技术以及在现代GPU、AI加速器上应用介绍

本文是介绍HBM的第二篇文章,对第一篇感兴趣的可以看这篇文章。高带宽内存(HBM)的概念、架构与应用 本文是一篇技术文章,详细解释了什么是HBM(高带宽内存),深入介绍了其3D堆叠架构、先进封装技术的关键作用,以及其在现代GPU、AI加速器和嵌入式系统中的应用。 引言 “内存墙”问题的出现,是因为处理器性能的增长速度远超内存带宽的提升。人工智能(AI)和高性能计算(HPC)工作负载需要处理海量张量数据,而传统的DDR或GDDR内存由于总线位宽较窄且依赖高时钟频率,已难以满足需求。高带宽内存(HBM)通过大幅拓宽数据通道——例如HBM3的位宽高达1024位,并将多个DRAM芯片垂直堆叠,有效缓解了这一瓶颈。 那么,究竟什么是HBM?从架构角度看,HBM技术通过硅通孔(TSV)将多层DRAM芯片垂直堆叠并互连,在不依赖极高时钟频率的情况下实现巨大的数据并行性。与独立的内存模块不同,HBM被放置在处理器旁侧的硅中介层(silicon interposer)上,从而显著降低延迟并提升能效。对于在系统设计中探究“什么是HBM”的工程师而言,其提供每秒数TB级别带宽的能力,使其成为A

Flutter 组件 pathfinding 的鸿蒙化适配实战 - 驾驭极致拓扑寻踪大坝、实现 OpenHarmony 分布式端高性能 AI 寻路、迷宫拓扑与工业级路径导航核方案

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 pathfinding 的鸿蒙化适配实战 - 驾驭极致拓扑寻踪大坝、实现 OpenHarmony 分布式端高性能 AI 寻路、迷宫拓扑与工业级路径导航核方案 前言 在鸿蒙(OpenHarmony)生态的分布式工业巡检、高性能游戏开发或者是对空间计算有极其严苛要求的 0308 批次智能仓储应用中。“复杂环境下的路径最优解计算与实时障碍避让维度”是衡量整个系统智慧化程度的最终质量门禁。面对包含数万个节点的网格地图、海量动态变化的货架坐标、甚至是由于跨设备同步产生的 0308 批次拓扑逻辑海洋。如果仅仅依靠简单的“直线欧式距离”或者是干瘪的广度优先搜索(BFS)。不仅会导致在处理大型复杂地图时让系统如同在逻辑废墟中盲人摸象。更会因为计算耗时指数级爆炸,让移动端在进行路径导航时瞬间陷入死机盲区。 我们需要一种“逻辑先行、代价建模”的空间演算艺术。 pathfinding 是一套专注于无缝整合全球公认顶级算法 A*、Dijkstra 以及二叉堆

Trae IDE 安装与使用保姆级教程:字节跳动的 AI 编程神器

一、Trae 是什么? Trae(发音 /treɪ/)是字节跳动推出的 AI 原生集成开发环境(AI IDE),于 2025 年 1 月正式发布。与传统的 IDE + AI 插件组合不同,Trae 从底层架构上就将 AI 能力深度集成,实现了真正意义上的"AI 主导开发"。 核心定位 Trae 以 “自主智能体(Agent)” 为核心定位,彻底重构了传统开发流程: * Chat 模式:智能代码补全、问答、解释和优化 * Builder 模式:自然语言一键生成完整项目框架 * SOLO 模式:AI 自主规划并执行开发任务 版本划分 版本定位核心特色适用人群Trae

ToDesk 全新 ToClaw,正在把电脑交给AI去操作

ToDesk 全新 ToClaw,正在把电脑交给AI去操作

这两年,AI 工具层出不穷,但大多数产品还停留在“能回答、会生成”的阶段:帮你写一段话、搜一份资料、整理一个思路,真正到了执行层,还是得你自己坐回电脑前,一个软件一个软件地点、一项任务一项任务地做。 这也是很多人对 AI 的真实感受——它会说,但不一定真能干活。而 ToDesk 新上线的 ToClaw,想解决的正是这个问题。 一、ToClaw 是什么? ToClaw 是一款基于 OpenClaw 深度定制、并与远程控制运行时深度结合的 AI 助手。它最大的不同,不只是“懂你说什么”,而是能直接在你的电脑上执行操作。 你只需要一句话,它就可以在电脑端完成对应动作:打开软件、点击按钮、填写表单、拖拽文件、整理资料、生成表格、汇总信息……很多原本需要人守在电脑前操作的工作,现在都可以交给 ToClaw