PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

优质文章学习记录

09 Apr 2026 — 2 min read

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

0. 前言
1. 基于扩散模型的文本生成图像
2. 将文本输入编码为嵌入向量
3. 条件 UNet 模型中的文本数据融合机制
4. 使用 Stable Diffusion 模型生成图像
相关链接

0. 前言

在本节中，我们将为扩散模型添加文本控制能力。学习如何通过文字描述来引导图像生成过程，实现从"纯噪声+文本"生成图像，而不仅是从纯噪声生成。

1. 基于扩散模型的文本生成图像

在扩散模型的 UNet 模型训练流程中，我们仅训练模型从含噪图像中预测噪声。为实现文生图功能，需使用以下架构，将文本作为额外输入注入 UNet 模型：

条件UNet

这样的 UNet 模型称为条件 UNet 模型，或者更精确地说，是文本条件 UNet 模型，因为该模型会根据输入文本来生成图像。为了训练此类模型，首先我们需要将输入文本编码成一个可以输入 UNet 模型的嵌入向量。然后，我们需要对 UNet 模型稍作修改，以适配嵌入文本形式的额外输入数据(除了图像之外)。接下来，首先介绍文本编码。

2. 将文本输入编码

Read more

《星辰 RPA 全自动：做一个小红书自动发文机器人》

《星辰 RPA 全自动：做一个小红书自动发文机器人》

前引：在企业数智化转型的浪潮中，如何突破 “有 AI 无落地、有流程无智能” 的困局？星辰 Agent 与星辰 RPA 的出现，正是为了解决这一痛点。作为科大讯飞旗下的双核心产品，星辰 Agent 以企业级 Agentic Workflow 开发平台为底座，提供 AI 工作流编排、模型管理与跨系统连接能力；而星辰 RPA 则以超过 300 个自动化原子能力，让业务流程真正 “动” 起来！目录一、企业机器人自动化平台：RPA （1）RPA介绍（2）服务端安装（1）clone项目（2）配置为本地访问（3）检查镜像源（4）配置default.conf

80元低成本无人机系统设计与实现

1. 低成本无人机的工程本质：从80元目标倒推系统架构在嵌入式系统开发中，成本约束从来不是妥协性能的理由，而是重构设计哲学的契机。当项目明确要求整机BOM成本控制在80元人民币以内时，传统飞控方案——包含独立MCU、专用ESC、机械框架、2.4GHz射频模块——立即被排除。这个数字倒逼我们重新定义“飞行控制器”的边界：它不再是一个被动执行姿态解算指令的黑盒，而必须是集感知、决策、驱动、通信、供电管理于一体的系统级芯片（SoC）载体。 ESP32系列芯片在此类极限成本场景中展现出不可替代性。其双核Xtensa LX6处理器提供足够的浮点运算能力处理PID闭环控制，内置Wi-Fi基带省去外部射频模块（节省约15元），丰富的GPIO和PWM通道直接驱动MOSFET栅极（省去专用电机驱动IC如DRV8301的20元成本），而片上ADC和I²C主控能力足以接入MPU-6050等基础IMU传感器。更关键的是，其Flash容量（4MB）足以容纳FreeRTOS实时内核、Wi-Fi协议栈、PID控制算法及简易Web服务，使整个飞控固件可单芯片部署，彻底消除多芯片协同带来的布线复杂度与信号完整性风

AI安全：视觉提示词注入攻击代码/实战教学｜针对Hugging Face开源大模型Stable Diffusion Model

AI安全：视觉提示词注入攻击代码/实战教学｜针对Hugging Face开源大模型Stable Diffusion Model

本文链接地址：https://blog.ZEEKLOG.net/weixin_47681965/article/details/158503719?spm=1001.2014.3001.5502, 转载请注明出处。提到提示词注入（Prompt Injection），大家的第一反应往往是精心构造的文本越狱指令。而在图生图任务中，输入图像在本质上扮演了视觉提示词的角色，与文本指令共同指导生成模型。基于这一视角，本文展示针对视觉提示词的注入攻击：通过PGD对抗攻击算法对输入图像进行像素级微调，使其生成的违规图像能够绕过开源大模型的NSFW安全检测机制。临近毕业，感觉市场对提示词注入比较感兴趣，因本人读博期间一直研究对抗攻击算法，所以决定尝试用对抗攻击的思路完成提示词注入攻击，误导开源模型生成违规图像。完整代码链接：https://github.com/YujiangLi0v0/Injection_Attack_Inpainting.git 目录 * 一、 NSFW防线：开源模型的安全过滤机制 * 二、攻击场景定义 (Threat Model) * 三、

从社死边缘拯救我：用 AR 眼镜打造“亲戚称呼助手“

从社死边缘拯救我：用 AR 眼镜打造“亲戚称呼助手“

从社死边缘拯救我：用 AR 眼镜打造"亲戚称呼助手本文应用基于Rokid灵珠智能体/CXR SDK开发，开发指南https://forum.rokid.com/index 一个真实的新年灾难大年初二，我跟着新婚妻子回娘家。刚进门，七大姑八大姨就围了上来。一位头发花白的阿姨笑盈盈地递过来一个红包，我脑子里嗡的一声——这到底是妻子的哪位亲戚？大姨？小姨？还是什么远房表姑？ “小张啊，还认识我不？” 我支支吾吾半天，最后还是妻子打了圆场：“这是大姨，小时候还抱过你呢！” 那一刻，我看到了大姨眼里的失望。这种社死现场，相信很多人都经历过：春节期间，走亲访友是必修课，但那些一年见一次的亲戚，名字和称呼根本记不住。尤其是刚结婚的新人、不常回家的打工人，简直是"称呼灾难"高发人群。回家后，我下定决心：明年春节，我绝不能再叫错人。