PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

0. 前言

在本节中,我们将为扩散模型添加文本控制能力。学习如何通过文字描述来引导图像生成过程,实现从"纯噪声+文本"生成图像,而不仅是从纯噪声生成。

1. 基于扩散模型的文本生成图像

扩散模型的 UNet 模型训练流程中,我们仅训练模型从含噪图像中预测噪声。为实现文生图功能,需使用以下架构,将文本作为额外输入注入 UNet 模型:

条件UNet

这样的 UNet 模型称为条件 UNet 模型 ,或者更精确地说,是文本条件 UNet 模型,因为该模型会根据输入文本来生成图像。为了训练此类模型,首先我们需要将输入文本编码成一个可以输入 UNet 模型的嵌入向量。然后,我们需要对 UNet 模型稍作修改,以适配嵌入文本形式的额外输入数据(除了图像之外)。接下来,首先介绍文本编码。

2. 将文本输入编码

Read more

10分钟,教你用OpenClaw+Chrome插件生成一份AI每日简报

大家好,我是岳哥。 最近在自己电脑上安装了OpenClaw(原名Clawdbot),越用越上瘾,中午吃饭的时候都还在用手机飞书给它下命令。 花了点时间让它帮我做了一个AI每日简报,可以看下效果。 这个是基于X和Brave Search搜索全网信息源生成的,我个人认为效果还是挺不错的,直接在飞书上就可以看到了。 下面给大家分享一下要如何实现这个功能。 安装OpenClaw和飞书插件 这个前面有详细介绍,包括飞书插件安装失败的解决办法,都有给大家分享,跟着教程操作都可以安装成功的。 具体链接如下: Clawdbot/Moltbot安装教程,接入飞书本地搭建你的AI助理平台 教你如何解决OpenClaw安装飞书插件失败的问题 安装Chrome插件 这个是OpenClaw开发的一个Chrome插件,可以根据你的要求使用Chrome打开你要搜索的信息关键词的相关网页。 这个插件分为三个部分: * 浏览器控制服务(网关或节点):代理/工具调用的API(通过网关) * 本地中继服务器(环回CDP):控制服务器与扩展之间的桥接(默认设置)http://127.0.0.

OpenClaw(小龙虾AI):零基础上手可执行AI智能体助手

# OpenClaw(大龙虾)是什么、能做什么 & 2026保姆级部署教程 OpenClaw(原Clawdbot/Moltbot)是**本地优先、开源、强执行能力**的AI智能体,能在你常用IM里用自然语言指挥它**直接操作电脑、执行命令、处理文件、自动化任务**,数据本地存储、隐私可控。 --- ## 一、OpenClaw 是什么? ### 1. 核心定位 - **本地优先的AI代理**:数据/会话/凭证默认存在本地`~/.openclaw`,不依赖云端,隐私自主。 - **有“手”的AI**:区别于纯聊天AI,它能**执行真实操作**(文件、终端、浏览器、定时任务)。 - **多渠道统一入口**:接入Telegram、Discord、

做了一个 AI 鸿蒙 App,我发现逻辑变了

做了一个 AI 鸿蒙 App,我发现逻辑变了

子玥酱(掘金 / 知乎 / ZEEKLOG / 简书 同名) 大家好,我是子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。 我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案, 在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。 技术方向:前端 / 跨端 / 小程序 / 移动端工程化 内容平台:掘金、知乎、ZEEKLOG、简书 创作特点:实战导向、源码拆解、少空谈多落地 文章状态:长期稳定更新,大量原创输出 我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在“API 怎么用”,而是更关注为什么这么设计、在什么场景下容易踩坑、

一文搞懂MCP、Agent、Skills:AI时代三大核心概念深度对比,搞懂了少走3年弯路

一文搞懂MCP、Agent、Skills:AI时代三大核心概念深度对比,搞懂了少走3年弯路

先搞懂MCP:一个容易混淆的术语 MCP有两个不同的含义 很多人看到"MCP"就懵了,因为这个缩写在AI领域有两个完全不同的含义: 含义1:Model Context Protocol(Anthropic提出的开放协议) 官方定义: MCP是Anthropic在2024年11月发布的开放协议,让AI应用能够标准化地连接数据源和工具。 大白话解释: 就像USB接口统一了设备连接标准一样,MCP统一了AI应用与工具之间的连接方式。 之前的问题: * ChatGPT要接入Google搜索,需要专门写代码 * Claude要接入同样的搜索,又要重新写一遍 * 每个AI应用都要为每个工具写专门的对接代码 有了MCP: * 工具开发者按MCP标准开发一次 * 所有支持MCP的AI应用都可以直接使用 * 就像插USB设备一样简单 这才是当前AI社区讨论最多的"MCP"! ✅ 含义2:Control Plane(AI系统的控制层) 有些文章会把AI系统的控制层也叫"MCP"(Model Control Plane),但这不是标准术语。 更准确的叫法是: * O