Stable Diffusion的3个替代方案

优质文章学习记录

07 Apr 2026 — 4 min read

Stable Diffusion 虽然不再像2022-2023年那样热门，但仍然是最重要的开源权重图像模型之一。它允许用户使用自己的自定义数据集对模型进行微调，从而获得对相似度、艺术风格或特定角色细节的精确控制。但这需要一定的模型训练知识，设置和微调过程并不简单，训练时间也取决于训练数据的大小。

1、PixAI

PixAI 是一个专门针对动漫风格和高度风格化数字艺术作品进行优化的AI图像生成平台。平台提供数百个社区微调模型和一套强大的工具，帮助你轻松将创意想法转化为现实。

平台专为动漫主题视觉而设计，既作为创作工具，也作为社交网络，允许你从头创作新作品或"混音"其他社区成员生成的图像。

最有趣的是能够轻松训练自己的 LoRA (Low-Rank Adaptation)。过去这是一项复杂的任务，现在只需上传训练图像，分配触发名称，等待平台烘焙自定义图像模型即可。

使用现有的风格化模型，只需简单的提示词就能实现精美的动漫风格图像，无需明确告诉AI需要特定的风格、色调、着色等。

2、ChatGPT

ChatGPT 是目前最受欢迎的通用聊天应用，其图像生成功能由 GPT-Image-1.5 模型驱动，不容小觑。

ChatGPT 的优势在于其在各种风格中生成图像的多功能性。如果想创建高度风格化的动漫主题图像，只需向AI描述即可。

但这也是个问题——与 PixAI 不同（风格已烘焙到模型中），使用 ChatGPT 时需要不断且详尽地描述想要的风格。

然而，ChatGPT 的一个优点是能够在生成图像之前执行研究和图像分析。例如，如果需要与故事场景相匹配的特定武术姿势，可以先要求AI研究正确的术语，确保在消耗积分生成图像之前，提示词是准确的。

3、Gemini

与 ChatGPT 类似，Gemini 是一个通用聊天机器人，但存在于 Google 生态系统中。在图像生成方面，由于其由强大的 Nano Banana Pro 图像模型驱动，仍然经常推荐它而不是原始的 Stable Diffusion 设置。

权衡方案是相似的：Gemini 不提供像滑块或 LoRA 权重这样的细粒度图像生成控制——必须以文本方式向AI描述所有参数。

但是，如果想在 Google 工作环境（如 Docs 或 Sheets）内创建风格化照片而不离开 Google，Gemini 是完美的实用工具。

真正喜欢 Gemini 的地方在于其多模态性质。与 PixAI 类似，它能够使用 Veo 3.1 将输入图像转换为视频。这意味着你可以立即观看任何静态照片转变为动画角色，无需离开应用程序。

4、选择建议

选择最佳风格化图像生成工具实际上取决于你想做什么。虽然 Stable Diffusion 对于需要深度定制的人来说仍然是强大的标准，但并非每个人都需要——或想要——管理自己的本地模型。

如果你想要认真的图像创作 → PixAI
如果你想要快速创意或休闲图像 → ChatGPT
如果你想要Google 工具内的基础AI图像 → Gemini

5、结束语

目前，针对特定风格进行优化的图像模型非常流行。真正的价值在于获得一致的图像风格，而无需向AI描述每个细节。

像 Gemini 或 ChatGPT 这样的通用聊天机器人仍然需要手动指定图像风格。因此，如果你希望生成动漫主题图像，强烈推荐使用 PixAI 这样的工具。

原文链接：Stable Diffusion的3个替代方案 - 汇智网

FMC、FMC+ 详解

文章目录 * FMC 简介 * FMC 引脚输出定义 * High-pin count (HPC) connector, HPC pinout * Low-pin count (LPC) connector, LPC pinout * Pin and signal description * FMC+ 简介 * VITA57 标准更新历史 * VITA57.4 标准推出的原因 * FMC+ 引脚输出定义 * Altera 开发板的 FMC 引脚定义 * 英特尔® Arria® 10 GX FPGA 开发套件 * Xilinx 开发板的 FMC 引脚定义 * AMD Kintex 7 FPGA KC705 评估套件

【论文阅读】Gaussian Grouping: Segment and Edit Anything in 3D Scenes

摘要高斯投影（Gaussian Splatting）实现了高质量、实时的三维场景新视点合成。不过，它仅专注于外观和几何建模，缺乏对细粒度的物体级场景理解。为了解决这一问题，我们提出了 Gaussian Grouping，将高斯点扩展为联合重建和分割开放世界三维场景中的任意内容。我们为每个高斯添加了一个紧凑的身份编码（Identity Encoding），使得这些高斯点能够根据其在三维场景中的物体实例或“物体/背景”的成员关系进行分组。并不依赖昂贵的三维标签，我们在可微渲染过程中通过利用 Segment Anything Model (SAM) 的二维掩码预测，以及引入的三维空间一致性正则化，对身份编码进行监督。与隐式的 NeRF 表示相比，我们表明离散且分组的三维高斯点能够在三维中以高视觉质量、细粒度和高效性来重建、分割和编辑任意内容。引言本文旨在构建一个 expressive 的三维场景表示，不仅对外观和几何进行建模，还捕捉场景中每个实例和物体的身份信息。我们的方法以最近的三维高斯投影（Gaussian Splatting）为基础，将其从纯粹的三维重建扩展到细粒度的场景

【ROS 2】运行 ROS 2 机器人 ( ROS 2 机器人示例 - 海龟仿真器 | ROS 节点分析工具 - rqt | ros2 run 命令解析 | ros2 run 基础格式和完整格式 )

文章目录 * 一、ROS 2 机器人示例 - 海龟仿真器 * 1、启动海龟仿真器节点 * 2、启动控制节点 * 3、ROS 节点分析工具 - rqt * 二、ros2 run 命令解析 * 1、设计理念 * 2、ros2 run 基础格式 * 3、ros2 run 完整格式 * 4、启动海龟仿真器命令分析在上一篇博客【ROS 2】ROS 2 Humble 完整环境配置 ( VirtualBox 7.2.4 + Ubuntu 22.04.5 LTS + ROS 2

政安晨【零基础玩转开源AI项目】OpenClaw飞书通信端机器人配置指南（手把手配置OpenClaw飞书/Lark机器人，实现多渠道AI助手集成）（作者自己配置时留存使用，小伙伴们可酌情参考）

政安晨的个人主页：政安晨欢迎 👍点赞✍评论⭐收藏希望政安晨的博客能够对您有所裨益，如有不足之处，欢迎在评论区提出指正！目录一、前言 1.1 为什么需要配置飞书机器人？ 1.2 飞书机器人支持的功能二、准备工作 2.1 环境要求 2.2 OpenClaw安装（本篇主要介绍飞书端的配置，这里可参考我上一篇博客） 2.3 飞书账号要求三、飞书应用创建 3.1 创建企业应用 3.2 获取应用凭证编辑3.3 开通权限 3.4 配置事件订阅 Webhook URL配置订阅事件 3.5