AI绘画技术演进：从DALL·E系列到Stable Diffusion家族的全面解析（附ControlNet实战指南）

优质文章学习记录

10 Apr 2026 — 5 min read

1. AI绘画的“寒武纪大爆发”：从DALL·E到Stable Diffusion的演进之路

如果你在2022年之前告诉我，普通人敲几个字就能生成一张媲美专业画师的作品，我肯定会觉得你在讲科幻故事。但就在那一年，AI绘画领域仿佛经历了一场“寒武纪大爆发”，DALL·E 2和Stable Diffusion的横空出世，彻底改变了游戏规则。我记得当时我的社交媒体时间线被各种奇思妙想的AI画作刷屏，从“宇航员在月球上骑摩托车”到“蒸汽朋克风格的猫咪咖啡馆”，只有你想不到，没有AI画不出来。这股热潮背后，其实是两条清晰的技术发展脉络在交织前行：一条是以OpenAI为代表的DALL·E系列，走的是“大力出奇迹”的闭源精品路线；另一条则是以Stability AI为首的Stable Diffusion家族，高举开源大旗，催生了百花齐放的生态。我自己也是从那时起一头扎了进去，从最初看着参数一脸懵，到后来能熟练地调教模型生成想要的图，中间踩过的坑、熬过的夜，现在回想起来都是宝贵的经验。这篇文章，我就想以一个过来人的身份，帮你捋清这两大流派的技术演进逻辑，让你不仅知道它们“是什么”，更明白它们“为什么强”，以及我们“该怎么用”。

2. DALL·E系列：OpenAI的“精雕细琢”之路

OpenAI的DALL·E系列可以看作是AI绘画领域的“贵族”，它走的是一条追求极致效果、但相对封闭的研发路径。它的每一次迭代，都精准地戳中了当时文生图模型的痛点。

2.1 DALL·E：开创性的“文本到图像”尝试

最初的DALL·E在2021年初亮相时，就已经足够震撼。它本质上是一个两阶段的模型，这个设计思路非常巧妙。第一阶段，它用一个叫做VQ-VAE的模型，把一张256x256的图片压缩成一个32x32的“密码本”（codebook）。你可以把这个过程想象成把一幅高清油画，用马赛克的方式抽象成一小片一小片的色块索引。第二阶段，它把描述图片的文字（经过编码）和这些图片“色块索引”拼接在一起，喂给一个类似GPT的自回归模型去学习。推理的时候，你输入一段文字，模型就能像续写故事一样，一个接一个地“预测”出这些色块，最终还原成图像。

我实测过早期的DALL·E，它的想象力天马行空，能把完全不相干的概念组合起来，比如“一个用意大利面条做成的刺猬”。但问题也很明显：分辨率不高，细节经不起推敲，而且对复杂文本的理解经常跑偏。这就像是有一个充满创意的孩子，但手上的画笔还不够精细。不过，它最重要的贡献是证明了“用大规模文本-图像对训练模型”这条路是通的，为后续发展铺平了道路。

2.2 DALL·E 2：引入CLIP，打通文本与图像的语义桥梁

到了DALL·E 2，OpenAI做了一次漂亮的“技术整合”。它核心用到了两个已经验证成功的模块：CLIP和GLIDE（一个基于扩散模型的生成器）。CLIP这个模型特别有意思，它就像是一个跨模态的“裁判”，通过海量图文对训练，学会了判断一段文字和一张图片在语义上是否匹配。DALL·E 2的训练也分两步走：第一步，训练一个“先验模型”（Prior），它的任务是根据CLIP编码出的文本特征，去预测出对应的、CLIP编码出的图像特征。第二步，再用一个扩散模型（GLIDE）作为“解码器”，把预测出的图像特征还原成真实的像素图片。

这么说可能有点抽象，我打个比方。CLIP就像是一位精通多国语言和艺术鉴赏的专家，它能看懂你的文字描述（文本特征），也能品评一幅画作的意境（图像特征）。DALL·E 2的训练，就是先教一个学生（Prior）根据专家的文字点评，去模仿专家会如何点评一幅画（预测图像特征）。然后，再请一位技艺高超的画师（GLIDE解码器），根据这个“模仿出来的点评”，把画作本身给画出来。这样做的好处是，生成图片的语义和文本的绑定非常紧密，画面质量也因扩散模型的引入而大幅提升。DALL·E 2生成的图片在艺术感和合理性上达到了新的高度，但它在处理复杂空间关系、生成精确文字等方面仍有不足。

2.3 DALL·E 3：用“更好的描述”解决根本问题

语音转写文本润色：Llama-Factory助力ASR结果后处理

Llama-Factory助力ASR文本后处理：让语音转写真正“可用” 在智能会议系统、庭审记录数字化、远程医疗问诊等场景中，自动语音识别（ASR）早已不再是“能不能听清”的问题，而是“转出来的文字能不能直接用”的挑战。即便现代ASR引擎的词错率已低于10%，其原始输出仍常表现为无标点、断句混乱、同音错别字频出的“口语流”，例如： “那个我们明天三点开会然后讨论项目进度请各部门负责人参加” 这样的文本显然无法直接归档或生成纪要。用户需要额外投入大量人力进行校对和润色——这不仅抵消了自动化带来的效率优势，还可能引入新的错误。于是，一个关键环节浮出水面：ASR后处理。而近年来，大语言模型（LLM）正成为这一环节的核心驱动力。不过，通用大模型如通义千问、ChatGLM虽然语法能力强，却往往对领域术语不敏感，容易“过度发挥”。真正的解法，是基于真实转写数据微调一个专用的文本修正模型。这时，Llama-Factory 出现了。它不是一个简单的训练脚本集合，而是一套完整的大模型定制流水线，把从数据准备到模型部署的复杂工程封装成可操作的工具链。更重要的是，它让没有深度学习背景的工程师也

超全实测！llama.cpp性能基准库：从参数调优到多场景测试全攻略

超全实测！llama.cpp性能基准库：从参数调优到多场景测试全攻略【免费下载链接】llama.cppPort of Facebook's LLaMA model in C/C++ 项目地址: https://gitcode.com/GitHub_Trending/ll/llama.cpp 你是否还在为本地部署大语言模型（LLM）时的性能瓶颈发愁？同样的硬件配置，为何有人能跑100 tokens/秒，而你却卡在20 tokens/秒？本文将带你深度掌握llama.cpp官方性能测试工具——llama-bench，通过标准化测试流程和参数调优技巧，让你的模型性能提升300%！读完本文你将获得： * 3分钟上手的性能测试命令模板 * 4组关键参数（线程数/GPU层/批处理大小）调优指南 * 5种输出格式（CSV/JSON/

VSCode中GitHub Copilot的大模型体系、订阅策略与 Agent 模式模型管理机制

一、引言随着大语言模型（Large Language Models, LLMs）在软件工程领域的广泛应用，智能编程助手逐渐成为现代开发工具链的重要组成部分。其中，由 GitHub 推出的 GitHub Copilot 已成为最具影响力的 AI 编程辅助工具之一，并深度集成于 Visual Studio Code 等主流开发环境。早期版本的 Copilot 主要依赖单一模型进行代码补全，而近年来其架构已经演进为多模型（multi-model）驱动的智能编程平台。该平台不仅支持来自多个 AI 厂商的大模型，还通过 Agent 模式、模型路由与按需调用机制提升复杂软件开发任务的自动化程度。本文将系统介绍以下四个方面： 1. VS Code 中 GitHub Copilot 的大模型支持体系 2. Copilot 的订阅策略与计费机制

GitHub Copilot 使用笔记

GitHub Copilot 是 VSCode 自带的 AI Agent 插件，需要登录 GitHub 账号使用，分为免费版和付费版。关于个人额度，可以在 Github 的 Copilot 菜单里查看支持模型添加第三方模型通过 Manage Models 选中对应厂商。可以通过 OpenRouter 来导入免费的模型，需要先到 OpenRouter 注册 API Key，输入后即可使用，也可以使用兼容 OpenAI 接口的三方 API，比如硅基流动 SiliconFlow 使用帮助信息切换到 Ask 模式，输入 /help 即可获取帮助命令，可以查看当前有什么可用命令和使用方法。翻译后的内容，方便查看，