AIGC十年演进（2015–2025）

优质文章学习记录

07 Apr 2026 — 4 min read

AIGC十年演进（2015–2025）

一句话总论：
2015年AIGC（AI Generated Content）还只是“GAN模糊人脸+低分辨率静态图像”的学术萌芽，2025年已进化成“万亿级多模态VLA大模型+物理一致性+长时序视频/3D/互动+意图级实时生成+量子加速自进化”的普惠创作神器，中国从跟随Stable Diffusion/Sora跃升全球领跑者（Kling、Vidu、生数科技、DeepSeek、阿里通义、百度文心等主导），生成时长从秒级低清升至10分钟+电影级8K全一致，可控性从随机噪声到精确意图/物理/多镜头，推动人类从“AI工具辅助创作”到“人人都是电影导演/游戏设计师”的文明跃迁。

十年演进时间线总结

年份	核心范式跃迁	代表模型/技术	生成质量/时长	可控性/应用	中国贡献/里程碑
2015	GAN静态图像初探	DCGAN / CycleGAN	64–256像素模糊 / 静态	无控制	全球学术，中国几乎无
2017	高分辨率GAN+条件生成	Progressive GAN / StyleGAN	512–1024像素 / 静态	风格/属性初步控制	中国跟进StyleGAN，产业化零
2019	扩散模型+文本到图像	DDPM + Guided Diffusion	512–1024清晰 / 静态	文本条件	Stable Diffusion前身，中国初代扩散研究
2021	Latent Diffusion+大规模预训练	Stable Diffusion / DALL·E 2	1024x1024高清 / 静态	文本+图像意图	百度文心 + 阿里NÜWA，中国文本到图像量产
2023	文本到视频+大模型元年	Make-A-Video / Sora / Gen-2	1080p 几秒–2分钟 / 中等一致	文本+物理初步	快手Kling + 字节Vidu + 生数Runway中国版首发
2025	VLA意图级+物理一致终极形态	Sora 2 / Kling 2 / Vidu 3	4K–8K 5–10分钟+ / 电影级一致	意图/物理/多镜头/互动精确	Kling 2 / Vidu 3 / DeepSeek-Video领跑全球

1. 2015–2018：GAN静态图像萌芽时代

核心特征：GAN主导，低分辨率（64–1024像素）模糊图像生成，时长静态，无真实物理/可控性。
关键进展：
- 2015年：DCGAN奠基GAN图像生成。
- 2016–2017年：CycleGAN无监督风格迁移。
- 2018年：Progressive GAN+StyleGAN高分辨率人脸。
挑战与转折：一致性差、训练不稳；扩散模型兴起。
代表案例：StyleGAN人脸生成，中国跟进但无产业。

2. 2019–2022：扩散模型+文本到图像转型时代

核心特征：扩散模型取代GAN，Latent Diffusion降低计算，高清1024x1024图像，文本控制成熟。
关键进展：
- 2019年：DDPM框架成熟。
- 2020–2021年：Latent Diffusion+DALL·E 2 CLIP引导。
- 2022年：Stable Diffusion开源，中国文心/通义初代文本到图像。
挑战与转折：仅静态图像；视频+物理一致性需求爆发。
代表案例：Stable Diffusion 1.5，中国开源SD生态爆发。

3. 2023–2025：文本到视频+意图级普惠时代

核心特征：万亿级多模态扩散大模型+物理一致性+长时序视频+意图级多镜头控制，4K–8K电影级，时长5–10分钟+。
关键进展：
- 2023年：OpenAI Sora震撼全球，快手Kling/字节Vidu/生数科技同步首发。
- 2024年：Kling 1.5/Vidu 2.0物理一致性+长时序领跑。
- 2025年：Kling 2/Vidu 3/DeepSeek-Video，意图级多角色/镜头+自进化，普惠手机端实时生成。
挑战与转折：伦理/版权；大模型+量子加速标配。
代表案例：Kling 2（10分钟电影级一致性+物理真实），Vidu 3（意图级多角色社交视频）。

一句话总结

从2015年GAN模糊静态图像的“学术玩具”到2025年VLA电影级10分钟意图级视频的“全民创作神器”，十年间AIGC由低清闪烁转向物理一致意图控制，中国Kling/Vidu/生数等主导全球创新+普惠下沉，推动人类从“AI工具辅助创作”到“人人都是电影导演/游戏设计师”的文明跃迁，预计2030年实时互动无限长电影级生成+全域永不失真自愈。

数据来源于arXiv综述、CVPR/ICCV 2025及中国厂商技术白皮书。

AI Agent 框架选型指南：OpenClaw、LangChain、AutoGPT、CrewAI 深度对比

目录 * 摘要 * 1. 引言 * 2. OpenClaw 介绍 * 2.1 什么是 OpenClaw * 2.2 核心特性 * 2.3 技术架构 * 2.4 应用场景 * 3. LangChain 详解 * 3.1 什么是 LangChain * 3.2 核心特性 * 3.3 技术架构 * 3.4 应用场景 * 4. AutoGPT 解析 * 4.1 什么是 AutoGPT * 4.2 核心特性 * 4.3 应用场景

【LLM】大模型vibe coding（cursor、copilot、comate）

note 2025年，Karpathy分享了自己的Vibe Coding指南1.0： * 把所有相关内容塞进上下文里（在大型项目中可能需要很久。如果项目够小，就直接把所有文件都塞进去。 * 描述我们接下来要实现的那个具体的、增量式的小改动。不要直接要代码，而是要几种高层次的思路，并分析它们的优缺点。几乎总是会有多种做法，而大语言模型的判断并不总是可靠。然后（可选）再具体化。 * 选择一种思路，请它写出第一版代码。 * 进入复查/学习阶段：手动在浏览器里打开我不熟悉或没调用过的API文档，向模型提问解释、澄清、修改，必要时回退并尝试另一种思路。 * 测试。 * Git commit。 * 询问可以接下来实现什么。然后重复这个循环。文章目录 * note * 一、相关vibe coding工具 * 1、cursor * 2、copilot * 3、comate * 二、vibe coding综述 * 1、code agent

Cloud Code开发者揭秘：AI Agent设计的核心密码——渐进式披露

如果你用过Cloud Code（或者Cline、Cursor等AI编程助手），你一定好奇过：这些工具背后的团队是怎么设计它们的？为什么它们有时候聪明得惊人，有时候又笨得让人着急？最近，Cloud Code的核心开发者Tariq连发两篇技术博客，把他们在打造Cloud Code过程中踩过的坑、走过的弯路全都抖了出来。我读完直呼过瘾——这哪是技术文档，简直是AI Agent设计的“避坑指南”。今天咱们用文字深度复盘。尤其是那个贯穿全文的原则——渐进式披露（Progressive Disclosure），如果你正在搭建自己的智能体（Agent），或者只是想更好地使用Cloud Code，这篇文章的价值会放大十倍。一、什么是渐进式披露？ Tariq开篇打了个比方：想象你面前有一道很难的数学题，你会用什么工具去解决它？纸和笔最基础，但算力有限；计算器好一点，但需要你懂操作；电脑最强，但你得会写代码。这个比喻想表达什么？工具必须匹配使用者的能力。如果使用者（这里就是AI模型）的能力还没到那个层次，你给它再强的工具也是白搭；反过来，如果模型的能力已经足够强，那些过于简单的工具

大香蕉 (Banana Pro) 企业级落地白皮书：如何用 0.18 元打破 AIGC 的“商业不可能三角”？

摘要 2026 年，AIGC 从“玩具”走向“工具”。企业主面临着一个新的“不可能三角”：高质量（Quality）、低成本（Cost）、高速度（Speed）。本文将拆解大香蕉 (Banana Pro) 模型如何凭借谷歌 Gemini 3 的底层能力与 xingjiabiapi.org 的架构优化，在电商、内容矩阵、品牌设计三大场景中实现商业闭环。一、核心痛点：企业为什么不敢大规模用 AI？在与数百家企业 CTO 和运营总监交流后，我们发现 AI 生图在企业级落地中存在三大拦路虎： 1. 成本不可控：Midjourney 等主流工具按月订阅或高昂的单次计费，导致大规模（日产万张）生成时成本飙升。 2. 交付慢，SLA

AIGC十年演进（2015–2025）

十年演进时间线总结

1. 2015–2018：GAN静态图像萌芽时代

2. 2019–2022：扩散模型+文本到图像转型时代

3. 2023–2025：文本到视频+意图级普惠时代

一句话总结

Read more

AI Agent 框架选型指南：OpenClaw、LangChain、AutoGPT、CrewAI 深度对比

【LLM】大模型vibe coding（cursor、copilot、comate）

Cloud Code开发者揭秘：AI Agent设计的核心密码——渐进式披露

大香蕉 (Banana Pro) 企业级落地白皮书：如何用 0.18 元打破 AIGC 的“商业不可能三角”？