AIGC 十年演进(2015–2025)
2015 年 AIGC(AI Generated Content)还只是'GAN 模糊人脸 + 低分辨率静态图像'的学术萌芽,2025 年已进化成'万亿级多模态 VLA 大模型 + 物理一致性 + 长时序视频/3D/互动 + 意图级实时生成 + 量子加速自进化'的普惠创作工具,中国从跟随 Stable Diffusion/Sora 跃升全球领跑者(Kling、Vidu、生数科技、DeepSeek、阿里通义、百度文心等主导),生成时长从秒级低清升至 10 分钟 + 电影级 8K 全一致,可控性从随机噪声到精确意图/物理/多镜头,推动人类从'AI 工具辅助创作'到'人人都是电影导演/游戏设计师'的文明跃迁。
十年演进时间线总结
| 年份 | 核心范式跃迁 | 代表模型/技术 | 生成质量/时长 | 可控性/应用 | 中国贡献/里程碑 |
|---|---|---|---|---|---|
| 2015 | GAN 静态图像初探 | DCGAN / CycleGAN | 64–256 像素模糊 / 静态 | 无控制 | 全球学术,中国几乎无 |
| 2017 | 高分辨率 GAN+ 条件生成 | Progressive GAN / StyleGAN | 512–1024 像素 / 静态 | 风格/属性初步控制 | 中国跟进 StyleGAN,产业化零 |
| 2019 | 扩散模型 + 文本到图像 | DDPM + Guided Diffusion | 512–1024 清晰 / 静态 | 文本条件 | Stable Diffusion 前身,中国初代扩散研究 |
| 2021 | Latent Diffusion+ 大规模预训练 | Stable Diffusion / DALL·E 2 | 1024x1024 高清 / 静态 | 文本 + 图像意图 | 百度文心 + 阿里 NÜWA,中国文本到图像量产 |
| 2023 | 文本到视频 + 大模型元年 | Make-A-Video / Sora / Gen-2 | 1080p 几秒–2 分钟 / 中等一致 | 文本 + 物理初步 | 快手 Kling + 字节 Vidu + 生数 Runway 中国版首发 |
| 2025 | VLA 意图级 + 物理一致终极形态 | Sora 2 / Kling 2 / Vidu 3 | 4K–8K 5–10 分钟 + / 电影级一致 | 意图/物理/多镜头/互动精确 | Kling 2 / Vidu 3 / DeepSeek-Video 领跑全球 |
2015–2018:GAN 静态图像萌芽时代
- 核心特征:GAN 主导,低分辨率(64–1024 像素)模糊图像生成,时长静态,无真实物理/可控性。
- 关键进展:
- 2015 年:DCGAN 奠基 GAN 图像生成。
- 2016–2017 年:CycleGAN 无监督风格迁移。
- 2018 年:Progressive GAN+StyleGAN 高分辨率人脸。
- 挑战与转折:一致性差、训练不稳;扩散模型兴起。
- 代表案例:StyleGAN 人脸生成,中国跟进但无产业。
2019–2022:扩散模型 + 文本到图像转型时代
- 核心特征:扩散模型取代 GAN,Latent Diffusion 降低计算,高清 1024x1024 图像,文本控制成熟。
- 关键进展:
- 2019 年:DDPM 框架成熟。

