AIGC十年演进(2015–2025)

AIGC十年演进(2015–2025)

一句话总论:
2015年AIGC(AI Generated Content)还只是“GAN模糊人脸+低分辨率静态图像”的学术萌芽,2025年已进化成“万亿级多模态VLA大模型+物理一致性+长时序视频/3D/互动+意图级实时生成+量子加速自进化”的普惠创作神器,中国从跟随Stable Diffusion/Sora跃升全球领跑者(Kling、Vidu、生数科技、DeepSeek、阿里通义、百度文心等主导),生成时长从秒级低清升至10分钟+电影级8K全一致,可控性从随机噪声到精确意图/物理/多镜头,推动人类从“AI工具辅助创作”到“人人都是电影导演/游戏设计师”的文明跃迁。

十年演进时间线总结
年份核心范式跃迁代表模型/技术生成质量/时长可控性/应用中国贡献/里程碑
2015GAN静态图像初探DCGAN / CycleGAN64–256像素模糊 / 静态无控制全球学术,中国几乎无
2017高分辨率GAN+条件生成Progressive GAN / StyleGAN512–1024像素 / 静态风格/属性初步控制中国跟进StyleGAN,产业化零
2019扩散模型+文本到图像DDPM + Guided Diffusion512–1024清晰 / 静态文本条件Stable Diffusion前身,中国初代扩散研究
2021Latent Diffusion+大规模预训练Stable Diffusion / DALL·E 21024x1024高清 / 静态文本+图像意图百度文心 + 阿里NÜWA,中国文本到图像量产
2023文本到视频+大模型元年Make-A-Video / Sora / Gen-21080p 几秒–2分钟 / 中等一致文本+物理初步快手Kling + 字节Vidu + 生数Runway中国版首发
2025VLA意图级+物理一致终极形态Sora 2 / Kling 2 / Vidu 34K–8K 5–10分钟+ / 电影级一致意图/物理/多镜头/互动精确Kling 2 / Vidu 3 / DeepSeek-Video领跑全球
1. 2015–2018:GAN静态图像萌芽时代
  • 核心特征:GAN主导,低分辨率(64–1024像素)模糊图像生成,时长静态,无真实物理/可控性。
  • 关键进展
    • 2015年:DCGAN奠基GAN图像生成。
    • 2016–2017年:CycleGAN无监督风格迁移。
    • 2018年:Progressive GAN+StyleGAN高分辨率人脸。
  • 挑战与转折:一致性差、训练不稳;扩散模型兴起。
  • 代表案例:StyleGAN人脸生成,中国跟进但无产业。
2. 2019–2022:扩散模型+文本到图像转型时代
  • 核心特征:扩散模型取代GAN,Latent Diffusion降低计算,高清1024x1024图像,文本控制成熟。
  • 关键进展
    • 2019年:DDPM框架成熟。
    • 2020–2021年:Latent Diffusion+DALL·E 2 CLIP引导。
    • 2022年:Stable Diffusion开源,中国文心/通义初代文本到图像。
  • 挑战与转折:仅静态图像;视频+物理一致性需求爆发。
  • 代表案例:Stable Diffusion 1.5,中国开源SD生态爆发。
3. 2023–2025:文本到视频+意图级普惠时代
  • 核心特征:万亿级多模态扩散大模型+物理一致性+长时序视频+意图级多镜头控制,4K–8K电影级,时长5–10分钟+。
  • 关键进展
    • 2023年:OpenAI Sora震撼全球,快手Kling/字节Vidu/生数科技同步首发。
    • 2024年:Kling 1.5/Vidu 2.0物理一致性+长时序领跑。
    • 2025年:Kling 2/Vidu 3/DeepSeek-Video,意图级多角色/镜头+自进化,普惠手机端实时生成。
  • 挑战与转折:伦理/版权;大模型+量子加速标配。
  • 代表案例:Kling 2(10分钟电影级一致性+物理真实),Vidu 3(意图级多角色社交视频)。
一句话总结

从2015年GAN模糊静态图像的“学术玩具”到2025年VLA电影级10分钟意图级视频的“全民创作神器”,十年间AIGC由低清闪烁转向物理一致意图控制,中国Kling/Vidu/生数等主导全球创新+普惠下沉,推动人类从“AI工具辅助创作”到“人人都是电影导演/游戏设计师”的文明跃迁,预计2030年实时互动无限长电影级生成+全域永不失真自愈。

数据来源于arXiv综述、CVPR/ICCV 2025及中国厂商技术白皮书。

Read more

【LLM】大模型vibe coding(cursor、copilot、comate)

【LLM】大模型vibe coding(cursor、copilot、comate)

note 2025年,Karpathy分享了自己的Vibe Coding指南1.0: * 把所有相关内容塞进上下文里(在大型项目中可能需要很久。如果项目够小,就直接把所有文件都塞进去。 * 描述我们接下来要实现的那个具体的、增量式的小改动。不要直接要代码,而是要几种高层次的思路,并分析它们的优缺点。几乎总是会有多种做法,而大语言模型的判断并不总是可靠。然后(可选)再具体化。 * 选择一种思路,请它写出第一版代码。 * 进入复查/学习阶段:手动在浏览器里打开我不熟悉或没调用过的API文档,向模型提问解释、澄清、修改,必要时回退并尝试另一种思路。 * 测试。 * Git commit。 * 询问可以接下来实现什么。然后重复这个循环。 文章目录 * note * 一、相关vibe coding工具 * 1、cursor * 2、copilot * 3、comate * 二、vibe coding综述 * 1、code agent

Cloud Code开发者揭秘:AI Agent设计的核心密码——渐进式披露

Cloud Code开发者揭秘:AI Agent设计的核心密码——渐进式披露

如果你用过Cloud Code(或者Cline、Cursor等AI编程助手),你一定好奇过:这些工具背后的团队是怎么设计它们的?为什么它们有时候聪明得惊人,有时候又笨得让人着急?最近,Cloud Code的核心开发者Tariq连发两篇技术博客,把他们在打造Cloud Code过程中踩过的坑、走过的弯路全都抖了出来。我读完直呼过瘾——这哪是技术文档,简直是AI Agent设计的“避坑指南”。 今天咱们用文字深度复盘。尤其是那个贯穿全文的原则——渐进式披露(Progressive Disclosure),如果你正在搭建自己的智能体(Agent),或者只是想更好地使用Cloud Code,这篇文章的价值会放大十倍。 一、什么是渐进式披露? Tariq开篇打了个比方:想象你面前有一道很难的数学题,你会用什么工具去解决它?纸和笔最基础,但算力有限;计算器好一点,但需要你懂操作;电脑最强,但你得会写代码。 这个比喻想表达什么?工具必须匹配使用者的能力。 如果使用者(这里就是AI模型)的能力还没到那个层次,你给它再强的工具也是白搭;反过来,如果模型的能力已经足够强,那些过于简单的工具

大香蕉 (Banana Pro) 企业级落地白皮书:如何用 0.18 元打破 AIGC 的“商业不可能三角”?

摘要 2026 年,AIGC 从“玩具”走向“工具”。企业主面临着一个新的“不可能三角”:高质量(Quality)、低成本(Cost)、高速度(Speed)。本文将拆解 大香蕉 (Banana Pro) 模型如何凭借谷歌 Gemini 3 的底层能力与 xingjiabiapi.org 的架构优化,在电商、内容矩阵、品牌设计三大场景中实现商业闭环。 一、 核心痛点:企业为什么不敢大规模用 AI? 在与数百家企业 CTO 和运营总监交流后,我们发现 AI 生图在企业级落地中存在三大拦路虎: 1. 成本不可控:Midjourney 等主流工具按月订阅或高昂的单次计费,导致大规模(日产万张)生成时成本飙升。 2. 交付慢,SLA