2024 年 2 月,OpenAI 发布其首款视频生成模型 Sora,用户仅需输入一段文字即可生成长达一分钟场景切换流畅、细节呈现清晰、情感表达准确的高清视频,与一年前的 AI 生成视频相比,在各维度均实现了质的提升。这一突破再次将 AIGC 推向大众视野。AIGC 即通过大量数据训练而成的人工智能系统,可根据用户的个性化指令生成文本、音频、图像、代码等内容。自 2022 年频频出圈的 ChatGPT 推出以来,生成式 AI 在游戏、影视、出版、金融、数字人等多个应用场景中展现出巨大潜力和价值。据不完全统计,2023 年全球 AIGC 产业融资超 1900 亿元,几乎每个月都有该赛道公司获得融资。例如,2023 年 6 月,Runway 获得谷歌、英伟达、Salesforce 等投资者的新一轮 1.41 亿美元的融资;Runway 的强劲对手 Pika 则用短短半年时间,连续完成三轮融资,总融资额达 5,500 万美元。
本文将基于 AIGC 产业生态现状和技术发展路径,深入分析 AIGC 商业化应用的方向与产业发展趋势。
01、产业生态概览
产业生态图谱:以数据板块为代表的基础层有待突破,模型层占核心地位,应用层遍地开花
整体而言,目前 AIGC 产业生态可划分为三部分:上游基础设施层、中游模型层和下游的应用层。其中,基础设施层包括数据、算力和模型开发训练平台/计算平台等算法基础平台;模型层包括底层通用大模型、中间层模型和开源社区;应用层则在文本、音频、图像、视频四类模态的基础上,发展出了策略生成和跨模态生成,并在金融、数据分析、设计等多个行业实现了商业应用。

基础设施层:数据服务板块成产业新增量,算力和算法产业生态格局较为确定
AIGC 对训练数据的体量、所属行业领域、对应垂直业务和颗粒度都有极高的要求。对于预训练大模型而言,多模态的数据集至关重要。此外,为了使训练问答和产出达到预期效果,数据提供方需要保障数据的即时性和有效性。目前,全球规模最大的开源跨模态数据库是 LAION-5B,全球首个亿级中文多模态数据集'悟空'则是由华为诺亚方舟实验室开源。
自各类大模型进入大众视野以来,其 tokens 的大小限制一直困扰着诸多开发者和使用者,以 GPT 为例,当使用者向其发送命令时,程序会自动将最近几次对话记录(基于对话的字数限制在 4096 tokens 内)通过 prompt 组合成最终的问题,并发送给 ChatGPT。一旦使用者的对话记忆超过了 4096 tokens,那么它就难以将之前的对话内容纳入到逻辑思考范围,这就导致目前 GPT 在面对比较复杂任务时容易出现 AI 幻觉。
在此背景下,开发者们不断寻求新的解决方案,向量数据库就是热门解决方案之一。向量数据库的核心概念是将数据转换成向量存储在数据库中;在使用者输入问题时,也将问题转换成向量,然后在数据库中搜索最相似的向量和上下文,最后将文本返回给用户。这样不仅可以大大减少 GPT 的计算量,从而提高响应速度,更重要的是降低成本、支持多模态数据,并绕过了 GPT 的 tokens 限制。随着 Weaviate MongoDB 等海外向量数据库成为资本关注的对象,国内腾讯、京东等大厂也纷纷在此领域着手布局。
相比于数据板块,国内算力和算法基础领域供给端仍以头部企业为主,初创型企业机会相对较少。但以人工智能计算架构为基础,为应用层提供所需算力服务、数据服务和算法服务的智算中心已成为新型公共算力基础设施之一。
如 AIDC OS,是九章云极 DataCanvas 自主研发的智算专属 AI 操作系统。同时面向智算中心大规模算力和大中型企业内部智算集群,输出智算资源的纳管、统一调度,智算业务的业务运营支撑,以及 AI 模型的构建、训练和推理等核心能力。AIDC OS 将算力运营方的运维能力从裸算力设备运维提升至 AI 大模型运维能力,加之对各类异构算力和 AI 应用的开放兼容,AIDC OS 成功实现了算力资产附加价值的有效提升。
模型层:国内市场玩家多集中在底层通用大模型,中间层玩家较少
AIGC 底层通用大模型可分为开源和闭源两类。闭源模型一般通过付费的 API 或者有限的试用接口来访问,国外闭源模型包括 OpenAI 的 GPT 模型、谷歌的 PaLM-E 模型等。国内闭源模型厂商起步较晚,但在多模态交互能力和与智能硬件结合方面的能力提升迅速。如近期李未可科技研发的 WAKE-AI 大模型,具有文本生成、语言理解、图像识别及视频生成等多模态交互能力,是李未可科技专为未来 AI+终端,定向优化研发的多模态 AI 大模型平台。目前 WAKE-AI 大模型暂时针对李未可科技旗下的智能终端——AI 眼镜、XR 眼镜上使用。未来李未可科技将开放该 AI 平台,即让更多开发者以低代码或无代码的方式,在各类终端上快速低成本的部署或定制多模态 AI。
开源模型采用公开模型的源码与数据集,任何人都可以查看或修改源代码,如 Stability AI 开源 Stable Diffusion,Meta 开源 Llamax,xAI 开源 Grok-1,中国智源开源 Aquila。比较而言,闭源模型的优势在于前期投入成本低、运行稳定;开源模型则基于私有化部署拥有较高的数据隐私安全保障,并且迭代更新速度较快。目前国内多数大模型开发企业或机构致力于开发跨模态大模型,如腾讯的混元 AI 和百度的文心大模型,都可进行跨模态生成,但整体尚未普遍形成开源生态。
中间层模型市场玩家大致可分为垂类大模型和中间集成商两类。其中,垂类大模型对于垂直行业的业务理解和资源积累要求较高,中间集成商负责组合多个模型接口,形成新的整体模型。以 AI 游戏引擎公司 RPGGO 为例,对于个人用户而言,RPGGO 基于自研的游戏引擎 Zagii Engine,能够协助个人创作者简化开发流程,实现最大化的创意输出;对于游戏工作室而言,RPGGO 能够提供 API 联动,提升游戏开发效率。







