2024 年 AIGC 行业研究：多模态大模型与商业应用

2024 年 AIGC 行业发展现状，涵盖产业生态、前沿技术、应用场景及未来展望。产业生态分为基础设施、模型和应用三层，数据服务成新增量。技术上多模态成共识，扩散模型主导视频生成。应用层面，ToB 端在数字人、SaaS、金融等领域降本增效，ToC 端在游戏、影视、出版提升效率。同时面临数据隐私、版权、伦理等挑战。预计 2030 年中国 AIGC 市场规模将超万亿，AGI 时代加速到来，需加强监管与伦理建设。

ArchDesign发布于 2025/2/6更新于 2026/7/2245 浏览

2024 年 2 月，OpenAI 发布其首款视频生成模型 Sora，用户仅需输入一段文字即可生成长达一分钟场景切换流畅、细节呈现清晰、情感表达准确的高清视频，与一年前的 AI 生成视频相比，在各维度均实现了质的提升。这一突破再次将 AIGC 推向大众视野。AIGC 即通过大量数据训练而成的人工智能系统，可根据用户的个性化指令生成文本、音频、图像、代码等内容。自 2022 年频频出圈的 ChatGPT 推出以来，生成式 AI 在游戏、影视、出版、金融、数字人等多个应用场景中展现出巨大潜力和价值。据不完全统计，2023 年全球 AIGC 产业融资超 1900 亿元，几乎每个月都有该赛道公司获得融资。例如，2023 年 6 月，Runway 获得谷歌、英伟达、Salesforce 等投资者的新一轮 1.41 亿美元的融资；Runway 的强劲对手 Pika 则用短短半年时间，连续完成三轮融资，总融资额达 5,500 万美元。

本文将基于 AIGC 产业生态现状和技术发展路径，深入分析 AIGC 商业化应用的方向与产业发展趋势。

01、产业生态概览

产业生态图谱：以数据板块为代表的基础层有待突破，模型层占核心地位，应用层遍地开花

整体而言，目前 AIGC 产业生态可划分为三部分：上游基础设施层、中游模型层和下游的应用层。其中，基础设施层包括数据、算力和模型开发训练平台/计算平台等算法基础平台；模型层包括底层通用大模型、中间层模型和开源社区；应用层则在文本、音频、图像、视频四类模态的基础上，发展出了策略生成和跨模态生成，并在金融、数据分析、设计等多个行业实现了商业应用。

AIGC 产业生态图谱

基础设施层：数据服务板块成产业新增量，算力和算法产业生态格局较为确定

AIGC 对训练数据的体量、所属行业领域、对应垂直业务和颗粒度都有极高的要求。对于预训练大模型而言，多模态的数据集至关重要。此外，为了使训练问答和产出达到预期效果，数据提供方需要保障数据的即时性和有效性。目前，全球规模最大的开源跨模态数据库是 LAION-5B，全球首个亿级中文多模态数据集'悟空'则是由华为诺亚方舟实验室开源。

自各类大模型进入大众视野以来，其 tokens 的大小限制一直困扰着诸多开发者和使用者，以 GPT 为例，当使用者向其发送命令时，程序会自动将最近几次对话记录（基于对话的字数限制在 4096 tokens 内）通过 prompt 组合成最终的问题，并发送给 ChatGPT。一旦使用者的对话记忆超过了 4096 tokens，那么它就难以将之前的对话内容纳入到逻辑思考范围，这就导致目前 GPT 在面对比较复杂任务时容易出现 AI 幻觉。

在此背景下，开发者们不断寻求新的解决方案，向量数据库就是热门解决方案之一。向量数据库的核心概念是将数据转换成向量存储在数据库中；在使用者输入问题时，也将问题转换成向量，然后在数据库中搜索最相似的向量和上下文，最后将文本返回给用户。这样不仅可以大大减少 GPT 的计算量，从而提高响应速度，更重要的是降低成本、支持多模态数据，并绕过了 GPT 的 tokens 限制。随着 Weaviate MongoDB 等海外向量数据库成为资本关注的对象，国内腾讯、京东等大厂也纷纷在此领域着手布局。

相比于数据板块，国内算力和算法基础领域供给端仍以头部企业为主，初创型企业机会相对较少。但以人工智能计算架构为基础，为应用层提供所需算力服务、数据服务和算法服务的智算中心已成为新型公共算力基础设施之一。

如 AIDC OS，是九章云极 DataCanvas 自主研发的智算专属 AI 操作系统。同时面向智算中心大规模算力和大中型企业内部智算集群，输出智算资源的纳管、统一调度，智算业务的业务运营支撑，以及 AI 模型的构建、训练和推理等核心能力。AIDC OS 将算力运营方的运维能力从裸算力设备运维提升至 AI 大模型运维能力，加之对各类异构算力和 AI 应用的开放兼容，AIDC OS 成功实现了算力资产附加价值的有效提升。

模型层：国内市场玩家多集中在底层通用大模型，中间层玩家较少

AIGC 底层通用大模型可分为开源和闭源两类。闭源模型一般通过付费的 API 或者有限的试用接口来访问，国外闭源模型包括 OpenAI 的 GPT 模型、谷歌的 PaLM-E 模型等。国内闭源模型厂商起步较晚，但在多模态交互能力和与智能硬件结合方面的能力提升迅速。如近期李未可科技研发的 WAKE-AI 大模型，具有文本生成、语言理解、图像识别及视频生成等多模态交互能力，是李未可科技专为未来 AI+终端，定向优化研发的多模态 AI 大模型平台。目前 WAKE-AI 大模型暂时针对李未可科技旗下的智能终端——AI 眼镜、XR 眼镜上使用。未来李未可科技将开放该 AI 平台，即让更多开发者以低代码或无代码的方式，在各类终端上快速低成本的部署或定制多模态 AI。

开源模型采用公开模型的源码与数据集，任何人都可以查看或修改源代码，如 Stability AI 开源 Stable Diffusion，Meta 开源 Llamax，xAI 开源 Grok-1，中国智源开源 Aquila。比较而言，闭源模型的优势在于前期投入成本低、运行稳定；开源模型则基于私有化部署拥有较高的数据隐私安全保障，并且迭代更新速度较快。目前国内多数大模型开发企业或机构致力于开发跨模态大模型，如腾讯的混元 AI 和百度的文心大模型，都可进行跨模态生成，但整体尚未普遍形成开源生态。

中间层模型市场玩家大致可分为垂类大模型和中间集成商两类。其中，垂类大模型对于垂直行业的业务理解和资源积累要求较高，中间集成商负责组合多个模型接口，形成新的整体模型。以 AI 游戏引擎公司 RPGGO 为例，对于个人用户而言，RPGGO 基于自研的游戏引擎 Zagii Engine，能够协助个人创作者简化开发流程，实现最大化的创意输出；对于游戏工作室而言，RPGGO 能够提供 API 联动，提升游戏开发效率。