AI 大模型：国内外发展现状与趋势分析

2022 年 11 月 30 日 OpenAI 发布 ChatGPT，随即引爆社交网络，大模型行业进入加速发展阶段。国外基础模型实力强劲、不断精进，开源模型打造庞大应用生态，端侧模型小而美。国内大模型也进入加速成长期，在过去一年中取得了实质性突破。百度文心一言、讯飞星火、清华智谱 ChatGLM4、商汤'日日新 SenseNova5.0'整体表现逼近 GPT-4，开源模型快速进步，文生视频、文生音乐等多模态也取得突破。国内大模型网页流量和应用下载量节节攀升，大模型已经成为日常生活中的重要助手。

国外大模型持续领跑，闭源、开源、端侧模型异彩纷呈

国外大模型主要分为三个层级：性能强劲的闭源模型，具备生态优势的开源模型，以及专注端侧应用的轻量模型。国外基础模型能力持续提升，闭源模型中巨头各显其才。GPT-4 性能卓越，始终处于领跑地位，GPT-4o 模型实现端到端信息处理，人机交互体验大幅提升；Claude 3 后起之秀，整体性能十分强劲；原生多模态大模型 Gemini，多模态能力、跨模态能力取得突破。开源模型领域中，LLama2 模型塑造了庞大的开源模型家族，LLama3 能力大幅提升；Mixtral 8x7B 为开源领域引入专家混合技术，成为开源模型的重要力量。端侧应用需要在轻量参数和模型性能之间平衡，Phi-3、Gemma2 实现轻量级模型的小而美。国外闭源模型有望迎来突破，我们预期 GPT-5 或于近期发布，性能改进超预期。

国内大模型进入性能提升的关键时期，模型应用逐步铺开

国内大模型的发展大致可以分为三个阶段，即准备期（2022.12-2023.02）、成长期（2023.02-2023.12）、爆发期（2023.12-）。

AI 大模型：国内外大模型发展情况梳理

国内大模型分布情况

AI 大模型：国内外大模型发展情况梳理

国内大模型快速逼近 GPT-4

国内第一梯队的大模型整体能力目前已经逼近 GPT-4，部分模型中文能力与 GPT-4 相差无几。5-6 月，国内多家大模型将迎来版本更新，今年年中是国内大模型的关键赛点，预期我们将见到部分头部大模型整体能力上超越 GPT-4。

AI 大模型：国内外大模型发展情况梳理

国内大模型能力测试

客观评价大模型能力存在一定的难度，不同的模型测试可能考察了模型不同维度的能力，因而模型之间的性能比较在不同测试中可能表现不一致，同时大模型的每次响应同样存在不确定性，增加了大模型的测试难度。

结合不同机构的第三方测试，我们大致可以知晓模型之间的性能差异。GPT-4 展现出强大的语言理解、生成和推理能力，在各类测试中均保持领先地位。各类评测中模型表现可能略有不同，但是国内第一梯队的大模型整体能力目前已经快速逼近 GPT-4。国内大模型发展迅速，与 GPT-4 差距快速缩小，第一梯队的头部大模型例如 ChatGLM4、百度文心一言 4.0、讯飞星火 V3.5 整体表现已经接近 GPT-4，在中文领域，国内部分模型表现已经可以比肩 GPT-4。

AI 大模型：国内外大模型发展情况梳理