2022 年 11 月 30 日 OpenAI 发布 ChatGPT,随即引爆社交网络,大模型行业进入加速发展阶段。国外基础模型实力强劲、不断精进,开源模型打造庞大应用生态,端侧模型小而美。国内大模型也进入加速成长期,在过去一年中取得了实质性突破。百度文心一言、讯飞星火、清华智谱 ChatGLM4、商汤'日日新 SenseNova5.0'整体表现逼近 GPT-4,开源模型快速进步,文生视频、文生音乐等多模态也取得突破。国内大模型网页流量和应用下载量节节攀升,大模型已经成为日常生活中的重要助手。
国外大模型持续领跑,闭源、开源、端侧模型异彩纷呈
国外大模型主要分为三个层级:性能强劲的闭源模型,具备生态优势的开源模型,以及专注端侧应用的轻量模型。国外基础模型能力持续提升,闭源模型中巨头各显其才。GPT-4 性能卓越,始终处于领跑地位,GPT-4o 模型实现端到端信息处理,人机交互体验大幅提升;Claude 3 后起之秀,整体性能十分强劲;原生多模态大模型 Gemini,多模态能力、跨模态能力取得突破。开源模型领域中,LLama2 模型塑造了庞大的开源模型家族,LLama3 能力大幅提升;Mixtral 8x7B 为开源领域引入专家混合技术,成为开源模型的重要力量。端侧应用需要在轻量参数和模型性能之间平衡,Phi-3、Gemma2 实现轻量级模型的小而美。国外闭源模型有望迎来突破,我们预期 GPT-5 或于近期发布,性能改进超预期。
国内大模型进入性能提升的关键时期,模型应用逐步铺开
国内大模型的发展大致可以分为三个阶段,即准备期(2022.12-2023.02)、成长期(2023.02-2023.12)、爆发期(2023.12-)。

国内大模型分布情况

国内大模型快速逼近 GPT-4
国内第一梯队的大模型整体能力目前已经逼近 GPT-4,部分模型中文能力与 GPT-4 相差无几。5-6 月,国内多家大模型将迎来版本更新,今年年中是国内大模型的关键赛点,预期我们将见到部分头部大模型整体能力上超越 GPT-4。

国内大模型能力测试
客观评价大模型能力存在一定的难度,不同的模型测试可能考察了模型不同维度的能力,因而模型之间的性能比较在不同测试中可能表现不一致,同时大模型的每次响应同样存在不确定性,增加了大模型的测试难度。
结合不同机构的第三方测试,我们大致可以知晓模型之间的性能差异。GPT-4 展现出强大的语言理解、生成和推理能力,在各类测试中均保持领先地位。各类评测中模型表现可能略有不同,但是国内第一梯队的大模型整体能力目前已经快速逼近 GPT-4。国内大模型发展迅速,与 GPT-4 差距快速缩小,第一梯队的头部大模型例如 ChatGLM4、百度文心一言 4.0、讯飞星火 V3.5 整体表现已经接近 GPT-4,在中文领域,国内部分模型表现已经可以比肩 GPT-4。

百度文心一言 4.0
11 月 1 日,百度正式上线文心一言专业版,技术持续升级。 文心一言大模型专业版基于公司最新自研的文心大模型 4.0,与原有的 3.5 版本相比,具有以下优势:













