AI 大模型:国内外发展现状与趋势分析
AI 大模型行业自 2022 年 11 月 ChatGPT 发布后进入加速发展阶段。国外闭源、开源及端侧模型持续领跑,GPT-4、Claude、Llama 等表现强劲。国内大模型快速逼近 GPT-4,百度文心一言、讯飞星火、智谱 GLM-4、商汤日日新等头部产品能力显著提升。开源模型如通义千问、百川智能进展迅速。多模态领域国产视频模型 Vidu 和音乐模型天工 Skymusic 取得突破。大模型已成为日常生活重要助手,应用下载量攀升。

AI 大模型行业自 2022 年 11 月 ChatGPT 发布后进入加速发展阶段。国外闭源、开源及端侧模型持续领跑,GPT-4、Claude、Llama 等表现强劲。国内大模型快速逼近 GPT-4,百度文心一言、讯飞星火、智谱 GLM-4、商汤日日新等头部产品能力显著提升。开源模型如通义千问、百川智能进展迅速。多模态领域国产视频模型 Vidu 和音乐模型天工 Skymusic 取得突破。大模型已成为日常生活重要助手,应用下载量攀升。

2022 年 11 月 30 日 OpenAI 发布 ChatGPT,随即引爆社交网络,大模型行业进入加速发展阶段。国外基础模型实力强劲、不断精进,开源模型打造庞大应用生态,端侧模型小而美。国内大模型也进入加速成长期,在过去一年中取得了实质性突破。百度文心一言、讯飞星火、清华智谱 ChatGLM4、商汤'日日新 SenseNova5.0'整体表现逼近 GPT-4,开源模型快速进步,文生视频、文生音乐等多模态也取得突破。国内大模型网页流量和应用下载量节节攀升,大模型已经成为日常生活中的重要助手。
国外大模型主要分为三个层级:性能强劲的闭源模型,具备生态优势的开源模型,以及专注端侧应用的轻量模型。国外基础模型能力持续提升,闭源模型中巨头各显其才。GPT-4 性能卓越,始终处于领跑地位,GPT-4o 模型实现端到端信息处理,人机交互体验大幅提升;Claude 3 后起之秀,整体性能十分强劲;原生多模态大模型 Gemini,多模态能力、跨模态能力取得突破。开源模型领域中,LLama2 模型塑造了庞大的开源模型家族,LLama3 能力大幅提升;Mixtral 8x7B 为开源领域引入专家混合技术,成为开源模型的重要力量。端侧应用需要在轻量参数和模型性能之间平衡,Phi-3、Gemma2 实现轻量级模型的小而美。国外闭源模型有望迎来突破,我们预期 GPT-5 或于近期发布,性能改进超预期。
国内大模型的发展大致可以分为三个阶段,即准备期(2022.12-2023.02)、成长期(2023.02-2023.12)、爆发期(2023.12-)。


国内第一梯队的大模型整体能力目前已经逼近 GPT-4,部分模型中文能力与 GPT-4 相差无几。5-6 月,国内多家大模型将迎来版本更新,今年年中是国内大模型的关键赛点,预期我们将见到部分头部大模型整体能力上超越 GPT-4。

客观评价大模型能力存在一定的难度,不同的模型测试可能考察了模型不同维度的能力,因而模型之间的性能比较在不同测试中可能表现不一致,同时大模型的每次响应同样存在不确定性,增加了大模型的测试难度。
结合不同机构的第三方测试,我们大致可以知晓模型之间的性能差异。GPT-4 展现出强大的语言理解、生成和推理能力,在各类测试中均保持领先地位。各类评测中模型表现可能略有不同,但是国内第一梯队的大模型整体能力目前已经快速逼近 GPT-4。国内大模型发展迅速,与 GPT-4 差距快速缩小,第一梯队的头部大模型例如 ChatGLM4、百度文心一言 4.0、讯飞星火 V3.5 整体表现已经接近 GPT-4,在中文领域,国内部分模型表现已经可以比肩 GPT-4。

11 月 1 日,百度正式上线文心一言专业版,技术持续升级。 文心一言大模型专业版基于公司最新自研的文心大模型 4.0,与原有的 3.5 版本相比,具有以下优势:
文心一言成为首个国内面向 C 端收费的大模型产品。文心一言专业版的分为单独订阅和联合会员两种收费模式。单独订阅模式下,会员月付 59.9 元,选择连续包月可以享受 49.9 元的优惠价格;该模式下会员可以使用文心一言大模型 3.5 和 4.0 两个版本,而非会员只可使用免费的文心大模型 3.5 版本。联合模式下,用户月付 99 元,可以同时具有单独订阅模式的全部功能,并获得文心一格白银会员资格,享受 AI 修图改图等功能。

1 月 30 日,科大讯飞举行星火认知大模型 V3.5 升级发布会。讯飞发布基于首个全国产算力训练的讯飞星火 V3.5,七大核心能力全面提升,语言理解、数学能力、语音交互能力超过 GPT-4 Turbo,代码达到 GPT-4 Turbo 96%,多模态理解达到 GPT-4V 91%。
4 月 26 日,讯飞星火大模型 V3.5 春季上新,发布长文本、长图文、长语音大模型。不仅可以快速学习各种来源的海量文本、图文资料、会议录音,还能够针对多种多样的行业场景给出专业、准确回答。此外,星火语音大模型本次更新还包括多情感超拟人合成功能,具备情绪表达能力,并推出一句话声音复刻功能。
讯飞正式启动对标 GPT-4 的大模型训练,2024 年上半年对标 GPT-4,要走独立的技术路线和产业方向,形成完整产业生态。

1 月 16 日,2024 年度技术开放日 Zhipu DevDay,智谱 AI 发布了新一代基座大模型 GLM-4。 在大规模多任务语言理解评测中,GLM-4 的表现明显优于 GPT-3.5,其平均得分已经达到了 GPT-4 的 95% 水平,在某些特定任务上甚至表现相当。
GLM-4 具备强大的多模态能力: 文生图和多模态理解能力得到增强,CogView3 在文生图多个评测指标上,相比 DALLE3 约在 91.4%-99.3% 的水平之间。
GLM-4 推出的 All Tools 能力: GLM-4 能自主理解和执行复杂任务,调用浏览器、代码解释器等完成复杂工作。
个性化智能体功能:用户可以通过智谱官网轻松创建属于自己的 GLM 智能体,实现大模型开发定制。

4 月 23 日,商汤科技在技术交流日上发布全新升级的'日日新 SenseNova5.0'大模型,其主流客观评测指标达到或超越 GPT-4 Turbo。 日日新 5.0 模型能力提升一方面得益于采用混合专家架构(MoE),激活少量参数就能完成推理,且推理时上下文窗口高达 200K 左右;另一方面来自海量的训练数据,其训练数据超过 10TB tokens、覆盖了数千亿量级的逻辑型合成思维链数据。
商汤多模态大模型的图文感知能力达到全球领先水平,在权威综合基准测试 MMBench 中综合得分居首位,在多个知名多模态榜单 MathVista、AI2D、ChartQA、TextVQA、DocVQA、MMMU 均取得优异成绩。

1 月 29 日,百川智能发布超千亿参数的大语言模型 Baichuan 3。 在多个权威通用能力评测如 CMMLU、GAOKAO 和 AGI-Eval 中,Baichuan 3 都展现了出色的能力,尤其在中文任务上更是超越了 GPT-4。而在数学和代码专项评测如 MATH、HumanEval 和 MBPP 中同样表现出色,证明了 Baichuan 3 在自然语言处理和代码生成领域的强大实力。
Baichuan 2 是百川智能推出的开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。Baichuan 2 在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。包含 7B、13B 的 Base 和 Chat 版本,并提供了 Chat 版本的 4bits 量化。

通义千问 2023 年 4 月问世以来,专注于基础模型的技术研发,从初代模型升级至 2.5 版本。相比上一版本,2.5 版模型的理解能力、逻辑推理、指令遵循、代码能力分别提升 9%、16%、19%、10%,中文能力持续领先。
今年 2 月初,通义千问团队推出开源模型系列 Qwen1.5,随后在不到 3 个月的时间连续开出 8 款大语言模型,模型参数规模涵盖 5 亿、18 亿、40 亿、70 亿、140 亿、320 亿、720 亿、1100 亿,打造了丰富的开源模型矩阵。能力最强的 Qwen1.5-110B 在 MMLU、TheoremQA、GPQA 等多个基准测评中展现出卓越性能,基础能力可与 Meta 的 Llama-3-70B 模型相媲美。

5 月 15 日,字节跳动正式对外发布豆包大模型,豆包大模型家族包括豆包通用模型 Pro、豆包通用模型 Lite、豆包·角色扮演模型、豆包·语音合成模型、豆包·声音复刻模型、豆包·语音识别模型、豆包·文生图模型等,这些模型已接入抖音、番茄小说、飞书、巨量引擎等 50 余个业务。
豆包主力模型定价 0.0008 元/千 Tokens,一元钱能买到豆包主力模型的 125 万 Tokens,约 200 万汉字,极具价格竞争力。
苹果 APP Store 和各大安卓应用市场,豆包 APP 的下载量在 AIGC 类应用中排名第一,豆包上已有超过 800 万个智能体被创建,月度活跃用户达到 2600 万。

Moonshot AI 提供超长记忆 AI 助手 Kimi。23 年 10 月,月之暗面推出可支持 20 万字无损上下文长度的智能助手 Kimi,具备显著的中文优势,能够为用户提供智能搜索、回答问题、速读文件、整理资料、激发灵感、辅助创作等服务,上下文长度可以达到 Claude 100k 的 2.5 倍、GPT-4-32k 的 8 倍。
Kimi 智能助手使用方便,新版 Kimi 与之前版本相比在相同设备和成本的情况下模型响应速度提升了 3 倍左右。
Kimi 推出应用商店 Kimi+。首批上线共 5 大类 23 个 Kimi+,覆盖了很多常用的场景。五大类主要包括官方推荐、办公提效、辅助写作、社交娱乐、生活实用,不同的 Kimi+ 可以用来解决不同的问题,包括写提示词、写文章、搜索资源等等。

深度求索 Deepseek 发布了 v2 版本的模型,沿袭了 Deepseek-MoE(混合专家模型)的技术路线,采用大量的小参数专家进行建模,同时在训练和推理上加入了更多的优化。Deepseek 对模型进行了完全的 mit 协议开源,可以商用。
Deepseek V2 模型参数量达到 236B,同时由于模型小专家混合的特性,模型每个 token 在推理时的激活参数为 21B,可以实现高推理速度。模型的核心优化点多头隐式注意力显著降低了训练和推理成本。在成本效率方面,相比 V1 的稠密模型,V2 模型节约了 42.5% 的训练成本,减少了推理时 93.3% 的 KV-cache 显存占用,将生成的吞吐量也提升到了原来的 5.76 倍。
Deepseek-V2 在众多开源模型中表现仅次于 70B 的 LLaMA3,超过了他们此前发布的 V1 代 67B 的非 MoE 模型。

国产文生视频大模型 Vidu 正式发布,实现重大技术突破。 4 月 27 日,国产 AI 视频大模型 Vidu 发布。Vidu 是由清华大学和生数科技联合开发的中国首个长时长、高一致性、高动态性视频大模型。它不仅能够精确模拟现实世界的物理特性,还具备强大的创新能力。Vidu 能够制作出具有多个镜头视角的视频内容,并且在不同镜头之间保持高度的时空连贯性。目前 Vidu 能够实现一键生成长达 16 秒、1080P 高分辨率的高清视频。
Vidu 采用独创 U-ViT 架构,正在加速迭代。 Vidu 采用了一种独创的架构——U-ViT,该架构融合了 Diffusion 技术和 Transformer 技术。其核心技术 U-ViT 架构由团队于 2022 年 9 月提出,其 Diffusion 与 Transformer 融合的架构完全由团队自主研发。

天工 SkyMusic 基于昆仑万维天工 3.0 超级大模型打造,采用了音乐音频领域的类 Sora 架构,是目前国内唯一公开可用的 AI 音乐生成大模型。 天工 SkyMusic 采用音乐音频领域类 Sora 模型架构,Large-scale Transformer 负责谱曲,来学习 Music Patches 的上下文依赖关系,同时完成音乐可控性;Diffusion Transformer 负责演唱,通过 LDM 让 Music Patches 被还原成高质量音频,使得天工 SkyMusic 能够支持生成 80 秒 44100Hz 采样率双声道立体声歌曲。
天工 SkyMusic 具备高质量 AI 音乐生成、人声'以假乱真'、歌词段落控制、多种音乐风格、歌唱技巧学习等特点。目前 Skymusic 已经开启公测,所有用户可以免费使用。


微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online