华为盘古大模型 3.0 发布与技术解析
在华为开发者大会 2023 上,华为正式发布了盘古大模型 3.0。此次发布会不仅展示了华为在大模型领域的最新进展,更重点突出了其在垂直行业中的落地能力。与市面上常见的生成式 AI 不同,盘古大模型 3.0 更侧重于解决 To B 市场的实际业务问题。
华为在开发者大会上发布盘古大模型 3.0,重点展示气象、药物、矿山等垂直行业应用。气象模型采用 3DEST 三维神经网络和层次化时域聚合策略,精度超越欧洲中心系统。药物分子大模型缩短研发周期至数月。架构采用 5+N+X 分层设计,解决行业数据落地难题。同时推出昇腾 910 芯片及 CANN 软件栈,构建国产算力生态,推动人工智能从通用生成向工业社会促进转型。

在华为开发者大会 2023 上,华为正式发布了盘古大模型 3.0。此次发布会不仅展示了华为在大模型领域的最新进展,更重点突出了其在垂直行业中的落地能力。与市面上常见的生成式 AI 不同,盘古大模型 3.0 更侧重于解决 To B 市场的实际业务问题。
盘古大模型在气象预测方面的表现尤为引人注目。据 Nature 期刊认证,该模型将气象预测速度提高了 10000 倍以上,能够在几秒钟内输出结果,且预测精度超过了全球最强的欧洲气象中心 IFS 系统。
以往的 AI 气象预测多基于 2D 神经网络开发。然而,气象系统是一个复杂的三维流体动力学过程,2D 模型难以捕捉大气层的垂直结构变化,导致预测效果受限。此外,传统 AI 模型在迭代预测过程中容易累积误差,随着时间推移,预测偏差会显著增加。
盘古气象大模型采用了名为 3DEST 的三维神经网络来处理气象数据。通过引入第三维度,模型能够更全面地理解大气运动规律,从而解决了 2D 模型'吃不消'的问题。
针对迭代误差累积的问题,盘古引入了'层次化时域聚合策略'。传统的 AI 模型(如 FourCastNet)在长周期预测中,往往通过多次短时迭代来推算未来状态,这会导致中间步骤的误差叠加。
盘古的训练策略是训练 4 个不同预报间隔的模型,分别对应 1 小时、3 小时、6 小时和 24 小时的迭代频率。根据具体的预测需求,系统会选择相应的模型进行组合迭代。例如,预测未来 7 天天气时,使用 24 小时模型迭代 7 次;预测 20 小时则采用 6 小时模型迭代 3 次加上 1 小时模型迭代 2 次。这种策略有效减少了迭代次数,从而降低了误差累积的风险。
盘古大模型并非单纯的聊天机器人或图像生成工具,其核心价值在于赋能千行百业。除了气象预测,华为还展示了药物研发和矿山开采等领域的成果。
在医药领域,盘古药物分子大模型展现了强大的潜力。面对 40 多年未发现的新型抗生素难题,该模型成功筛选出了超级抗菌药 Drug X。这一成果将药物研发周期从数年缩短至几个月,同时使研发成本降低了 70%。
盘古矿山大模型深入到了采煤的 1000 多个工序之中。仅在挑选精煤这一个环节,就能让精煤回收率提升 0.1% 到 0.2%。对于一家年产 1000 万吨焦煤的选煤厂而言,每提升 0.1% 的精煤产率,每年就能增加约 1000 万元的利润。这种对生产细节的优化直接转化为了经济效益。
华为云人工智能首席科学家田奇表示,华为云人工智能项目已应用在超过 1000 个项目中,其中 30% 用于客户的核心生产系统,平均推动客户盈利能力提升了 18%。
华为之所以能够快速量产并落地这些各不相同的行业大模型,归功于其独特的 5+N+X 三层架构。这一架构巧妙地将行业数据获取难、技术与行业结合难的痛点拆解为三个可解决的问题。
L0 层包含 5 个大模型,分别是自然语言大模型、视觉大模型、多模态大模型、预测大模型和科学计算大模型。这些模型学习了上百 TB 的百科知识、文学作品、程序代码等文本数据,以及数十亿张带文本标签的互联网图像。这相当于建立了基础的认知能力,类似于大学前的素质教育阶段。
L1 层是在 L0 层的基础上,学习 N 个相关行业的数据形成的。这类似于大学的本科阶段,需要选择专业方向深入学习。例如,医院里的 CT 影像检测与工厂的图像质检虽然都使用视觉大模型,但应用场景完全不同。通过注入行业特定数据,模型能够适应特定的业务逻辑。
L2 层类似研究生阶段,会在具体行业的基础上进一步细化到某个场景。例如在仓储物流行业,货物的运输、入库、出库可能需要部署不同的专用模型。这种细粒度适配确保了模型在实际操作中的精准度。
华为在架构中还加入了反馈环节,模拟实习机制。过去开发一个 GPT-3 规模的行业大模型通常需要 5 个月,而有了这套架构,开发周期缩短至原来的 1/5。同时,许多受限于数据集大小的细分行业(如造飞机)也能拥有专属的大模型支持。
在 AI 算力方面,华为提出了国产化的解决方案,以应对核心设备受限的挑战。
华为昇腾 910 处理器在纸面性能上已达到英伟达 A100 的水平。尽管实际应用中存在一定差距,但昇腾芯片已获得不少友商的认可。华为在发布会上表示,中国一半大模型的算力都是由昇腾提供的。
华为的亮点不仅在于硬件,更在于整个软件生态。包括 AI 昇腾云算力底座、计算框架 CANN 等环节,华为在训练大模型方面的效率达到了业界主流 GPU 的 1.1 倍。此外,华为为用户制定了全套应用套餐,例如美图仅用 30 天就将 70 个模型迁移到了华为生态,AI 性能较原有方案提升了 30%。
目前,华为拥有近 400 万开发者,这一数量正在向英伟达 CUDA 生态对齐。这一系列动作补齐了国产算力生态的短板。
纵观华为在 AI 方面的布局,可以看出其思考的深度。任正非曾指出,人工智能软件平台公司对人类社会的直接贡献可能不到 2%,98% 都是对工业社会、农业社会的促进。华为的盘古大模型正是这一理念的实践者,它不再局限于生成内容,而是致力于推动传统行业的数字化转型。
随着盘古大模型 3.0 的落地以及国产算力生态的完善,AI 领域真正的大时代正在到来。未来,更多像气象、医药、制造这样的垂直领域将迎来智能化的变革,技术将更深层次地融入社会生产的各个环节。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online