百度 AI 开发者大会:文心大模型 4.0 工具版发布与开源模型展望
2024 年百度 AI 开发者大会今日在深圳举办。百度创始人、董事长兼首席执行官李彦宏发表了题为《人人都是开发者》的主旨演讲。他认为,大模型和生成式 AI 将彻底改变开发者这个群体。
AI 正在掀起创造力革命
'AI 正在掀起一场创造力革命,未来开发应用就像拍个短视频一样简单,人人都是开发者,人人都是创造者。'
李彦宏指出,未来自然语言将成为新的通用编程语言。只要会说话,就可以成为一名开发者,用自己的创造力改变世界。过去,开发者用代码改变世界;未来,自然语言将成为新的交互界面。
三大开箱即用工具:先进生产力代表
在这场活动上,百度为开发者们准备了三大'开箱即用'的工具,代表了先进生产力:
- 智能体开发工具 AgentBuilder:用于零门槛创建智能体。
- AI 原生应用开发工具 AppBuilder:用于快速构建 AI 原生应用。
- 各种尺寸的模型定制工具 ModelBuilder:用于模型定制与精调。
AgentBuilder:零门槛智能体开发
智能体可能是未来离每个人最近、最主流的大模型使用方式。基于强大的基础模型,智能体可以批量生成,应用在各种各样的场景。
百度升级了文心智能体平台。截至目前,已经有 3 万多个智能体被创建、5 万多名开发者和上万家企业入驻。目标是让每个人、每个组织都成为智能体的开发者,打造国内最完整的智能体生态。
实现这一目标的核心是提供零门槛的智能体开发工具 AgentBuilder。每一个商家、客户都能在百度拥有专属的智能体。整个过程完全不需要编程,通过类似提示词的信息输入,和简单的几步操作调优,就能迅速生成一个智能体,成为 7x24 小时在线的金牌业务员。
现场演示了新加坡旅游局、启德教育和索菲亚三个智能体案例。启德教育智能体上线第一周,成功分发了 155 万次,与用户交互了 5.8 万次,线索转化量直线增长,有效线索的转化成本明显降低。索菲亚商家智能体上线以来,有效线索成本下降了 30%。
AppBuilder:三步开发 AI 原生应用
AppBuilder 是目前最好用的 AI 原生应用开发工具。在 AppBuilder 上面,提前封装和预置了开发 AI 原生应用所需的各种组件和框架,大幅降低开发门槛。
最快只需三步,开发者就可以用自然语言开发出一个 AI 原生应用,并且能够便捷地发布、集成到各种各样的业务环境中。
AppBuilder 拥有两大优势:
- 功能强大:依托文心 4.0 对指令的理解和遵循能力,保证冷启动就能达到不错的水平。依托检索增强技术 RAG,在知识问答等典型场景,问答准确率和友好回复程度都达到了 95% 以上。
- 简单易用:支持开源 SDK,方便二次开发。提供丰富完整的组件工具,包括百度搜索等 AI 能力组件、大模型能力组件、百度独家开放的业务组件等 55 个组件,以及主流场景的第三方 API。
ModelBuilder:高效低价生产模型
ModelBuilder 更适合专业开发者使用,可以根据需求定制任意尺寸的模型,并根据细分场景对模型进一步精调 SFT(Supervised Fine-Tuning),以达到更好的效果。
ModelBuilder 预置了最全面最丰富的大模型,包括 ERNIE3.5 和 ERNIE4.0 旗舰版,以及 Speed、Lite、Tiny 三个轻量级大模型,还有垂直场景模型 Character 和 Functions。总数量达到 77 个,是国内拥有大模型数量最多的开发平台。
文心大模型数据表现与性能提升
会上,李彦宏正式发布了文心大模型 4.0 的工具版。截至目前文心一言用户数已经突破 2 亿。'文心大模型已成为中国最领先、应用最广泛的 AI 基础模型。'
相比一年前,文心大模型的算法训练效率提升到了原来的 5.1 倍,周均训练有效率达到 98.8%,推理性能提升了 105 倍,推理的成本降到了原来的 1%。也就是说,客户原来一天调用 1 万次,同样成本现在一天可以调用 100 万次。
得益于文心大模型的强大,开发者通过文心 4.0 降维裁剪出来的更小尺寸模型,要比直接拿开源模型调出来的模型,同等尺寸下效果明显更好;同等效果下,成本明显更低。
开发 AI 原生应用的三大思路
李彦宏分享了百度根据过去一年实践总结出的开发 AI 原生应用的三个具体思路,这是踩了无数坑、交了高昂学费换来的经验:
1. MoE 架构(Mixture of Experts)
未来大型的 AI 原生应用基本都是 MoE 架构。这里所说的 MoE 不是一般的学术概念,而是大小模型的混用,不依赖一个模型来解决所有问题。例如小度实时互动中,使用小模型 ERNIE Tiny 执行模型路由工作,而性能最好的文心 4.0 则用来执行日程安排等复杂需求。相比全部使用文心大模型的旗舰版,可以实现响应速度提升 2 倍,成本下降 99%。
2. 小模型策略
小模型推理成本低,响应速度快。在一些特定场景中,经过 SFT 精调后的小模型,它的使用效果可以媲美大模型。通过大模型压缩蒸馏出来一个基础模型,然后再用数据去训练,这比从头开始训小模型效果更好,比基于开源模型训出来的模型效果更好、速度更快、成本更低。
3. 智能体机制
智能体包括理解、规划、反思和进化,它让机器像人一样思考和行动,可以自主完成复杂任务,在环境中持续学习、实现自我迭代和进化。在一些复杂系统中,可以让不同的智能体互动,相互协作,更高质量地完成任务。
关于开源模型的观点
李彦宏表示:'大家以前用开源觉得开源便宜,其实在大模型场景下,开源是最贵的。所以开源模型会越来越落后。'
这是因为有了最强大的基础模型文心 4.0,可以根据需要兼顾效果、响应速度、推理成本等各种考虑,裁剪出适合各种场景的更小尺寸模型,并且支持精调和 post pretrain。这样通过降维裁剪出来的模型,比直接拿开源模型调出来的模型,同等尺寸下效果明显更好,同等效果下成本明显更低。
多模态与自动驾驶
面向未来,多模态大模型,或者说文字、图片、语音、视频等多模态的融合,是基础模型非常重要的长期发展方向,是通往 AGI 的必经之路。
视觉大模型最大的应用场景是自动驾驶。百度在这个方向上是最好的,是自动驾驶的全球领导者。基于超过 1 亿公里的、中国复杂城市道路测试里程数据,百度训练出来了 Apollo 视觉感知大模型。它具备检测、跟踪、理解、建图四大基础能力。这让百度拥有了更智能、适应性更强、更安全的自动驾驶方案。
关键技术背景解读
为了帮助开发者更好地理解上述技术趋势,以下对相关核心概念进行补充解读:
检索增强生成 (RAG)
在 AppBuilder 中提到的 RAG 技术,是指通过检索外部知识库来增强大模型的生成内容。这对于解决大模型幻觉问题、更新知识库信息至关重要。通过 RAG,系统可以先从向量数据库中检索相关文档片段,再将其作为上下文提供给大模型,从而生成更准确、更具时效性的回答。
微调 (Fine-tuning) 与蒸馏 (Distillation)
ModelBuilder 中强调的精调 SFT 和蒸馏技术是提升模型性价比的关键。蒸馏是将大模型的知识迁移到小模型的过程,使得小模型能继承大模型的部分能力但推理成本更低。SFT 则是利用特定领域的高质量数据对模型进行监督微调,使其适应特定任务(如作文批改、客服对话),显著提升垂直场景的表现。
智能体 (Agent) 的演进
智能体不仅仅是聊天机器人,它是具备自主决策能力的 AI 实体。一个成熟的 Agent 通常包含感知环境、规划任务、执行动作、反思结果四个闭环步骤。随着 Agent 能力的提升,它将催生出大量新的应用形态,从单一的任务执行者转变为能够协调多个工具和服务的复杂系统管理者。
结语
今天的中国,有 10 亿互联网用户,有强大的基础大模型,有足够多的 AI 应用场景,有全球最完备的产业体系,国家也在大力鼓励和支持'人工智能+'行动。每一个人,每一家企业,只需要充分利用这些工具,就可以释放无限的创造力和生产力。
人人都可以成为开发者,而未来,也必将是一个由开发者一起创造出来的未来!