面壁智能 CTO 曾国洋:探索高效大模型与 AGI 之路
每一轮技术浪潮出现时,冲在最前面的都是朝气蓬勃的年轻人。当大模型代表的人工智能浪潮席卷全球,作为移动互联网'原住民'的年轻开发者,可以说是最活跃的群体。他们的脸庞还有些稚嫩,但在技术和方向上有着自己的想法,在火热的 AI 赛道里加速狂奔,努力打下一片新天地。
面壁智能 CTO 曾国洋就是其中的佼佼者,26 岁的年纪管理着清华系明星大模型创业公司的研发团队,坚定地踏上了 AGI 征途。
01. 十多年开发经验的创业公司 CTO
在许多人的印象中,24 岁不过是研究生刚毕业的年纪,刚刚进入职场,扮演的还是'学徒'的角色。但在曾国洋的故事里,24 岁已经作为 CTO 带领着面壁智能的核心技术团队,同时也是一位有着十多年经验的资深开发者。
和 OpenAI 的创始人 Sam Altman 一样,曾国洋在 8 岁就开始学编程。身边的朋友、老师、父母等潜移默化地告诉他:'会写代码'是一件很厉害的事。于是从 Visual Basic 开始,懵懵懂懂地开启了编程之路。
到了中学时,曾国洋已经系统性地接触了 C/C++,喜欢在网上看一些国内外的资料,尝试写出更复杂的程序。因为'写代码'的爱好,曾国洋在高二时先后获得全国青少年信息学竞赛金牌和亚太地区信息学竞赛金牌,并因此被保送到清华,为日后的大模型创业埋下了伏笔。
没有高考压力的曾国洋,在 2015 年的冬令营上了解到旷视正在招实习生,抱着试一试的心态报了名,由此正式步入 AI 领域。
AlphaGo 和李世石的围棋大战,点燃了深度学习的热潮,无数年轻人为之彻夜不眠,曾国洋也不例外。大二期间,在室友的引荐下,曾国洋加入了清华大学 NLP 实验室,误打误撞成为中国最早一批大模型研究员,并在后来成为悟道·文源中文预训练模型团队的骨干成员。
十多年的开发经验,培养了曾国洋的工程化思维和能力,大学毕业时不甘于做象牙塔里的学术派,毅然加入到了大模型浪潮中。
在 OpenAI 发布 GPT-3 的第二年,为了解决大模型'训练难、微调难、应用难'的挑战,曾国洋作为联合发起人创建了 OpenBMB 开源社区,旨在打造大规模预训练语言模型库与相关工具,加速百亿级以上大模型的训练、微调与推理,以降低大模型的使用门槛,实现大模型的标准化、普及化和实用化,让大模型能够飞入千家万户。
清华大学计算机系长聘副教授刘知远在 2022 年牵头创办面壁智能时,曾国洋果断放弃了手里的多个 Offer,担纲这家大模型创业公司的技术 1 号位,完成了从一线开发者到大模型创业公司 CTO 的华丽转身。
02. '高效大模型就是面壁智能'
Scaling Law(扩展定律),被看作是 OpenAI 的核心技术,简单来说,可以通过更复杂的模型、更大的数据量、更多的计算资源,提高模型的性能。前两年,国内外企业都在卷参数量,做到了千亿、万亿,甚至是十万亿,越到后面,但大家渐渐发现参数量更大,不代表模型效果更好。
在曾国洋看来:如果大模型作为实现 AGI 的关键路径,但成本却无比高昂,那么即使实现了 AGI,但 AGI 比人还贵、那也没太大意义,所以要降低模型成本。对于大模型落地来说,效率是个关键的问题,需要控制成本来达到更好的效果,这样才能去扩展大模型的应用边界。
不久前举办的鲲鹏昇腾开发者大会 2024 上,曾国洋在演讲中表示:'面壁智能持续引领高效大模型路线,推动大模型高效训练、快步应用落地,以更快速度,更低成本,提供最优智能实现方案。'
解决高效训练问题
首先要解决的就是高效训练。公开数据显示,OpenAI 训练 GPT-3 的成本约为 430 万美元,到了 GPT-4 已经上涨到 7800 万美元,谷歌 Gemini Ultra 在计算上花费了 1.91 亿美元…比大模型能力更早指数性增长的,居然是大模型的训练成本。
该怎么提升大模型训练效率呢?面壁智能在 2024 年初的一篇论文中提出了思路:如果大模型还未训练出来时就能预测性能大约在什么水平,可以先通过小模型做实验、调参数,再按照相同的数据配比、数调整等方法训练大模型。
其实在 2023 年,面壁智能就已经开始探索高效的 Scaling Law,用小十倍参数模型预测大十倍参数模型的性能,并且取得了不错的成绩:
- 旗舰端侧基座模型 MiniCPM:用 2.4B 的参数量,在性能上越级超越 Mistral-7B、Llama2-13B 乃至更大的全球知名模型;
- 旗舰端侧多模态模型 MiniCPM-V:刷新了开源模型最佳 OCR 表现,部分能力比肩世界级多模态模型标杆 Gemini-Pro 与 GPT-4V;
- 端侧最强多模态模型 MiniCPM-Llama3-V 2.5:超越多模态巨无霸 Gemini Pro、GPT-4V 实现了「以最小参数,撬动最强性能」的最佳平衡点。
'大'并非是唯一选项,小模型也可以实现同样的效果。这种策略不仅降低了硬件门槛,还使得模型能够在资源受限的边缘设备上运行。
部署与端云协同
面壁智能的'高效',不单单体现在训练环节。在部署方面,面壁智能是模型厂商中最早提出'端云协同'的,通过协同推理的方式降低推理部署的成本、时延和能耗,让大模型可以跑在手机、电脑、汽车、音箱等低功耗的芯片上。
以及大模型驱动的群体智能技术体系,包含智能体通用平台 AgentVerse、技术协同同台、应用层面的多智能体协作开发框架 ChatDev,帮助开发者打通大模型落地应用的最后一公里。


