李沐:大模型发展趋势与创业感悟
前言
李沐是上海交通大学计算机科学与工程系本硕校友,曾任亚马逊资深首席科学家、加州大学伯克利分校和斯坦福大学访问助理教授,Marianas Labs 联合创始人,Apache MXNet 创始人之一。目前担任 BosonAI 联合创始人。
8 月 23 日,李沐回到母校上海交大,做了一场关于 LLM(大语言模型)和个人生涯的分享。本文根据现场演讲整理而成,旨在探讨大模型的技术现状、未来趋势以及创业过程中的技术洞察。
一、算力层面:硬件瓶颈与成本分析
1. 带宽:分布式训练的关键
在当前的模型训练中,单机无法完成所有任务,分布式训练成为常态。而分布式训练的核心瓶颈往往在于带宽。目前的带宽标准是一根光纤承载 400 Gigabits,下一代将提升至 800 Gigabits。
英伟达发布的 GB200 系统展示了新的硬件形态。为了应对供电和散热问题,新一代 GPU 服务器采用了更紧凑的机架设计,一个机架位仅能容纳两台机器,但内部集成了 72 块卡。这得益于水冷工艺的引入。相比空气冷却,水的密度更高,带走热量的能力更强,允许芯片更密集地排列。芯片之间通过光纤直接互联,以光速互通,大幅降低了多卡之间的通信延迟。这种'多卡合一'的趋势类似于单核封装到芯片内,现在则是将多卡尽可能压缩在一起,以解决摩尔定律放缓带来的工艺难题。
此外,GPU 与 CPU 之间的 PCIe 通讯也在每几年翻倍,但速度仍慢于片间互联。
2. 内存:制约模型尺寸的上限
内存的重要性甚至超过算力。大模型需要将海量数据压入模型中,导致模型体积达到几百 GB。运行时中间变量也很大,需要大量显存。目前单芯片封装近 192 GB 内存,但这已接近物理极限。由于芯片面积有限,分配给算力和内存的比例存在权衡。未来几年,单芯片 200GB 内存可能成为天花板。这意味着模型大小在一定程度上受限于内存容量,而非单纯的算力不足。如果内存不够,模型就无法做大,效率会急剧下降。
在这一领域,虽然英伟达领先,但 AMD 和 Google TPU 在某些方面具有竞争力。
3. 算力:长期趋势与性价比
机器学习优化了浮点数精度(如 4 位浮点数),使得硬件变小且利用率提高。然而,随着模型增大,供电成为主要问题。数据中心曾考虑自建电厂,因为大规模芯片集群的耗电量巨大。单个芯片功耗可达一千瓦,千卡集群即兆瓦级。
从市场角度看,理论上算力翻倍价格应保持不变。但由于英伟达的垄断,短期算力翻倍价格可能提升 1.4 倍。长期来看,随着竞争加剧和摩尔定律发挥作用,算力成本会逐渐降低。因此,今天训练的模型一年后价值可能减半。大模型并非高性价比投资,需关注其长期保值能力和实际业务价值。
二、模型演进:从单一模态到多模态
1. 语言模型:参数规模的主流区间
预训练通常使用 10T 到 50T Token 的数据量。人类历史数据的多样性和质量在此规模下已趋于饱和,继续增加数据未必带来显著提升。因此,主流模型参数规模预计在 100B 到 500B 之间。超过 500B 的稠密模型在 Serving(服务部署)阶段面临极大困难,谷歌历史上未上线过有效大小超过 500B 的模型。MoE(混合专家)架构除外,其激活参数量仍可控制在 500B 左右。受限于内存和数据规模,100B 至 500B 将是未来一段时间的主流。
2. 语音模型:低延迟与丰富信息
GPT-4o 等模型推动了端到端语音技术的发展。传统流程是 ASR 转文本 -> 语言模型生成 -> TTS 转语音,延迟较高。新架构允许原始语音信号直接输入并输出,保留了情绪、语调、方言及背景音等信息。这不仅提升了交互的自然度,还将延迟降低至 300 毫秒以内,支持打断式对话,更接近真人交流。此外,文本指令可定制化控制声音风格。
3. 图像与视频模型
图像生成是目前 AIGC 领域最成熟的方向,像素级细节已非常逼真,正在逐步获得'灵魂'。视频生成尚处早期,Sora 展示了潜力,但通用视频生成成本高昂,且保持时间一致性极具挑战。开源模型较少,主要受限于数据处理成本。
4. 多模态整合
多模态趋势在于利用文本丰富的信息和易获取性,将技能泛化到图片、视频和声音。通过文本指令即可控制其他模态的输出,降低了专业工具门槛。人机交互方式将从点击操作转向自然语言描述,用户愿意输入长文本或语音来完成复杂任务。
三、应用落地:变革世界的距离
1. 白领工作辅助
文科白领(写作、沟通)是 AI 最先渗透的领域,个人助理、呼叫中心、文本处理等场景已完成大部分自动化。工科白领(编程)方面,AI 可自动检索代码片段并修改变量,但处理复杂逻辑仍需人工介入。目前 AI 尚未完全取代程序员一小时的工作量。
2. 蓝领工作与物理世界
蓝领工作(端盘、运货)最难实现自动化。除自动驾驶外,机器人进入非结构化环境理解物体极其困难。这需要大量传感器数据和泛化能力,存在'鸡生蛋'的数据困境。除非有技术突破,否则 AI 理解并互动物理世界可能需要至少 5 年。


