李沐：大模型发展趋势与创业感悟

综述由AI生成李沐关于大模型趋势的演讲内容。文章首先分析了算力层面的带宽、内存瓶颈及成本趋势，指出内存将制约模型上限。其次探讨了模型演进，包括语言模型参数规模主流区间、语音模型的低延迟优势、图像视频生成的现状及多模态整合方向。接着讨论了应用落地，区分了白领与蓝领工作的自动化难度，并指出杀手级应用尚在探索。最后分享了创业感悟，强调后训练是关键技术环节，数据决定模型上限，评估至关重要，且算力成本结构决定了自建与租用的选择策略。整体观点认为大模型技术仍需长期积累，物理世界交互尚需时日。

魔法巫师发布于 2025/2/6更新于 2026/5/3119 浏览

李沐：大模型发展趋势与创业感悟

前言

李沐是上海交通大学计算机科学与工程系本硕校友，曾任亚马逊资深首席科学家、加州大学伯克利分校和斯坦福大学访问助理教授，Marianas Labs 联合创始人，Apache MXNet 创始人之一。目前担任 BosonAI 联合创始人。

8 月 23 日，李沐回到母校上海交大，做了一场关于 LLM（大语言模型）和个人生涯的分享。本文根据现场演讲整理而成，旨在探讨大模型的技术现状、未来趋势以及创业过程中的技术洞察。

一、算力层面：硬件瓶颈与成本分析

1. 带宽：分布式训练的关键

在当前的模型训练中，单机无法完成所有任务，分布式训练成为常态。而分布式训练的核心瓶颈往往在于带宽。目前的带宽标准是一根光纤承载 400 Gigabits，下一代将提升至 800 Gigabits。

英伟达发布的 GB200 系统展示了新的硬件形态。为了应对供电和散热问题，新一代 GPU 服务器采用了更紧凑的机架设计，一个机架位仅能容纳两台机器，但内部集成了 72 块卡。这得益于水冷工艺的引入。相比空气冷却，水的密度更高，带走热量的能力更强，允许芯片更密集地排列。芯片之间通过光纤直接互联，以光速互通，大幅降低了多卡之间的通信延迟。这种'多卡合一'的趋势类似于单核封装到芯片内，现在则是将多卡尽可能压缩在一起，以解决摩尔定律放缓带来的工艺难题。

此外，GPU 与 CPU 之间的 PCIe 通讯也在每几年翻倍，但速度仍慢于片间互联。

2. 内存：制约模型尺寸的上限

内存的重要性甚至超过算力。大模型需要将海量数据压入模型中，导致模型体积达到几百 GB。运行时中间变量也很大，需要大量显存。目前单芯片封装近 192 GB 内存，但这已接近物理极限。由于芯片面积有限，分配给算力和内存的比例存在权衡。未来几年，单芯片 200GB 内存可能成为天花板。这意味着模型大小在一定程度上受限于内存容量，而非单纯的算力不足。如果内存不够，模型就无法做大，效率会急剧下降。

在这一领域，虽然英伟达领先，但 AMD 和 Google TPU 在某些方面具有竞争力。

3. 算力：长期趋势与性价比

机器学习优化了浮点数精度（如 4 位浮点数），使得硬件变小且利用率提高。然而，随着模型增大，供电成为主要问题。数据中心曾考虑自建电厂，因为大规模芯片集群的耗电量巨大。单个芯片功耗可达一千瓦，千卡集群即兆瓦级。

从市场角度看，理论上算力翻倍价格应保持不变。但由于英伟达的垄断，短期算力翻倍价格可能提升 1.4 倍。长期来看，随着竞争加剧和摩尔定律发挥作用，算力成本会逐渐降低。因此，今天训练的模型一年后价值可能减半。大模型并非高性价比投资，需关注其长期保值能力和实际业务价值。

二、模型演进：从单一模态到多模态

1. 语言模型：参数规模的主流区间

预训练通常使用 10T 到 50T Token 的数据量。人类历史数据的多样性和质量在此规模下已趋于饱和，继续增加数据未必带来显著提升。因此，主流模型参数规模预计在 100B 到 500B 之间。超过 500B 的稠密模型在 Serving（服务部署）阶段面临极大困难，谷歌历史上未上线过有效大小超过 500B 的模型。MoE（混合专家）架构除外，其激活参数量仍可控制在 500B 左右。受限于内存和数据规模，100B 至 500B 将是未来一段时间的主流。

2. 语音模型：低延迟与丰富信息

GPT-4o 等模型推动了端到端语音技术的发展。传统流程是 ASR 转文本 -> 语言模型生成 -> TTS 转语音，延迟较高。新架构允许原始语音信号直接输入并输出，保留了情绪、语调、方言及背景音等信息。这不仅提升了交互的自然度，还将延迟降低至 300 毫秒以内，支持打断式对话，更接近真人交流。此外，文本指令可定制化控制声音风格。

3. 图像与视频模型

图像生成是目前 AIGC 领域最成熟的方向，像素级细节已非常逼真，正在逐步获得'灵魂'。视频生成尚处早期，Sora 展示了潜力，但通用视频生成成本高昂，且保持时间一致性极具挑战。开源模型较少，主要受限于数据处理成本。

4. 多模态整合

多模态趋势在于利用文本丰富的信息和易获取性，将技能泛化到图片、视频和声音。通过文本指令即可控制其他模态的输出，降低了专业工具门槛。人机交互方式将从点击操作转向自然语言描述，用户愿意输入长文本或语音来完成复杂任务。

三、应用落地：变革世界的距离

1. 白领工作辅助

文科白领（写作、沟通）是 AI 最先渗透的领域，个人助理、呼叫中心、文本处理等场景已完成大部分自动化。工科白领（编程）方面，AI 可自动检索代码片段并修改变量，但处理复杂逻辑仍需人工介入。目前 AI 尚未完全取代程序员一小时的工作量。

2. 蓝领工作与物理世界

蓝领工作（端盘、运货）最难实现自动化。除自动驾驶外，机器人进入非结构化环境理解物体极其困难。这需要大量传感器数据和泛化能力，存在'鸡生蛋'的数据困境。除非有技术突破，否则 AI 理解并互动物理世界可能需要至少 5 年。

李沐：大模型发展趋势与创业感悟

李沐：大模型发展趋势与创业感悟

前言

一、算力层面：硬件瓶颈与成本分析

1. 带宽：分布式训练的关键

2. 内存：制约模型尺寸的上限

3. 算力：长期趋势与性价比

二、模型演进：从单一模态到多模态

1. 语言模型：参数规模的主流区间

2. 语音模型：低延迟与丰富信息

3. 图像与视频模型

4. 多模态整合

三、应用落地：变革世界的距离

1. 白领工作辅助

2. 蓝领工作与物理世界

更多推荐文章

相关免费在线工具

3. Killer App 的缺失

四、创业感悟与技术洞察

1. 预训练与后训练

2. 垂直模型与通用知识

3. 评估的重要性

4. 数据决定上限

5. 算力成本结构

结语

更多推荐文章

相关免费在线工具

李沐：大模型发展趋势与创业感悟

李沐：大模型发展趋势与创业感悟

前言

一、算力层面：硬件瓶颈与成本分析

1. 带宽：分布式训练的关键

2. 内存：制约模型尺寸的上限

3. 算力：长期趋势与性价比

二、模型演进：从单一模态到多模态

1. 语言模型：参数规模的主流区间

2. 语音模型：低延迟与丰富信息

3. 图像与视频模型

4. 多模态整合

三、应用落地：变革世界的距离

1. 白领工作辅助

2. 蓝领工作与物理世界

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. Killer App 的缺失

四、创业感悟与技术洞察

1. 预训练与后训练

2. 垂直模型与通用知识

3. 评估的重要性

4. 数据决定上限

5. 算力成本结构

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具