大模型进入加速发展的第二年,技术迭代和竞争更为激烈。文生视频 Sora 世界模拟器、谷歌 Gemini 1.5、Meta 的 V-JEPA 等模型相继推出,Claude3 在能力上超越了 GPT4。OpenAI 的 GPT5 呼之欲出,其创始人不仅自研芯片,还投资了可控核聚变公司,储备未来的关键资源——算力和能源。
在算力紧平衡、数据资源荒即将到来的背景下,面对纷繁复杂、日新月异的变革,本文试图对未来大模型的发展做出预判,供行业参考。
文章分析了大模型行业未来发展的十大关键判断,涵盖基础模型数量收敛、算力需求激增、顶尖人才驱动、开源与闭源博弈、AGI 信仰、应用月活门槛、端侧模型竞争、落地核心价值、一人企业兴起以及技术派与变现派的路线之争。指出算力与人才是核心瓶颈,行业将走向集中化,端侧模型将重塑交互入口,长期主义与技术信仰仍是主流趋势。

大模型进入加速发展的第二年,技术迭代和竞争更为激烈。文生视频 Sora 世界模拟器、谷歌 Gemini 1.5、Meta 的 V-JEPA 等模型相继推出,Claude3 在能力上超越了 GPT4。OpenAI 的 GPT5 呼之欲出,其创始人不仅自研芯片,还投资了可控核聚变公司,储备未来的关键资源——算力和能源。
在算力紧平衡、数据资源荒即将到来的背景下,面对纷繁复杂、日新月异的变革,本文试图对未来大模型的发展做出预判,供行业参考。
据不完全统计,中国有超过 200 个大模型,被称为'百模大战'。但进入 2024 年,随着 Claude3 等基础大模型能力的加速提升,以及 Sora 视频大模型能力的惊人进步,国内一些资源不强的厂商,以及所谓的'套壳'大模型厂商将望而却步。这些厂商无法保证在算力资源、人才密度上的持续跟进,进而放弃在基础大模型领域的投入。行业将呈现几家大厂加 10 家以内明星创业企业同台或联手竞技的格局。
从国外看,大厂加创业公司的模式是行业的突出特点。例如微软和 OpenAI,谷歌和 DeepMind,亚马逊和 Anthropic 的组合。就连过去投资活动并不显著的芯片巨头英伟达,2023 年也投出了 35 个生成式 AI 相关项目,比 2022 年多 6 倍。而且从国外来看,基础大模型领域并未出现百模大战的'盛景',市场集中度正在提高。
近日有媒体报道,AI 问答引擎 Perplexity 的创始人兼首席执行官 Srinivas 在播客中表示:'我试图从 Meta 聘请一位非常资深的研究员,你知道对方怎么回应吗?——等你有了 10000 块 H100 GPU 再来找我。'
虽然只是一则招聘吐槽,但也表明了当前基础大模型训练对算力的巨大需求。在'大力出奇迹'的大模型范式下,算力的多少一定程度上决定了智能的高低。据传 GPT4 训练大概用 2.5 万张 A100,GPT5 训练大约用 5 万张 H100(约等同于 15 万张 A100 的算力)。扎克伯格近期表示,计划今年年底前向英伟达购买 35 万张 H100 芯片,将形成相当于 60 万张 H100 的总算力,训练 Llama 3 大模型,以追赶 GPT5。
反观国内,2023 年前三季度,根据英伟达中国营收推算,中国约新购买了相当于 58 万张 A100 的算力,但还远不如 Meta 一家企业从英伟达获得的算力。美国芯片禁令下,中国无法补充先进算力,导致处于严重被动。国内芯片厂商如华为、海光等,受制于产能问题,供货量距离大模型训练需求尚有较大缺口。同时,相比 CUDA,国内软件生态薄弱,国产 AI 芯片普遍存在适配周期长、成本高、难度大等问题,无形中延长了国产大模型训练周期。
大模型是一个复杂的算法和工程难题,这一轮大模型的发展很大程度上是由顶尖人才驱动的,人才密度和强度至关重要。OpenAI 的三位灵魂人物是 CEO Sam Altman、总裁 Greg Brockman,以及图灵奖得主辛顿的爱徒、首席科学家伊利亚。他们在 OpenAI 成立的前七年间,在无收入的情况下,坚定 AGI 信仰,并持续投入数十亿美元,即便受到无数的不解和嘲讽也保持初心,才造就了 ChatGPT 一鸣惊人的神话。
被寄予厚望的 Claude 模型公司 Anthropic,是由 OpenAI 前研究副总裁 Dario Amodei、GPT3 论文一作 Tom Brown 等人在 2021 年共同创立。创始成员大多为 OpenAI 的核心员工,曾经深度参与过 GPT3、引入人类偏好的强化学习等多项研究。创始成员对于大模型的深刻理解,是 Claude3 今天取得突破性进展的重要原因。
Character.ai 是用户访问量仅次于 GPT 的聊天陪伴应用,这家独角兽虽然只有 22 人,但其创始人 Noam Shazeer 是 Google 的前 200 号员工,在 Google 工作的 17 年中,他参与了 Google 的一系列 AI 项目和研究,是《Attention is All You Need》论文也就是 Transformer 架构的核心作者,以及 Google LaMDA 项目的核心成员。
在开源领域效果和口碑很好的 Mistral,人数也仅有 20 多人,成立于 2023 年 5 月。公司由前 DeepMind、前 Meta 科学家创办而成,具备深厚的技术背景。三位创始人皆具有大模型开发经验,参与过 LLaMA 系列大模型的开发。在基准测试中以 81.2% 超越了谷歌 Gemini Pro、GPT3.5、Meta Llama 2-70B 三款模型,仅次于 GPT4。
开源是软件领域多年来的重要趋势,全球优秀的开发者在各种开源软件上的持续贡献,不仅持续优化软件版本,也造成了各类应用生态的繁荣。可以说,开源对于当今的 IT 技术体系的发展功不可没。
但从 GPT3 开始,OpenAI 选择了闭源的方式,让最领先的大模型的开源之路戛然而止。当前,业界口碑较好的开源大模型基本均处在 GPT3.5 的水平,包括 Meta 的 LLaMA2,Mistral 的 Mistral 8x7B、智谱的 ChatGLM-6B、GLM-130B 等。2 月底,谷歌开源了 Gemma 系列模型,分为 2B 和 7B 两种尺寸,2B 版本可直接在笔记本电脑上运行。近日,马斯克也表示,本周将开源 xAI 自己的大模型 Grok。
对于大模型而言,每一个大版本的迭代都具有很强的代际碾压效应,这导致很多基于 GPT 创业的小公司面临一夜之间倒闭的风险。如读文件的 ChatPDF、明星独角兽 Jasper 等,都被 GPT 的更新所碾压。甚至有行业开发者表示,千万不要基于 OpenAI 做 PaaS,否则必然会被 OpenAI 的下一个版本替代。因此,在原有开源基础模型上做优化的方式,很可能被下一个版本的功能所替代。而且更为重要的是,原有的开源方式更适合做生态,即在底层内核保持相对稳定的基础上,通过开源来实现应用的创新,但受限于算力和算法等,开源生态的开发者没有能力对基础大模型给予能力迭代的贡献,这使得原有集众智的开源模式很难在基础大模型自身的快速演进上复现。
以 OpenAI 为代表的大模型企业对 AGI 的信仰,开始获得了越来越多的认同,Sora 从视频理解到世界模拟器的路径,杨立昆的世界模型构想,都是产业界希望通往 AGI 的努力。
大力出奇迹的范式,在当下证明是最为有效的路径,包括 Sora 的成功,也再次验证了除文字领域,视频领域的 Scaling Law 也同样有效。OpenAI 把 Scaling Law 作为企业的核心理念,其原话为:'We believe that scale-in our models, our systems, ourselves, our processes, and our ambitions-is magic. When in doubt, scale it up'。这意味着规模不仅是数量的堆砌,更是系统性的魔法,需要在模型、系统、人员、流程和野心上全面扩展。
与移动互联网时代的 APP 动辄上亿用户不同,中国 AI 原生 APP 的成长速度并不算快,头部的 APP 也刚刚突破了月活千万的门槛。根据笔者个人的感受,即使是互联网圈,身边的小伙伴也有很多同学没有用过国内的这些 APP,更不论三四线甚至五六线城市。
根据 QuestMobile 2024 生成式 AI 及 AIGC 应用洞察报告,头部 APP 应用去重月活用户突破 5000 万。现阶段头部应用普遍聚焦在文本和图像信息模态生成;豆包、文心一言以月千万活跃用户规模'领跑',其次是天工、扮伴-AI 绘画及讯飞星火。
相比而言,2022 年 9 月至 2023 年 8 月期间,全球排名前 50 的人工智能工具吸引了超过 240 亿次访问。ChatGPT 以 140 亿次访问量领先,占分析流量的 60% 以上。这表明用户习惯的培养需要时间,且头部效应极其明显。
大模型正在向端侧转移,AI 推理将在手机、PC、耳机、音箱、XR、汽车,以及其他可穿戴式新型终端上运行。端侧大模型具有一些独特优势,如本地数据处理效率更高,节省云端服务器带宽和算力成本,对用户数据更好的隐私保护,开启更多交互新方式、新体验等。
未来借助端侧大模型,并结合向量化后的各类个人数据,用户可以跟手机进行更流畅的交互,实现各种原生操作和功能。如小米的 MiLM,VIVO 的蓝心大模型、OPPO 的安第斯、荣耀的魔方等端侧大模型。还有 Humane 推出的 AI Pin,搭载 GPT4,可实现语音交互,也可以投影在手掌上交互。高通推出骁龙 8 Gen3,支持终端侧运行 100 亿参数的模型。苹果最新的 M3 芯片支持端侧推理,且计划推出更智能的 Siri,为端侧大模型生态做积极准备。
但同时,很多端侧大模型的愿景是成为新的手机交互入口,比如只要跟手机助手聊天,就可以帮助点外卖、打车、购物,甚至发短信、发微信等等。如果实现,手机就有可能 OTT 掉大量 APP,使得 APP 沦为后台为手机打工的角色。同时,这也进一步加剧了手机企业在生态内的话语权,让苹果税、鸿蒙税等更为持久和强势。
效率自不必说,大模型仍然是机器提升自动化的逻辑。体验和创造是这一波大模型落地更为特别的驱动力。体验方面,一方面是交互更加友好,从人要去适应机器(无论是学 Dos,还是后来的键盘鼠标输入)到机器来适应人(机器可以理解人的指令、语言甚至动作、姿态、情感)。另一方面,是出现了很多陪伴类的 APP,即提供情绪价值类的原生 APP。在这个过程中,也形成了一些亚文化,比如多推、单推、养崽等行为,以及使用中的脱皮、上皮、下皮等情形。
创造是生成式大模型天然的能力,当前在文字和图片创作、传媒影视、广告、短视频、甚至游戏等领域,已经大量引入 AIGC 的内容。在这些领域,大家一直诟病的模型幻觉问题,也有可能以另外一种创造的方式给人带来更多灵感启发。同时,创造还在 AI4S 领域有更大的想象空间,AI 科学家可能就在不远的未来。例如,谷歌人工智能实验室 DeepMind 开发的深度学习工具'材料探索图形网络'经过 17 天的连续工作,A-Lab 进行了 355 次实验,合成了 58 个拟定化合物中的 41 个,成功率达到了 71%,平均每天产出的新化合物数量在 2 个以上。
随着大模型能力的提升,以及 AI Agent 的发展,个人将有望获得更多的智能化工具支持。畅享未来,一个人可能拥有多个助理来协助工作,此时,对个人领导力和判断力的要求也会大幅提升。
一人企业的趋势,对未来大企业的组织方式也会产生很大的影响。组织内的个人,其角色也会由单一变得更为多元,如一人可以身兼产品经理、工程师、UI 等多角色。企业内也会出现大量的数字员工,数字员工的多少和质量,会成为企业的核心竞争力之一。这将改变传统的雇佣关系和组织架构,推动知识型工作的重新定义。
最近行业访谈的两篇文章,分别访谈了杨植麟和朱啸虎,两人的观点可以说是针锋相对。按照访谈的观点:中国科技界针对大模型的态度已分裂成两股阵营。一股是技术信仰派,他们大多技术出身,认为应该像 OpenAI 一样信仰 AGI、信仰 scaling law(规模定律),思维更偏硅谷。在他们眼中,随着模型能力跃升、模型成本降低,过程中会解锁丰富的应用。倘若不追求'更大更强的 AI 能力',一旦其他人的模型飞跃,很快会降维碾碎现有根据地与护城河。
另一股是市场信仰派,他们信奉陡峭的技术曲线终有放缓的一天,只需将'足够的 AI 能力'投入可以快速变现的商业场景中,用中国市场庞大而独特的数据构筑壁垒。这类人往往在中国丛林式的商场中浸泡更久,思维更偏本土。
这种思维其实反映了很典型的长期主义和实用主义的争论,OpenAI 的成功,为我们坚持长期主义带来了很强的激励。按照奥特曼定律,智能每 18 个月升级的方式,预计到 2026 年,我们将迎来 GPT6 甚至更强的模型。届时,虽然还未达到 AGI,但模型能力已经可以完成大多数人类社会的任务场景,从而变得更有商业价值。
在这个过程中,幻觉率的降低,是需要技术着力解决的问题。如果这个问题长期难以得到解决,会大幅影响行业的落地效果。也许,未来大模型会能够像人一样,会对回答给出一个置信度的概率,让我们知道哪些是仅供参考,哪些是确定性的判断。
大模型时代,企业对人才的需求变了,AIGC 相关岗位人才难求,薪资持续走高。AI 运营薪资平均值约 18457 元,AI 工程师薪资平均值约 37336 元,大模型算法薪资平均值约 39607 元。掌握大模型技术意味着更多的职业可能性,包括成为一名全栈大模型工程师,涵盖 Prompt、LangChain、LoRA 等技术开发、运营、产品方向;能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;薪资上浮 10%-20%,覆盖更多高薪岗位。
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去。这时候可以搞点实战案例来学习。观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;能够利用大模型解决相关实际项目需求;大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。
掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;基于大模型和企业数据 AI 应用开发,实现大模型理论、掌握 GPU 算力、硬件、LangChain 开发框架和项目实战技能,学会 Fine-tuning 垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力。大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online