从 Kimi 宕机事件看大模型技术现状与挑战
3 月 21 日上午,一条新闻迅速成为行业焦点:《突发!Kimi 崩了》。一时间,大量用户和开发者纷纷关注这一现象,探讨 Kimi 是什么、为何会宕机以及这背后反映了什么行业趋势。
Kimi 服务器宕机引发关注,揭示大模型在超长上下文处理上的挑战。文章解析大模型定义、分类及生成式 AI 原理,探讨百模大战中的长文本竞争与技术瓶颈。分析开源生态与算力成本对商业化的影响,并结合海尔等案例说明工业落地应用。最后展望大模型在提升生产效率及未来技术演进中的关键作用,强调掌握 AI 能力对个人竞争力的重要性。

3 月 21 日上午,一条新闻迅速成为行业焦点:《突发!Kimi 崩了》。一时间,大量用户和开发者纷纷关注这一现象,探讨 Kimi 是什么、为何会宕机以及这背后反映了什么行业趋势。

Kimi(全称 Kimi Chat 或 Kimi 智能助手)是由通用人工智能创业公司'月之暗面'推出的对话式 AI 助手产品。它基于自研的千亿参数大模型构建。3 月 18 日,Kimi 宣布支持 200 万字超长对话上下文。这一功能吸引了海量用户试用,导致服务器负载激增,最终在 3 月 21 日引发服务器宕机。不过,公司很快实施了一系列应急扩容措施,服务器当天即恢复正常运行。
超长对话上下文一直是 Kimi 的核心特色。2023 年 10 月上线之初,Kimi 即可处理高达 20 万字的中文输入,进行内容概括和要点总结。除了帮助用户整理材料,只要资料足够,Kimi 还能扮演该领域的初级专家角色。例如,它可以'吃下'80 集的《甄嬛传》剧本,以'嬛学家'的身份回答观众提问;官方甚至声称若提供一本近百万字的中医诊疗手册,Kimi 就能针对症状给出诊疗建议。
截至 3 月 25 日,月之暗面股东之一九安医疗股价最大累计涨幅达 31.63%,相关概念股也显著波动。大模型产品的每一次迭代都引发了资本的强烈关注。
Kimi 之所以火爆,根源在于大模型技术的突破。大模型是一种生成式人工智能的具体应用。生成式人工智能的目标是创建新的内容和想法,包括文章、对话、图片、视频和音乐等。但它并非凭空'想象',而是通过算法'学习'大量数据,经过不断的反馈、调整、训练,最终从中总结出规律和模式,再利用这些规律来生成内容。
因为需要的数据量特别巨大,这些规律和模式被称为大模型。一个训练好的大模型,可以通过继续投喂新的数据、采用新的训练方法等进行升级换代。例如 GPT 家族就有从 GPT-1、GPT-2 到如今的 GPT-4 的一系列大模型演进。
现代大语言模型主要基于 Transformer 架构。Transformer 引入了自注意力机制(Self-Attention),使得模型能够并行处理序列数据,并捕捉长距离依赖关系。训练过程通常分为预训练(Pre-training)和微调(Fine-tuning)两个阶段。
专注于处理文字、生成文字的大模型称之为大语言模型(LLM)。Kimi 就是一个典型的大语言模型产品,其应用场景包括专业学术论文的翻译和理解、辅助分析法律问题、一次性整理几十张发票、快速理解程序开发文档等。
而能处理文字之外的数据类型(如图像、音乐、视频)的大模型叫作多模态大模型。例如不久前引发轰动的文生视频大模型 Sora。还有上海人工智能实验室研发的文生视频大模型'书生·筑梦',这款多模态大模型于 2024 年 2 月亮相,可根据输入的提示词生成有故事性、含多镜头的分钟级视频,具有转场流畅、故事连贯、画质高清等特点。利用'书生·筑梦'等 AI 工具制作的系列动画片《千秋诗颂》已在 CCTV-1 播出。
多模态大模型不仅要处理单一模态的数据对齐,还要解决跨模态的理解与生成问题。例如,在文生图任务中,模型需要理解自然语言描述中的空间关系、颜色属性及物体交互,并将其转化为像素级的视觉表达。这要求模型具备更强的特征提取能力和更复杂的损失函数设计,以确保生成内容的语义一致性和视觉质量。
在当前的数字经济发展浪潮中,大模型技术早已成为产业竞争的焦点。例如在视频处理方面,2023 年时多数产品只能生成 3-4 秒的视频,质量参差不齐;仅仅几个月后,2024 年初 OpenAI 研发的 Sora 展示了惊人的能力,能生成长达 60 秒的高质量视频;不久之后,Pika 推出了 Lip Sync 功能,让视频角色的口型与音频同步。最近,OpenAI 与好莱坞已在计划合作,让大模型进军电影行业。
由 Kimi 掀起的'超长文本'之战也开始燎原:
厂商对长文本的'疯狂'绝不只是数字上的竞赛。长文本技术能够推动大模型更深层次的产业落地,可以在金融、司法、科研等精艰深的领域里,全篇连贯地理解上下文,满足理解和问答的需求。市场需求的求'长'若渴,促使企业加速技术研发和应用创新。
但输入文本越长就越好吗?也不见得。大模型作为全新的、发展中的技术,自身具有很大的不确定性。早在 2023 年中,斯坦福大学和加州伯克利大学以及 Samaya 的研究员,就在一篇题为'中途迷失:语言模型的长·上下文利用之道'的论文中提出:文本长度作为输出效果的一项指标,并不是越长模型效果就越好。例如,当能回答用户问题的文字段落位于长文本中间部分的时候,大语言模型更难准确识别、理解。
这主要归因于标准 Attention 机制的计算复杂度为 $O(N^2)$,随着序列长度 $N$ 的增加,显存占用和计算时间呈平方级增长。虽然 FlashAttention 等优化技术缓解了这一问题,但在处理百万字级别文本时,检索精度和响应速度仍是巨大挑战。此外,信息密度稀释也是一个问题,关键信息可能被淹没在大量无关噪声中。
毋庸置疑,当前大模型产品处于剧烈的迭代和变化中,导致其商业化和相关产业'叫好'胜过'叫座'。例如,在各大厂'卷'起长文本的情况下,Kimi 能够提供的长文本处理能力,通义千问、360 智脑等竞争对手也能够提供,当大厂不收费,Kimi 也很难赚到钱。
开源生态也挑战着大模型商业生态的形成。许多领先的大模型如 GPT-3、BERT、Transformer 等,核心技术和架构都是开源的。训练和评估大模型的数据集和工具也是开源的,任何企业都可以用自己的数据去训练自己的大模型。在这种生态下要形成有竞争力的商业产品无疑更难。
另一方面,大模型训练需要强大的算力支撑,成本极高。例如,OpenAI 的语言模型 GPT-3 训练过程中的成本达数百万美元。如果一个大模型不能快速商业化,形成赢利闭环,则不要说投入的钱是否能收回来,后续研发资金也成问题。从投入产出比来说,目前大模型的应用总体还在'烧钱'的阶段。
训练一个千亿参数级别的模型,通常需要数万张 A100/H100 GPU 集群。假设每台 GPU 价格为 3 万美元,加上电力、冷却、网络带宽及运维人员成本,单次训练费用可能高达数千万人民币。对于初创公司而言,这种门槛极高。因此,许多企业选择基于开源基座模型进行垂直领域微调,以降低研发成本和缩短上市周期。
目前可见的商业应用模式,主要还是将大模型嵌入已有服务或平台的组成部分。例如 2023 年 8 月华为公布的鸿蒙 4 系统的智能助手'小艺',就是首个直接面对消费者的、具有 AI 大模型能力的终端智慧助手。
此外,就特定生产场景定制智能解决方案也是大模型的商业应用模式之一,如文心一言的行业大模型,与各行业企业联手,在通用大模型的基础上学习行业特色数据与知识,建设行业 AI 基础设施,实现降本增效。
在企业数字化转型方面,生成式人工智能是新质生产力应用场景创新的利器,在研发设计规划、生产过程管控、经营管理优化、产品服务优化等环节均有用武之地。2023 年 8 月,海尔集团所属海尔创新设计中心,落地完成了全国首个基于工业设计场景的 AIGC(人工智能生成内容)行业方案。
常规的工业设计程序往往需要众多人力资源的投入和多次的调整优化,周期长、效率低。海尔创新设计中心研发的业界首个集成式虚拟设计师 AI 助手'Co-designer',使概念设计提速 83%,集成式渲染(批量图)提速 89.5%,数字化营销(全场景图)提速 85%。
为了解决大模型幻觉问题和私有数据利用问题,检索增强生成(RAG, Retrieval-Augmented Generation)技术应运而生。RAG 允许模型在回答问题前,先从外部知识库中检索相关信息,再结合检索结果生成答案。这种方式不仅提高了回答的准确性,还保护了企业数据隐私,无需将敏感数据直接用于模型训练。目前,RAG 已成为企业级大模型落地的标配方案。
每一种新兴技术的成长之路都不可避免地伴随着一系列挑战。对于大模型等新兴技术来说,找到更加优化的运用场景是实现其价值转化的关键。这可能要求技术开发者深入理解技术的核心优势和功能,将技术与不同行业、不同领域的实际需求相结合,不拘一格实现转化应用。
未来大模型的发展将聚焦于以下几个方向:
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。但是具体到个人,只能说是:'最先掌握 AI 的人,将会比较晚掌握 AI 的人有竞争优势'。这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI 大模型资料包括 AI 大模型入门学习思维导图、精品 AI 大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
(注:此处原文包含推广信息,已根据清洗规则保留核心观点,去除诱导下载链接)
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。如果你能在 15 天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
大模型技术正处于爆发式增长的前夜。从 Kimi 宕机事件可以看出,高并发下的系统稳定性仍是工程挑战;从百模大战可以看出,技术同质化竞争正在加剧。唯有深耕垂直场景,解决实际痛点,才能在激烈的市场竞争中立于不败之地。对于开发者而言,掌握大模型原理与应用能力,将是未来职业生涯的重要护城河。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online