猛裁1.6万人后,网站再崩6小时、一周4次重大事故!官方“紧急复盘”:跟裁员无关,也不是AI写代码的锅

猛裁1.6万人后,网站再崩6小时、一周4次重大事故!官方“紧急复盘”:跟裁员无关,也不是AI写代码的锅

整理 | 郑丽媛

出品 | ZEEKLOG(ID:ZEEKLOGnews)

过去几年里,科技公司几乎都在同一件事上加速:让 AI 参与写代码。

从自动补全、自动生成函数,到直接修改系统配置,生成式 AI 已经逐渐走进真实生产环境。但最近发生在亚马逊的一连串事故,却给整个行业泼了一盆冷水——当 AI 开始真正参与生产环境开发时,事情可能远比想象复杂。

最近,多家媒体披露,本周二亚马逊内部紧急召开了一场工程“深度复盘(deep dive)”会议,专门讨论最近频繁出现的系统故障——其中,一个被反复提及的关键词是:AI 辅助代码。

一周 4 次严重事故,亚马逊内部紧急复盘

事情的起点,是最近一段时间亚马逊系统稳定性明显下降。

负责亚马逊网站技术架构的高级副总裁 Dave Treadwell 在一封内部邮件中坦言:“各位,正如大家可能已经知道的,最近网站及相关基础设施的可用性确实不太理想。”

为此,公司决定把原本每周例行举行的技术会议 “This Week in Stores Tech”(简称 TWiST) 临时改成一次“深度复盘会议”。通常来说,TWiST 会议对员工是自愿参加的,但这一次,Treadwell 要求工程师尽量全部参加。

这场会议在周二中午 12:30 召开,主要目标只有一个:弄清楚最近这一连串系统故障到底是怎么发生的——Treadwell 在内部邮件中透露,仅仅在一周时间内,公司就发生了 4 起 Sev1 级别事故。

这里解释一下:在亚马逊的事故分级体系中,Sev1 即最高级别事故,通常意味着核心系统宕机或关键功能严重受影响。

也就是说,这已经不是普通的小 Bug,而是直接影响业务运行的大问题。

一次 6 小时宕机,让购物功能几乎瘫痪

其中,最明显的一次事故就发生在上周。

当天,亚马逊网站和购物 App 突然出现大规模故障,持续时间接近 6 小时。在这段时间里,大量用户无法完成商品结算、查看账户信息、查询商品价格……简单来说,整个电商核心流程几乎停摆。

事后,亚马逊对此给出的解释是:这次事故源于一次错误的软件代码部署。不过并没有进一步披露细节,比如是否涉及 AI 生成代码等。

不仅如此,去年 12 月亚马逊云计算部门 AWS 也曾发生一次持续 13 小时的服务中断

根据多家媒体报道,那次事故发生的原因是:工程师允许内部 AI 编程工具 Kiro 修改系统环境,而 AI 在执行任务时选择了一个极端操作——删除并重新创建了整个运行环境。

不过,亚马逊后来回应称,那次问题本质上是人为操作失误,并非 AI 本身造成的。

内部文档曾点名:GenAI 代码变更是事故因素之一

但事实上,据《金融时报》报道,在此次会议的准备材料中,亚马逊的一份内部文档曾提到:过去几个季度,公司出现了一种“事故趋势”,其中一个因素就是“GenAI 工具辅助的代码变更”。

这份文档还指出了一个关键问题:一些新的生成式 AI 使用方式,目前还没有成熟的工程规范和安全防护机制。

不过,根据 CNBC 获得的更新版本文件显示,在亚马逊内部会议开始前,涉及 GenAI 的那一条内容被删除了——知情人士表示,该调整可能与内部信息敏感性有关。

在媒体报道发布后,亚马逊发言人进一步回应称:近期的事故中只有一起与 AI 相关,没有任何事件是 AI 直接编写代码导致的。发言人还强调,这次会议本身只是“常规运营”的一部分:

“TWiST 是零售技术负责人每周举行的例会,我们会在会上评估网站和应用的运行情况,并持续改进系统可用性。”

AI 辅助开发被“加上刹车”

虽然亚马逊试图淡化 AI 的直接责任,但内部仍然决定采取新的工程措施,而最核心的一条规则就是:今后任何 AI 辅助生成的代码修改,都需要更高级别工程师审批。

换句话说:初级工程师可以用 AI 改代码,但不能直接上线,必须由资深工程师签字确认——某种意义上,这相当于给 AI 生成代码增加了一层“人工安全阀”。

但对于这项新规定,一些分析师也提出了担忧。例如,Constellation Research 首席分析师 Chirag Mehta 就表示:“如果每次 AI 改代码都需要高级工程师去逐行审核,那么企业很可能把 AI 带来的效率优势又还回去了。”

而真正的风险也并不是 AI 会犯错,毕竟人类工程师同样会犯错——真正的问题在于:AI 会把错误放大。正如 Info-Tech Research Group 的研究总监 Manish Jain 所说,AI 最大的危险是它压缩了人类干预和纠正问题的时间。

LexisNexis Risk Solutions 的 CISO Flavio Villanustre 给出了一个很形象的比喻:“AI 就像一个非常聪明但没有安全意识的孩子。”在 AI Agent 技术出现之后,软件开发速度已经大幅提升,企业的治理体系却没有同步升级,AI 策略还过于激进。

如果企业直接让这样的系统操作关键基础设施,结果就是:小 Bug 可能瞬间影响大规模系统、修复时间窗口变得更短、事故影响范围更大——因此,虽然“人类审核”会降低效率,但目前看来,这仍是必要的安全措施。

工程师猜测:故障变多可能和大裁员有关?

除了AI工具,一些亚马逊工程师还把最近频发的系统故障指向另一个原因——大裁员。

此前有多名员工表示,由于团队规模大幅缩减,工程团队每天需要处理更多“Sev2”级别事故。亚马逊内部,“Sev2”指的是:需要快速响应,否则可能导致产品服务中断的严重事件。

众所周知,亚马逊在过去几年中确实进行了多轮大规模裁员。最近一次是在今年 1 月,裁掉了约 1.6 万个岗位。不过,亚马逊官方否认裁员与其系统故障有关,并表示系统稳定性评估只是公司的“常规运营流程”。

那么,在你看来,最近亚马逊频发的系统故障是什么原因导致的呢?

参考链接:https://arstechnica.com/ai/2026/03/after-outages-amazon-to-make-senior-engineers-sign-off-on-ai-assisted-changes/

推荐阅读:

一天开13个会、一个Bug要修200天!前亚马逊L7爆料:这轮大裁员,AI只是“背锅侠”

为省5-10美元差点毁库!Claude一条指令删光200万条数据、网站停摆24小时,创始人坦言:全是我的错

全球26w+用户在线「养虾」:OpenClaw这一波泼天流量,到底让谁接住了?

未来没有前后端,只有 AI Agent 工程师。

这场十倍速的变革已至,你的下一步在哪?

4 月 17-18 日,由 ZEEKLOG 与奇点智能研究院联合主办「2026 奇点智能技术大会」将在上海隆重召开,大会聚焦 Agent 系统、世界模型、AI 原生研发等 12 大前沿专题,为你绘制通往未来的认知地图。

成为时代的见证者,更要成为时代的先行者。

奇点智能技术大会上海站,我们不见不散!

Read more

Flutter 组件 http_interop 的适配 鸿蒙Harmony 深度进阶 - 驾驭多级拦截器链、实现鸿蒙端标准化通讯审计与流量路由中继方案

Flutter 组件 http_interop 的适配 鸿蒙Harmony 深度进阶 - 驾驭多级拦截器链、实现鸿蒙端标准化通讯审计与流量路由中继方案

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 http_interop 的适配 鸿蒙Harmony 深度进阶 - 驾驭多级拦截器链、实现鸿蒙端标准化通讯审计与流量路由中继方案 前言 在之前的内容中,我们揭示了 http_interop 在鸿蒙(OpenHarmony)生态中实现各路 HTTP 客户端标准化解耦的基础实战。但在真正的“分布式金融网关”、“跨国资产镜像同步”以及“由于多三方 SDK 冲突引起的流量审计”场景中。简单的 Client 转换往往不足以应对日益复杂的治理需求。面对一个需要在大规模 HAP 插件体系中,根据请求的物理区域自动将流量路由到不同的中继节点(Proxy Relay),并且要求对每一个报文执行“非破坏性”的数据签名与敏感字段脱敏的高阶需求。如果缺乏一套严密的拦截器逻辑链与流量分级分发机制。不仅会导致全网通讯效率的断崖式下降,更会因为无法实现对“影子流量(Shadow

By Ne0inhk
Flutter for OpenHarmony:dart_console 打造炫酷命令行界面,绘制表格、控制光标与进度条(CLI 交互库) 深度解析与鸿蒙适配指南

Flutter for OpenHarmony:dart_console 打造炫酷命令行界面,绘制表格、控制光标与进度条(CLI 交互库) 深度解析与鸿蒙适配指南

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net 前言 虽然 Flutter 主要用于 GUI 开发,但 Dart 也是一门优秀的脚本语言。如果你想写一些命令行工具(如 flutter clean 的替代品,或者 CI/CD 助手),干巴巴的黑白输出显然不够友好。 dart_console 是一个强大的纯 Dart 终端控制库,它支持修改前景色/背景色、控制光标移动(重绘)、读取单字符输入(不需要回车)、以及绘制 ASCII 表格和进度条。 在 GUI (图形用户界面) 盛行的今天,CLI (命令行界面) 依然占据着不可动摇的地位。无论是服务器运维、Docker 容器管理、还是 Git

By Ne0inhk
Flutter for OpenHarmony:Flutter 三方库 refena — 新一代响应式状态管理框架在鸿蒙的应用(适配鸿蒙 HarmonyOS Next ohos)

Flutter for OpenHarmony:Flutter 三方库 refena — 新一代响应式状态管理框架在鸿蒙的应用(适配鸿蒙 HarmonyOS Next ohos)

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net。 Flutter for OpenHarmony:Flutter 三方库 refena — 新一代响应式状态管理框架在鸿蒙的应用(适配鸿蒙 HarmonyOS Next ohos) 状态管理一直是 Flutter 开发中讨论最激烈的话题。从 Provider 的简洁、Bloc 的严谨到 Riverpod 的优雅,每一种方案都在试图解决逻辑复用与状态追踪的问题。而在 Flutter for OpenHarmony 生态中,为了追求更极致的性能与代码可读性,Refena 作为一个轻量级、功能完备且具有响应式原生属性的框架,正在受到越来越多资深开发者的关注。 本文将带您领略 refena 的独特魅力,并探讨如何利用它来构建一个健壮的鸿蒙应用架构。 一、为什么在鸿蒙上选择 Refena? 1.1 精准的重绘控制 refena 内部采用高效的图逻辑来跟踪依赖关系,仅在状态真正发生变化时才通知监听的组件,

By Ne0inhk

Flutter 三方库 at_server_status 的鸿蒙化适配指南 - 在鸿蒙系统上构建极致、透明、实时的 @protocol 去中心化身份服务器状态感知与鉴权监控引擎

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 at_server_status 的鸿蒙化适配指南 - 在鸿蒙系统上构建极致、透明、实时的 @protocol 去中心化身份服务器状态感知与鉴权监控引擎 在鸿蒙(OpenHarmony)系统的隐私保护应用、去中心化身份管理工具(基于 @protocol 协议)或需要实时监控全球分布式节点健康状况的场景中,如何判定一个 @sign(电子签名标识)背后的 Root 服务器或 Secondary 服务器是否在线、配置是否由于由于由于由于已就绪?at_server_status 为开发者提供了一套工业级的、基于协议栈的状态审计与自检方案。本文将深入实战其在鸿蒙 Web3 身份安全底座中的应用。 前言 什么是 atServer Status?它是 @protocol(一种旨在让用户完全掌控数据的去中心化协议)官方生态的核心组件。

By Ne0inhk