10月20日,AWS美国东区(US-EAST-1)发生大规模宕机,DynamoDB服务崩溃,导致大半个互联网跟着瘫痪。问题不只是DNS解析故障,而是累积已久的人才断层。这不是单一技术故障,而是一场组织能力崩溃的预演。
为什么重要
AWS是全球最关键的云基础设施提供商之一,支撑着金融、电商、政府、社交等各类高依赖系统。这类基础设施一旦失灵,不只是网站打不开,更是社会运作的停摆警报。此次事件暴露了AWS在人力结构与知识管理上的隐患,值得所有依赖云平台的企业警惕。
关键点
- 美西时间凌晨12:11,AWS开始调查US-EAST-1区域异常
- 1小时后确认DynamoDB请求错误率异常升高
- 2:01,锁定问题为DNS解析DynamoDB API失败
- DynamoDB是基础服务,影响波及几乎所有AWS子服务
- 连带导致银行、政府、社交媒体、Amazon.com等服务中断
- 前75分钟AWS状态页面仍显示“一切正常”,信息延误严重
- AWS历来标榜透明通报,此次严重打脸
- 资深工程师多年持续离职,内部知识传承出现真空
- 自2022年起Amazon裁员逾2.7万人,AWS亦受影响
- 内部数据显示“后悔流失率”达69%至81%
大局观
US-EAST-1是AWS流量最大的区域之一,也是全球无数服务的根节点。这次故障虽然技术上归咎于DNS,但实际成因可能是处理问题的能力下降。以前的AWS能在几分钟内定位问题,而现在需要超过75分钟,这种差距背后是组织能力的系统性退化。
他们怎么说
前AWS工程师Justin Garrison(贾斯汀・加里森)在2023年离职时就曾警告,AWS内部的大型事故(LSE)正在增加。他公开表示公司已失去对大规模系统问题的处理能力,如今看来,他的警告正被验证。
言外之意
技术团队的核心价值不只是“聪明”,而是“经验”。资深工程师知道哪些老系统会在关键时刻出事,知道要去哪个冷门子服务里翻日志。这种“部落知识”无法靠SOP文档复制,只能靠长期累积。你裁掉的不是一个人,是十几年的内部系统记忆。
下一步
AWS接下来大概率会说“这是个别事件”,但这类说法对客户来说说服力越来越低。你该问的是:有没有过度依赖AWS单一区域?有没有能力快速迁移?是否需要多云架构来对冲风险?
另外,AWS的高层是否愿意承认,RTO强制复工政策与频繁裁员,正在反噬其核心竞争力?还是继续假装“人员稳定”,直到下一次更大规模的崩溃?
结语
AWS曾以“稳定”闻名,但真正让它稳定的不是技术堆栈,而是那些知道“坑在哪”的工程师。当这些人逐步流失,只剩下一群对系统结构没有深刻理解的新手,出事只是时间问题。这次DNS事件是警钟,不是例外。如果你是AWS客户,现在就该启动自己的故障演练与备援计划。