[新闻简报] AWS又挂了?别怪DNS,怪走光的那些老鸟

10月20日,AWS美国东区(US-EAST-1)发生大规模宕机,DynamoDB服务崩溃,导致大半个互联网跟着瘫痪。问题不只是DNS解析故障,而是累积已久的人才断层。这不是单一技术故障,而是一场组织能力崩溃的预演。

为什么重要

AWS是全球最关键的云基础设施提供商之一,支撑着金融、电商、政府、社交等各类高依赖系统。这类基础设施一旦失灵,不只是网站打不开,更是社会运作的停摆警报。此次事件暴露了AWS在人力结构与知识管理上的隐患,值得所有依赖云平台的企业警惕。

关键点

  • 美西时间凌晨12:11,AWS开始调查US-EAST-1区域异常
  • 1小时后确认DynamoDB请求错误率异常升高
  • 2:01,锁定问题为DNS解析DynamoDB API失败
  • DynamoDB是基础服务,影响波及几乎所有AWS子服务
  • 连带导致银行、政府、社交媒体、Amazon.com等服务中断
  • 前75分钟AWS状态页面仍显示“一切正常”,信息延误严重
  • AWS历来标榜透明通报,此次严重打脸
  • 资深工程师多年持续离职,内部知识传承出现真空
  • 自2022年起Amazon裁员逾2.7万人,AWS亦受影响
  • 内部数据显示“后悔流失率”达69%至81%

大局观

US-EAST-1是AWS流量最大的区域之一,也是全球无数服务的根节点。这次故障虽然技术上归咎于DNS,但实际成因可能是处理问题的能力下降。以前的AWS能在几分钟内定位问题,而现在需要超过75分钟,这种差距背后是组织能力的系统性退化。

他们怎么说

前AWS工程师Justin Garrison(贾斯汀・加里森)在2023年离职时就曾警告,AWS内部的大型事故(LSE)正在增加。他公开表示公司已失去对大规模系统问题的处理能力,如今看来,他的警告正被验证。

言外之意

技术团队的核心价值不只是“聪明”,而是“经验”。资深工程师知道哪些老系统会在关键时刻出事,知道要去哪个冷门子服务里翻日志。这种“部落知识”无法靠SOP文档复制,只能靠长期累积。你裁掉的不是一个人,是十几年的内部系统记忆。

下一步

AWS接下来大概率会说“这是个别事件”,但这类说法对客户来说说服力越来越低。你该问的是:有没有过度依赖AWS单一区域?有没有能力快速迁移?是否需要多云架构来对冲风险?

另外,AWS的高层是否愿意承认,RTO强制复工政策与频繁裁员,正在反噬其核心竞争力?还是继续假装“人员稳定”,直到下一次更大规模的崩溃?

结语

AWS曾以“稳定”闻名,但真正让它稳定的不是技术堆栈,而是那些知道“坑在哪”的工程师。当这些人逐步流失,只剩下一群对系统结构没有深刻理解的新手,出事只是时间问题。这次DNS事件是警钟,不是例外。如果你是AWS客户,现在就该启动自己的故障演练与备援计划。

发表评论