AWS又挂了？别怪DNS，怪走光的那些老鸟

10月20日，AWS美国东区（US-EAST-1）发生大规模宕机，DynamoDB服务崩溃，导致大半个互联网跟着瘫痪。问题不只是DNS解析故障，而是累积已久的人才断层。这不是单一技术故障，而是一场组织能力崩溃的预演。

Table of Contents

为什么重要

AWS是全球最关键的云基础设施提供商之一，支撑着金融、电商、政府、社交等各类高依赖系统。这类基础设施一旦失灵，不只是网站打不开，更是社会运作的停摆警报。此次事件暴露了AWS在人力结构与知识管理上的隐患，值得所有依赖云平台的企业警惕。

US-EAST-1是AWS流量最大的区域之一，也是全球无数服务的根节点。这次故障虽然技术上归咎于DNS，但实际成因可能是处理问题的能力下降。以前的AWS能在几分钟内定位问题，而现在需要超过75分钟，这种差距背后是组织能力的系统性退化。

前AWS工程师Justin Garrison（贾斯汀・加里森）在2023年离职时就曾警告，AWS内部的大型事故（LSE）正在增加。他公开表示公司已失去对大规模系统问题的处理能力，如今看来，他的警告正被验证。

技术团队的核心价值不只是“聪明”，而是“经验”。资深工程师知道哪些老系统会在关键时刻出事，知道要去哪个冷门子服务里翻日志。这种“部落知识”无法靠SOP文档复制，只能靠长期累积。你裁掉的不是一个人，是十几年的内部系统记忆。

AWS接下来大概率会说“这是个别事件”，但这类说法对客户来说说服力越来越低。你该问的是：有没有过度依赖AWS单一区域？有没有能力快速迁移？是否需要多云架构来对冲风险？

另外，AWS的高层是否愿意承认，RTO强制复工政策与频繁裁员，正在反噬其核心竞争力？还是继续假装“人员稳定”，直到下一次更大规模的崩溃？

AWS曾以“稳定”闻名，但真正让它稳定的不是技术堆栈，而是那些知道“坑在哪”的工程师。当这些人逐步流失，只剩下一群对系统结构没有深刻理解的新手，出事只是时间问题。这次DNS事件是警钟，不是例外。如果你是AWS客户，现在就该启动自己的故障演练与备援计划。