关注我们: 微信公众号

扫码关注我们

刚刚。。。第二大云、崩了。。。因配置变更。。。

云头条 2025-10-30 25

2025 年 10 月 30 日,微软 Azure 云服务中断,导致包括阿拉斯加航空、Xbox 用户和 Microsoft 365 订阅用户在内的全球客户运营受到影响。

1.png

2.png

3.png

此次事件发生在微软今天的季度财报电话会议前夕。

据微软称,此次中断发生在太平洋时间上午 9 点,当时系统“开始出现 Azure Front Door(AFD)问题,导致部分服务不可用。我们怀疑此次问题的触发事件是意外的配置更改。”

微软称:“我们正在采取多项措施:首先,我们阻止对 AFD 服务进行所有更改,包括客户配置更改。与此同时,我们将 AFD 配置回滚到上次已知正常状态。回滚过程中,我们希望确保有问题的配置在恢复后不会再次启动。”

阿拉斯加航空公司于上午 10 点 33 分在 X 上发帖解释,Azure 中断导致包括其网站功能在内的多个系统受到影响。搭乘阿拉斯加航空和夏威夷航空航班且无法在线办理登机手续的乘客被引导至航空公司工作人员处领取登机牌。

公告称:“对于由此造成的不便,我们深表歉意,感谢您在我们处理此问题期间的耐心等待。”

微软于上午 10 点 51 分发帖称:“我们目前无法给出回滚完成的预计时间,但我们会在 30 分钟内或更早更新发布此公告。”

更新:下午 12 点 22 分,微软发布更新,称已部署受影响系统的“上次已知正常的”配置,客户应该会开始看到改善。

微软补充道:“我们预计将在接下来四个小时内全面解决问题,我们继续恢复节点……我们会在两小时内甚至更早公布最新进展情况。”

上周服务中断数日后,AWS 对那次事件做出了详细解释,称事件是由该公司最关键的系统之一中罕见的软件 bug 引发的一连串故障造成的。此次事件影响了全球各地的网站和在线服务。《AWS 故障报告:DNS 机制失灵「信号灯」灭了

阿拉斯加航空公司将其近期的中断归咎于主数据中心的故障。该公司采用混合基础设施,将自有数据中心与第三方云平台相结合。此次事件导致超过 49000 名乘客的出行受影响。

微软 Azure 公告:

4.png

初步事后分析报告(Preliminary PIR)

我们在此分享目前已知的情况。在完成内部复盘(通常在 14 天内)后,我们将发布最终版 PIR,包含更多细节。

一、事件概述(What happened?)

在 2025 年 10 月 29 日 15:45 UTC 至 10 月 30 日 00:05 UTC 期间,

部分使用 Azure Front Door(AFD) 的客户及微软服务经历了延迟、超时和错误。

受影响的 Azure 服务包括但不限于:

App Service

Azure Active Directory B2C

Azure Communication Services

Azure Databricks

Azure Healthcare APIs

Azure Maps

Azure Portal

Azure SQL Database

Azure Virtual Desktop

Container Registry

Media Services

Microsoft Copilot for Security

Microsoft Defender External Attack Surface Management

Microsoft Entra ID

Microsoft Purview

Microsoft Sentinel

Video Indexer

目前,客户对 AFD 的配置更改仍被临时阻止。解除封锁后我们将通知客户。

尽管错误率和延迟已恢复至事件前水平,但仍有少量客户可能遇到问题,我们正在处理这些“尾部影响”。后续更新将通过 Azure Service Health 发布。

二、根本原因

事件起因是一次无意的租户配置变更,该变更在 Azure Front Door 内部触发了大范围服务中断,影响了依赖 AFD 进行全球内容分发的微软服务和客户应用。

该变更引入了无效或不一致的配置状态,导致大量 AFD 节点无法正确加载,进而引发下游服务的延迟、超时和连接错误。

随着不健康节点退出全局节点池,流量分布在健康节点间变得不平衡,放大了影响,导致即使部分地区仍健康也出现间歇性可用性问题。

我们立即阻止所有新的配置更改以防止错误状态进一步传播,并开始在全球范围内部署“上一次已知的良好配置”。

恢复过程需要在大量节点上重新加载配置,并逐步重新平衡流量,以避免节点恢复时过载。

这种分阶段恢复是为了在确保系统稳定的前提下恢复规模并避免问题复发。

触发根因追溯到租户配置部署流程中的缺陷。

本应阻止错误部署的防护机制因一个软件缺陷而失效,使该部署绕过了安全验证。

我们已审查并立即加强验证与回滚控制机制,以防止未来出现类似问题。

事件响应时间线:

15:45(10/29)客户开始受到影响

16:04 监控警报触发后启动调查

16:15 开始分析 AFD 内部配置变更

16:18 在公开状态页首次发布事件通告

16:20 向受影响客户发送定向通知(Azure Service Health)

17:26 Azure Portal 从 AFD 失效切换

17:30 阻止所有新的客户配置变更,防止进一步影响

17:40 启动“上一次良好配置”的部署流程

18:30 开始在全球范围推送修复配置

18:45 开始手动恢复节点,并逐步将流量路由至健康节点

23:15 PowerApps 移除依赖项并恢复;客户确认问题缓解

00:05(10/30)确认 AFD 影响已对客户完全缓解

微软公布了超预期的 2026 财年第一季度业绩,微软智能云部门(包括 Azure)公布营收达 309 亿美元,同比增长 28%。

云业务仍然是微软增长的主要驱动力,微软已成为 AI 蓬勃发展的主要受益者。上个季度,微软首次以美元计价披露了其 Azure 云基础设施业务的规模。该公司表示,2025 财年 Azure 及其他云服务的营收比上年增长 34%,超过 750 亿美元。

云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。

关键词:

网友留言2

未查询到任何数据!
◎欢迎您留言咨询,请在这里提交您想咨询的内容。