微软称 Azure 故障是由 Azure 存储服务升级导致

azure-status

本周微软 Azure 近 11 小时的故障是由于微软升级 Azure 存储服务的性能更新导致的,微软 Azure 企业副总裁 Jason Zander 解释了这次故障的原因,并对所有受影响的 Azure 用户道歉。

美国太平洋时间 11 月 18 日晚,美国、欧洲和亚洲部分 Azure 用户存储和网站服务无法访问,也影响到了部分 Xbox LIVE 用户无法联机,包括微软 MSN.com 网站、Visual Studio Online 和搜索也得到了影响。更糟糕的是,Azure 服务健康状态和 Azure 管理门户都依赖于 Azure 存储服务,这两款服务都没有正确地显示 Azure 故障状态 – Azure 故障的时候,服务状态却显示为正常。

尽管微软已经测试了几周这次的 Azure 存储服务的性能更新,但直到微软部署到 Azure 上才意识到“无限循环”的问题。微软在发现问题后,立刻回滚了更新,但仍需要重启存储前端来彻底恢复。根据官方故障报告,“这次故障已经被大范围扩散,由于操作失误更新在短时间内快速部署到了大部分数据中心,通常这一生产环境的部署是渐进部署的”。

Jason Zander 也承诺尽可能避免再出现此类故障:

  • 确保部署工具使用渐进式部署
  • 改进恢复方式来最小化恢复时间
  • 修复存储前端无限循环 Bug,然后再部署到生产环境
  • 改进服务健康状态架构和协议

(via ZDNet

直达:微软中国官方商城周年庆 - 购买 Surface、Xbox 和配件促销

谢谢赞赏
发表评论