本周微软 Azure 近 11 小时的故障是由于微软升级 Azure 存储服务的性能更新导致的,微软 Azure 企业副总裁 Jason Zander 解释了这次故障的原因,并对所有受影响的 Azure 用户道歉。
美国太平洋时间 11 月 18 日晚,美国、欧洲和亚洲部分 Azure 用户存储和网站服务无法访问,也影响到了部分 Xbox LIVE 用户无法联机,包括微软 MSN.com 网站、Visual Studio Online 和搜索也得到了影响。更糟糕的是,Azure 服务健康状态和 Azure 管理门户都依赖于 Azure 存储服务,这两款服务都没有正确地显示 Azure 故障状态 – Azure 故障的时候,服务状态却显示为正常。
尽管微软已经测试了几周这次的 Azure 存储服务的性能更新,但直到微软部署到 Azure 上才意识到“无限循环”的问题。微软在发现问题后,立刻回滚了更新,但仍需要重启存储前端来彻底恢复。根据官方故障报告,“这次故障已经被大范围扩散,由于操作失误更新在短时间内快速部署到了大部分数据中心,通常这一生产环境的部署是渐进部署的”。
Jason Zander 也承诺尽可能避免再出现此类故障:
- 确保部署工具使用渐进式部署
- 改进恢复方式来最小化恢复时间
- 修复存储前端无限循环 Bug,然后再部署到生产环境
- 改进服务健康状态架构和协议
(via ZDNet)
评论当前被关闭。