Hotmail“清空门”故障:100% 数据恢复,及官方详细解释、处理

Hotmail“清空门”故障:100% 数据恢复,及官方详细解释、处理微软官方也终于为元旦期间的 Hotmail“清空门”故障给出了比之前“负载平衡问题”更为详细的解释,来自 Hotmail 团队的 Mike Schackwitz 阐述了故障的原因:

Hotmail 服务器健康度监控中有一种方式是通过自动化测试进行的。我们创建一些不同配置的帐号,然后使用自动化测试进行记录这些帐号,让它们模拟正常用户活动和行为,系统会在遇到错误时告警。我们通过脚本批量创建和删除这些测试帐号,而删除测试帐号的方式是从一组将用户和新邮件指向正确邮箱地址的目录服务器中删除它的记录。

在 12 月 30 日,我们的一个脚本代码意外地将部分真实用户的帐号与测试帐号一并从目录服务器上删除了。但那些受影响用户的邮件和文件夹实际上是没有被删除的,只是他们指向正确邮箱的位置的记录被删除了。当这些用户登录后,系统(因找不到邮箱位置)自动为他们创建了新的邮箱,而新的存储服务器是不包括他们之前的邮件和文件夹的。这也就是为什么这些帐号收到了“欢迎使用 Hotmail”的初始邮件。

根据 Mike Schackwitz 的描述,微软在问题发生之初(12 月 30 日)因不是大范围的故障,而没有重视,直到 1 日才真正把这故障当回事:

我们在 1 月 1 日因持续不断的问题报告而提高了问题优先级,终于在那晚查清了问题的根源。我们第一步是恢复这些用户在目录服务器上的记录项(1 月 2 日早晨),然后又合并了故障发生之初至 1 月 2 日早晨之间的新邮件与旧的邮件。这个过程需要多次执行才能获得所有的帐号和对应的邮件,对于一些用户来说,直到 5 日才完全恢复。我们在 1 月 2 日完成了 16,035 个帐号的合并,并在 5 日完成了剩下 1,320 名用户的合并。

我们在跟进此事的过程中,多次被告知“邮件仍没有完全恢复”,可以确定的是,的确是有用户的 Hotmail 邮箱并不是在第一时间恢复的,但好在是已经恢复了 100% 的邮件数据。不过仍有小例外,对于那些没有在故障发生至完全恢复期间登录自己帐号的用户,任何发至他们帐号的新邮件都将被退回。

为了防止此事的再次发生,Hotmail 团队采取了以下措施:

  • 更新 Hotmail 架构,使用独立的代码路径来创建和删除测试帐号,使测试不再影响到真实用户的邮箱。
  • 提高用户数据丢失问题的优先级,更迅速地采取措施。
  • 更新反馈流程,使 Hotmail 团队能通过论坛更清楚地与受影响用户进行沟通。

微软未对受影响用户作出赔偿。但总的来说,微软在处理此事上做到了透明和坦诚,相信这也是用户所希望的。 🙂

官方公告: What happened in the recent Hotmail outage

直达:微软中国官方商城 - 购买 Surface、Xbox 和配件

谢谢赞赏
4 条评论
  • w.vela

    Microsoft看来对最终用户的重视程度还是不够……

    2011 年 01 月 08 日 3:05 下午 回复

    • leetom

      @w.vela 但是,他在进步,不是么 ;-)

      2011 年 01 月 08 日 10:51 下午

  • 小羿

    -_-||| 用163路过!!

    2011 年 01 月 08 日 4:52 下午 回复

发表评论