admin管理员组

文章数量:1531440

2024年7月18日发(作者:)

阿里云炸了

阿里云“炸了”指的是:2022年3月2日23:55分左右,阿里

云疑似出现大规模故障情况,华北相当多互联网公司都炸了,一众

APP和网站陷入瘫痪,一大波程序员、运营和运维人员都赶去公司加

班。晚些时候,阿里云对此作出回应称:华北2地域可用区C部分

ECS实例状态异常,导致该区域众多网站和APP都无法正常使用。

据了解,这不是阿里云第一次出现宕机事故。2018 年 6 月 27

日 16:21 左右,阿里云也曾出现重大技术故障,16:50 分开始陆续

恢复,官方给出的故障时间为 30 分钟左右,恢复时间大概花费一小

时。经过技术复盘,阿里给出的故障原因为工程师团队上线自动化运

维新功能时,执行了一项变更验证操作,该操作在测试环境中未发生

问题,上线后触发未知 bug。本次事故被定义为 S1 级别,即核心业

务重要功能不可用,影响部分用户,造成一定损失。阿里云发布官方

声明,表示“对于这次故障,没有借口,我们不能也不该出现这样的

失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每

一行代码,敬畏每一份托付。”

根据 Gartner 调查,2018 年全球公有云市场整体增长为 21.4%,

以亚马逊 AWS、微软 Azure 和阿里云为首的全球云计算“3A”阵营

占据超七成市场份额。根据 IDC 数据,在中国市场上,阿里云市场

份额相当于第 2 到 9 名的总和。在全球市场,阿里云已超过 Google

和 IBM 的云业务。

据统计,目前 40% 的中国 500 强企业、近一半中国上市公司、

80% 中国科技类公司在使用阿里云,其数据中心也在全球范围内增长。

可见,国内企业对阿里云的依赖程度有多高,这也让单一云平台的绑

定问题受到用户关注。随着国内云计算领域的逐渐成熟,多云或许会

是未来主要的发展趋势,这一点从国外目前的云计算发展变化中便可

窥得一二。根据分析公司 Kentik 发布的一份云相关调查报告,目前

企业更倾向于同时部署两大云服务,也就是多云配对,多云正在快速

发展,可能会逐渐超过混合云部署。国外,目前最常见的云组合是 AWS

和 Azure,但也有客户选择 Google Cloud Platform。根据 Kentik 的

调查,97%的受访者表示所在公司使用 AWS,35%的受访者表示也在

积极使用 Azure,24% 的受访者同时使用 AWS 和 Google Cloud

Platform。

阿里云官网在3月2日凌晨2点37分发布公告称造成本次故障

事件的原因是IO HANG,经紧急排查处理后逐步恢复服务。针对本次

故障,阿里云将根据SLA协议,尽快处理赔偿事宜。

什么是IO HANG:所谓IO HANG,就是云服务器的磁盘无响应,

hang 就是停止响应,IO hang,就是指 I/O(输入/输,Input/Output)

停止响应,或者说 IO 响应变慢了,这意味着输入输出卡住了,无法

使用存储功能,这也就是很多公司反映 APP 卡顿的原因。IO hang 一

般非常的少见。类似的hang故障 还有,系统 hang (系统停止响应

了),数据库 hang 等,一般都是指的磁盘故障。

那么,阿里云提到的根据SLA协议进行赔偿,又是指什么?SLA

(Service-Level Agreement)即为“服务水平协议”或“服务等级

协议”,是国际通行电信服务评估标准,是一种由服务供应商与用户

签署的法律文件,承诺只要用户向服务供应商支付相应费用,就应享

受到服务供应商提供的相应服务。SLA在国外已经广泛应用,在国内,

首先推行的是电信行业,围绕网络维护的关键指标,如电路可用性、

网络性能、服务响应时间、业务提供保证等,进行服务质量、收费标

准及赔付标准的承诺。 SLA以协议的形式详细描述所提供的服务及

未达到服务承诺时的赔付等。

当前,我国全速推进智慧城市建设,物联网与城市政务、环境、

交通以及生活的各类基础设施交融互联,全面感知城市动态。如果别

有用心的黑客组织找到安全漏洞,完全可以通过网络,切断水电、通

信、交通,能源,从而把整个城市攻陷,这是比任何形式的战争成本

都要低,效果却极具毁灭性的“数字灾难”。

本文标签: 故障服务公司城市响应