admin管理员组

文章数量:1531658

2024年5月22日发(作者:)

宕机是什么意思

服务器崩溃宕机是IT行业术语,宕为英文down的音译。所谓

宕机,是指网络空间的信息系统无法提供正常服务,出现卡顿

甚至“停摆”现象,用户的直接体验就是系统长时间无响应,

比如无法正常访问、搜索无响应、无法发帖等。

造成系统宕机的因素有很多,比如机房供电故障、服务器硬件

崩溃、系统处理能力不足、遭受网络攻击等。突发热点事件引

发服务器宕机事件,通常是由于瞬间访问量暴增,导致后台服

务器不堪重负,只好“一宕了之”。

宕机并不合理,但宕机却无法100%避免。这里面有运营商的

锅、设备商的锅、运维误操作的锅、软件平台bug的锅、台风

地震雷击的锅........一锅又一锅,总有躲不过去的锅。

那如何尽可能的预防宕机呢?还要从以下几方面说起:

一.云厂商技术上的完善

即增强云服务的可靠性和业务连续性。这两项一直是用户非常

重视的指标,云服务器宕机1分钟,对于云服务提供商来说是

一次运维故障,但对企业而言,或许意味着客户的流失甚至破

产,特别是不可逆的故障不是云服务提供商赔偿就能挽回的。

因此云厂商对于服务可靠性的要求还是远远不够的。

二.根据自身特点选择云灾备和云保险服务

尽量在经济和人员条件可行的情况下使用这些分散风险,如果

故障只出现在一个服务器集群,如果采用异地灾备的方案,就

可以在最快时间切换到另一个集群下,保持系统可用;云保险

则是企业的最后一道保障。

三.增强用云规范意识

为避免由于人员的误操作或者相关人员操作不规范造成的宕机

事故,相关企业和政府机构应加强技术人员的培训和灾备意识

的建立,企业的IT人员日常应做到异机备份、数据容灾、业

务双活、定期对灾备和双活进行演练等,尽可能避免云故障带

来的损失。

前段时间,大规模的云服务器宕机故障占领了热搜与程序员们

的朋友圈,一大拨程序员、运维专员都从睡梦中被叫醒跑去办

公室干活。除了加班的程序员们,其他受到影响的各种应用使

用者们也是一头雾水。

有网友称,疑似阿里云华北2部分机器故障,怀疑是磁盘问

题,部分硬盘无法访问,凡是会读写故障盘的系统软件或服务

程序,都会收到影响。

▎随后阿里云官方回应道:

华北2地域可用区C部分ECS服务器等实例出现IO HANG,经

紧急排查处理后逐步恢复。目前我们已经全面排查其他地域及

可用区,未发现此类情况。

那么问题来了,IO HANG是个什么鬼?

简单的说,就是服务器磁盘读写过慢,导致线程和进程挂起。

大量读写线程/进程挂起导致服务器宕机...

阿里云有大量的类似RDS,HybridDB数据库,支持海量数据在

线事务(OLTP)和在线分析(OLAP),需要大量的IO读写,

而Linux的IO性能将直接影响SQL的执行速度,严重情况下

将导致服务器卡死和宕机。

小到网页加载卡顿,传不了邮件,大到网站,app崩溃,业务

停摆。说了这么多,到底什么是宕机?

本文标签: 故障服务器灾备人员服务