admin管理员组

文章数量:1536059


2024年6月10日发(作者:)

容灾需求:

三大风险:数据丢失、数据破坏、业务中断。每小时业务中断导致损失以百万美元计

法规遵从:金融合规,等保3,安全隔离,两地三中心,高业务连续性

IT运维:系统容灾,有备无患,简化IT运维工作,避免突出事件冲击

容灾挑战:

昂贵的投入

高CAPEX:服务器、存储、软件等基础架构购置成本高;机房等基建费用高

高OPEX:专业运维支撑(实施/培训/现场支持);水、电等资源长期投入

繁琐的管理

设备众多,管理不统一:存储介质、服务器、网络管理界面独立,工作流复杂,效率低

扩容复杂:容量不足,需自行扩容,上线周期长

有限的容灾能力

安全性、容灾能力不足:备份数据不出数据中心,基础设施故障易导致极端状况

敏捷性不足:灾难恢复,数据共享等能力受数据物理位置限制。应用与数据无法分离,无

法构建敏捷应用与更好容灾特性

HA: High Availability,高可用性

HA:是指提供在本地系统单个组件故障情况下,能继续访问应用的能力。无论这个故障是业务

流程、物理设施、IT软/硬件的故障

最好的高可用性就是数据中心的一台机器宕机了,但是使用该数据中心服务的用户完全

感觉不到。但一般数据中心的机器宕机了,在该机器上运行的服务故障切换(failover)一般都需要时

间,从而导致客户会有感知

HA 的关键指标是可用性,其计算公式是[ 1 - (宕机时间)/(宕机时间 + 运行时间)],我们

常常用几个 9 表示可用性:

4 个9 : 99.99% = 0.01% * 365 * 24 * 60 = 52.56 分钟/年

5 个9 : 99.999% = 0.001% * 365 = 5.265 分钟/年

6 个9 : 99.9999% = 0.0001% * 365 = 31秒钟/年的宕机时间

对 HA 来说,往往使用共享存储,这样的话,RPO =0 ;同时往往使用

Active/Active (双活集群) HA 模式来使得 RTO 几乎0,如果使用 Active/Passive 模式的 HA 的

话,则需要将 RTO 减少到最小限度

HA 需要使用冗余的服务器组成集群来运行负载,包括应用和服务。这种冗余性也可以将 HA 分

为两类:

Active/Passive HA:

集群只包括两个节点简称主备。在这种配置下,系统采用主和备用机

器来提供服务,系统只在主设备上提供服务

在主设备故障时,备设备上的服务被启动来替代主设备提供的服务

典型地,可以采用 CRM 软件比如 Pacemaker 来控制主备设备之间的切

换,并提供一个虚机 IP 来提供服务

Active/Active HA

集群只包括两个节点时简称双活,包括多节点时成为多主(Multi-

master)

在这种配置下,系统在集群内所有服务器上运行同样的负载

以数据库为例,对一个实例的更新,会被同步到所有

实例上

这种配置下往往采用负载均衡软件比如 HAProxy 来提供服务的

虚拟 IP

Pacemaker:集群管理器。它利用首选集群基础设施(OpenAIS 或heartbeat)提供

的消息和成员能力,由辅助节点和系统进行故障检测和回收,实现性群集服务(亦称资源)的高可用性。

CRM:集群资源管理

HAProxy:是一个使用C语言编写的自由及开放源代码软件,其提供高可用性、负载

均衡,以及基于TCP和HTTP的应用程序代理。HAProxy特别适用于那些负载特大的web站点,这些站点

通常又需要会话保持或七层处理

什么是容灾?

灾难(Disaster):是由于人为或自然的原因,造成一个数据中心内的信息系统运行严重

故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件,通常

导致信息系统需要切换到备用场地运行

灾难恢复(Disaster Recovery)是指当灾难破坏生产中心时在不同地点的数据中心内恢复

数据、应用或者业务的能力

容灾:是指除了生产站点以外,用户另外建立的冗余站点,当灾难发生,生产站点受到破坏

时,冗余站点可以接管用户正常的业务,达到业务不间断的目的。为了达到更高的可用性,许多用户甚至

建立多个冗余站点

HA 和 DR 的关系:两者相互关联,互相补充,互有交叉,同时又有显著的区别

维度

HA(High Availability) DR(Disaster Recovery)

场景

HA 是指本地的高可用系统,表示在多个服务器运行

DR 是指异地(同城或者异地)的高可用

一个或多种应用的情况下,应确保任意服务器出现

任何故障时,其运行的应用不能中断,应用程序和

系统应能迅速切换到其它服务器上运行,即本地系

统集群和热备份。

系统,表示在灾害发生时,数据、应用以

及业务的恢复能力。

存储

HA 往往是用共享存储,因此往往不会有数据丢失异地灾备的数据灾备部分是使用数据复

(RPO = 0),更多的是切换时间长度考虑即 RTO。 制,根据使用的不同数据复制技术(同

步、异步),数据往往有损失导致

RPO >0;而异地的应用切换往往需要更长

的时间,这样 RTO >0。

故障

主要处理单组件的故障导致负载在集群内的服务器

之间的切换

应对大规模的故障导致负载在数据中心之

间做切换

网络 LAN 尺度的任务是 HA 的范畴 WAN 尺度的任务是 DR 的范围


本文标签: 数据故障应用业务系统