admin管理员组文章数量:1536059
2024年6月10日发(作者:)
容灾需求:
三大风险:数据丢失、数据破坏、业务中断。每小时业务中断导致损失以百万美元计
法规遵从:金融合规,等保3,安全隔离,两地三中心,高业务连续性
IT运维:系统容灾,有备无患,简化IT运维工作,避免突出事件冲击
容灾挑战:
昂贵的投入
高CAPEX:服务器、存储、软件等基础架构购置成本高;机房等基建费用高
高OPEX:专业运维支撑(实施/培训/现场支持);水、电等资源长期投入
繁琐的管理
设备众多,管理不统一:存储介质、服务器、网络管理界面独立,工作流复杂,效率低
下
扩容复杂:容量不足,需自行扩容,上线周期长
有限的容灾能力
安全性、容灾能力不足:备份数据不出数据中心,基础设施故障易导致极端状况
敏捷性不足:灾难恢复,数据共享等能力受数据物理位置限制。应用与数据无法分离,无
法构建敏捷应用与更好容灾特性
HA: High Availability,高可用性
HA:是指提供在本地系统单个组件故障情况下,能继续访问应用的能力。无论这个故障是业务
流程、物理设施、IT软/硬件的故障
最好的高可用性就是数据中心的一台机器宕机了,但是使用该数据中心服务的用户完全
感觉不到。但一般数据中心的机器宕机了,在该机器上运行的服务故障切换(failover)一般都需要时
间,从而导致客户会有感知
HA 的关键指标是可用性,其计算公式是[ 1 - (宕机时间)/(宕机时间 + 运行时间)],我们
常常用几个 9 表示可用性:
4 个9 : 99.99% = 0.01% * 365 * 24 * 60 = 52.56 分钟/年
5 个9 : 99.999% = 0.001% * 365 = 5.265 分钟/年
6 个9 : 99.9999% = 0.0001% * 365 = 31秒钟/年的宕机时间
对 HA 来说,往往使用共享存储,这样的话,RPO =0 ;同时往往使用
Active/Active (双活集群) HA 模式来使得 RTO 几乎0,如果使用 Active/Passive 模式的 HA 的
话,则需要将 RTO 减少到最小限度
HA 需要使用冗余的服务器组成集群来运行负载,包括应用和服务。这种冗余性也可以将 HA 分
为两类:
Active/Passive HA:
集群只包括两个节点简称主备。在这种配置下,系统采用主和备用机
器来提供服务,系统只在主设备上提供服务
在主设备故障时,备设备上的服务被启动来替代主设备提供的服务
典型地,可以采用 CRM 软件比如 Pacemaker 来控制主备设备之间的切
换,并提供一个虚机 IP 来提供服务
Active/Active HA
集群只包括两个节点时简称双活,包括多节点时成为多主(Multi-
master)
在这种配置下,系统在集群内所有服务器上运行同样的负载
以数据库为例,对一个实例的更新,会被同步到所有
实例上
这种配置下往往采用负载均衡软件比如 HAProxy 来提供服务的
虚拟 IP
Pacemaker:集群管理器。它利用首选集群基础设施(OpenAIS 或heartbeat)提供
的消息和成员能力,由辅助节点和系统进行故障检测和回收,实现性群集服务(亦称资源)的高可用性。
CRM:集群资源管理
HAProxy:是一个使用C语言编写的自由及开放源代码软件,其提供高可用性、负载
均衡,以及基于TCP和HTTP的应用程序代理。HAProxy特别适用于那些负载特大的web站点,这些站点
通常又需要会话保持或七层处理
什么是容灾?
灾难(Disaster):是由于人为或自然的原因,造成一个数据中心内的信息系统运行严重
故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件,通常
导致信息系统需要切换到备用场地运行
灾难恢复(Disaster Recovery)是指当灾难破坏生产中心时在不同地点的数据中心内恢复
数据、应用或者业务的能力
容灾:是指除了生产站点以外,用户另外建立的冗余站点,当灾难发生,生产站点受到破坏
时,冗余站点可以接管用户正常的业务,达到业务不间断的目的。为了达到更高的可用性,许多用户甚至
建立多个冗余站点
HA 和 DR 的关系:两者相互关联,互相补充,互有交叉,同时又有显著的区别
维度
HA(High Availability) DR(Disaster Recovery)
场景
HA 是指本地的高可用系统,表示在多个服务器运行
DR 是指异地(同城或者异地)的高可用
一个或多种应用的情况下,应确保任意服务器出现
任何故障时,其运行的应用不能中断,应用程序和
系统应能迅速切换到其它服务器上运行,即本地系
统集群和热备份。
系统,表示在灾害发生时,数据、应用以
及业务的恢复能力。
存储
HA 往往是用共享存储,因此往往不会有数据丢失异地灾备的数据灾备部分是使用数据复
(RPO = 0),更多的是切换时间长度考虑即 RTO。 制,根据使用的不同数据复制技术(同
步、异步),数据往往有损失导致
RPO >0;而异地的应用切换往往需要更长
的时间,这样 RTO >0。
故障
主要处理单组件的故障导致负载在集群内的服务器
之间的切换
应对大规模的故障导致负载在数据中心之
间做切换
网络 LAN 尺度的任务是 HA 的范畴 WAN 尺度的任务是 DR 的范围
版权声明:本文标题:容灾方案技术 华为存储HCIA 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/shuma/1717984355a631211.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论