admin管理员组

文章数量:1534198

2024年1月10日发(作者:)

MacroSAN CRAID技术

一、 应用背景

近年来,单块磁盘的容量呈倍数增长的趋势,从过去几百GB到现在主流的3TB、4TB,再到更高的6TB磁盘。据统计,存储系统故障90%以上是磁盘引起,而磁盘中88%是由于逻辑故障引起,12%是磁盘完全物理故障。大容量磁盘在带来较高的性价比的同时,也使得磁盘数据的安全问题愈加突显,在这其中最突出的就是磁盘重建和多磁盘同时出现故障问题。

(原图需修改)

1、磁盘重建:传统RAID方式,一块磁盘出现问题,热备盘会进行替换,然后进行数据重建。以最常用RAID5组为例,一块2TB磁盘在没有数据写入情况下,重建需要20个小时,在有数据写入的情况下,数据重建时间可能需要一周。在数据重建期间,不仅存储设备性能和可靠性会大幅度下降,这个RAID5组中只要再出现一块磁盘损坏,整个RAID5组的数据都会丢失。

2、多磁盘同时物理故障:传统RAID方式,RAID5/6的磁盘利用率较高,但数据丢失风险较大,RAID5只允许坏1块磁盘,RAID6只允许同时坏2块磁盘;相对之下,RAID1/10等安全性较高,但空间使用率只有一半,并且同为镜像的两块磁盘一旦同时出现物理故障,数据同样丢失。

如何解决磁盘所引起的众多问题,是当前存储行业和客户最关注的点之一。

二、 RAID革新技术-CRAID

CRAID1.0技术是在传统技术上的革新,将磁盘细分为数千甚至数万个小单元进行单独管理(也即是Cell)。在每个单元内发生的故障和问题,采用单元替换、屏蔽故障单元方式进行处理,避免对整个磁盘进行数据重建。即便在特殊情况下,被迫将进行全盘数据重建时,CRAID1.0技术也会将健康单元数据提前克隆到新磁盘中,只对个别真正故障单元数据进行校验计算重建,很大程度提高故障磁盘的重建时间,极大地避免多块磁盘连续发生故障导致的数据丢失。

1 / 4

CRAID2.0技术是在CRAID1.0技术基础上,打破了传统RAID技术瓶颈,采用全新算法和三重数据校验机制,在保证数据安全、磁盘空间使用率和性能的前提下,可允许同一个磁盘组中任意三块磁盘出现整盘物理故障,数据不丢失,在更换新磁盘后,可实现三块盘同时进行重建。

(原图需修改)

三、 CRAID应用

1.创新的CRAID技术,提供更可靠的数据安全机制和提高整机性能

CRAID技术综合传统RAID技术优势,以Cell为单位进行磁盘空间优化和健康状态维护,在数据安全、整机性能和空间利用率方面都有了明显提高,主要体验下如下几点:

允许任意三块盘故障:CRAID2.0技术在成熟的CRAID1.0技术基础上,不再拘泥于传统,采用2 / 4

全新的算法和三重数据校验机制,提供更高的数据安全机制,允许在同一个磁盘组中任意三块磁盘出现整盘物理故障,数据不丢失,业务不中断,继续为前端应用提供支持。在更换三块新磁盘后,支持并行重建。

RAID类型

RAID1/10/01

RAID5

RAID6

CRAIDX

磁盘物理故障

坏指定磁盘的1/2

坏一块盘

坏两块盘

坏任意三快盘

说 明

镜像对磁盘不能同时故障,不能坏任意两块盘

不能同时坏两块物理盘

不能同时坏三块物理盘

可任意坏三块物理盘,数据不丢失

空间利用率高:CRAID2.0采用N+M模式,用户可自由选择校验盘数量,保证数据安全性,同时提高了磁盘组空间利用率。而不是传统RAID1/10等,浪费大量空间,还无法保证任意两块或三块磁盘全盘物理故障的数据安全。即使RAID5/6保证了空间利用率,但无法提供非常可靠的数据安全机制。

快速重建:只重建磁盘上的损坏数据块,未发生错误的区域直接使用拷贝方式将数据块复制到热备盘,重建完成后,再将错误磁盘转移至IDDC磁盘诊断中心处理,相比于传统RAID机制,可明显降低重建过程对RAID组性能造成的影响。

局部重建:不采用热备盘顶替,只对原盘发生变化的部分进行重建,适用于磁盘未损坏,但发生过闪断或人为误操作造成的短暂磁盘失效,如磁盘在短时间内被拔出又插回,可重建5分钟内磁盘不在位时所变化的数据,重建时间短,相比于传统RAID机制,极大降低RAID组性能受影响程度。

优化重建:仅重建被LUN使用的Cell,未使用的Cell不重建。重建调度时,优先重建存在介质错误的Cell,然后再使用拷贝的方式重建其他Cell,以尽可能的避免该Cell所处的其它磁盘发生故障导致的Cell损坏。支持多重重建,可同时重建多个故障磁盘,提高重建总体效率。

3 / 4

2.基于Cell的同步优化,提高同步效率

按LUN同步:只需同步选中的LUN中的Cell即可完成同步,余下的Cell可在创建其它LUN时再做同步。该方法可大幅缩短同步时间,对于随机读写要求高,又急需使用的环境,该方法较为有效。

快速同步(全零同步):校验RAID组在初始同步时会计算每个条带的校验值,做过校验的条带会大大提高小数据的随机写的性能, 采用所有数据块写0的方式进行同步,相比常规同步方式,可提高同步速度约50%,但需同步完成后才可用。适用于随机写要求较高,又不急需使用的环境。

不同步:根据用户的业务类型,也可以选择不做同步,RAID立即可用,在写入时再进行数据同步。对于大文件的顺序写基本不受影响,随机写性能低于同步之后的性能。适用于随机读写操IO少,但又急需使用的环境。

在线同步(校验同步):RAID立即可用,后台进行数据同步,同步完成前,对性能影响较大,同步完成后,随机写较快。适用于随机写性能会逐步增长的业务环境。

四、 用户价值

1、CRAID2.0技术,同一个RAID组内允许任意三块磁盘同时故障数据不丢失,同时可容忍所有磁盘发生介质错误数据不丢失,大大提高了数据安全,RAID失效率降低80%。

2、磁盘重建时间仅为传统重建时间的15-20%,并可保障三块磁盘短时间同时不在位的数据安全。

3、优化的同步技术,可大幅缩短同步时间,提高同步效率并提升RAID组性能。

4 / 4

本文标签: 磁盘数据故障进行性能