admin管理员组

文章数量:1530865

2024年7月14日发(作者:)

2.3.1RIO-G

RIO-G端口用于I/O扩展到外部的I/O抽屉。RIO代表remote I/O。RIO-G是从早期的RIO连接

演化而来。

每个RIO-G端口能够运行在1GHz双向模式,能够在每个环路端口每个方向上传输数据。它被

设计为一种高性能自修复的连接。p5 570提供2个外部RIO-G端口,一个适配卡增加2个端口。

在每个Processor complex上的2个端口形成一个环路。

2-6 DS8000 RIO-G

端口设计

图2-6说明DS8000使用8个I/O抽屉时RRI-G如何连接。这只是发生在所有扩展机架都安装的

情况下。DS8000 RUO-G连接将根据型号变化。一个2路的DS8000型号将只有1个RIO-G环

路。1个4路的DS8000型号将有2个RIO-G环路。每个环路支持4个disk enclosure。

2.3.2I/O enclosure

所有基础型号都包含I/O enclosure和适配卡。I/O enclosure内安装适配卡,提供适配卡到Proce

ssor complex的连接。DA和HA都安装在I/O enclosure里面。每个I/O enclosure有6个槽位。

每个槽位都支持运行在64位133MHz的PCI-X适配卡。3号和6号插槽用来使用DA。每个I/

O enclosure剩下的插槽用来安装最多4块HA。

2-7 I/O enclosure

每个I/O enclosure有如下特征:

4U机架式

6个PCI-X插槽:3.3V,keyed,133 MHz blind-swap hot-plug

默认的冗余热插拔电源和冷却设备

2个RIO-G和SPCN端口

2.4磁盘子系统

DS8000提供可选的光纤通道硬盘,包括300G硬盘,使得DS8100容量标称到115.2TB,DS830

0容量标称到192T。磁盘子系统由三部分组成:

位于I/O enclosure内的DA。这些是由存储影像访问RAID阵列的RAID控制器。

DA在disk enclosure内连接到交换式的控制器卡。这样就建立了一个交换式光纤通道硬盘

网络。

最后,我们有硬盘。这些硬盘通常称为硬盘驱动器模块disk drive modules(DDMs)。

2.4.1DA(Device adapters)

每个DS8000 DA卡提供4个2Gb FC-AL端口。这些端口被用来连接processor complexes到di

sk enclosure。适配卡负责管理、监视和重建RAID阵列。感谢新的高功能/高性能的ASIC,适配

卡提供了显著的性能。它支持元数据建立和校验,来保证最大的数据完整性。DA的设计如图2-

8。

2-8 DS8000 DA

DA成对安装,因为每个存储分区需要拥有自己的适配卡来冗余连接每个disk enclosure。这就是

为什么我们提及他们时是DA pairs

2.4.2Disk enclosure

每个DS8000机架内都含有8个或16个Disk enclosure,而不依赖是基础机架还是扩展机架。一

半的Disk enclosure位于机架的前面,一半位于后面。每个DS8000 Disk enclosure含有总共16

块DDMs或者dummy carriers。一个dummy carriers外观看起来与一个DDM非常相似,但是它

里面没有电子设备。enclosure的图像描述见图2-9。

注意:如果一个DDM位置上没有硬盘,它的插槽也必须由dummy carriers占用。这是因为如果

没有硬盘或一个dummy,冷却气流就不能正确的循环。

每个DDM是一个工业标准的FC-AL硬盘。每块硬盘插入到enclosure背板。Disk enclosure的背

板是其电子学和物理上的中枢。

2-9 DS8000

Disk enclosure

非交换式FC-AL缺点

在一个标准的FC-AL Disk enclosure内,所有的硬盘被安排在一个LOOP内,像图2-10描述的

那样。这个基本环路结构意味着数据在抵达任意的尽头DA时,要流动过所有的硬盘(在

存储服

务器上

展示过)。

2-10

工业上标准的

FC-AL Disk enclosure

标准的FC-AL访问DDMs主要问题是:

整个环路都必须参与数据传送。在任何数据传输以前,环路的完整发现必须通过LIP(环路

初始化协议loop initialization protocol)。环路的稳定性会受到DDM的故障影响。

一个硬盘故障的事件,会因为一个环路的破损很难被准确标明,导致复杂问题的判定。

当环路中设备数量的增长是,导致性能下降。

扩展环路经常必须部分打开它。如果犯错误,导致一个全部环路中断。

这些问题被DS8000交换式FC-AL设备解决。

交换式FC-AL优点

DS8000使用交换式FC-AL技术连接DA pairs和DDM。交换式FC-AL使用标准的FC-AL协议,

但是物理设备是不同的。交换式FC-AL技术主要特点是:

从DA到DDM使用标准的FC-AL通信协议。

在DA和DDM之间建立直接点对点连接。

隔离硬盘故障事件的能力,只需简单的问题判定。

预测性的失败统计。

简化的扩展;例如,添加其他的Disk enclosure时不需要电缆改线。

DS8000的体系结构使用双冗余的交换式FC-AL访问每个Disk enclosure。这样使用的益处是:

2个独立的网络访问Disk enclosure

到每个DDM有4条访问路径

每个DA卡端口独立操作

比传统FC-AL环路设备具有双倍带宽

在图2-11中,描述出每个DDM附加了2个独立的光纤交换机。这意味着使用2个DA,拥有4

个有效的数据路径到每块硬盘,每条路径运行在2Gb/s。注意这个图表中表示出一个交换式的硬

盘网络连接到每个DA。每个DA实际上支持2个交换式网络。

2-11 DS8000

Disk enclosure

当在DA和一块硬盘之间一个连接被建立起来,这个连接是一个交换式的使用仲裁协议的连接。

这意味着一个mini-loop在DA和硬盘之间被建立起来。图2-12描绘出从每个DA端口上引出的

4个并发的独立的连接。

2-12 Disk enclosure

交换式连接

DS8000的交换式FC-AL设备

DS8000的更多关于交换式硬盘体系结构请查阅图2-13。它显示出每个DS8000 DA连接到2个

被叫做环路的硬盘网络。扩展通过每个交换机的扩展端口添加enclosure。每个环路能够最大使

用6个enclosure,但是这些会根据及其型号和DA pair数量发生改变。正面的enclosure位于机

器的前。后面的enclosure位于机器的背面。

2-13 DS8000

的交换式硬盘扩展

扩展

扩展enclosure被成对的按照16块硬盘每组进行添加。关于ESS 800,每个有8块硬盘的enclos

ure,描述为8-pack。对于DS8000,使用16-pack这个术语,尽管这个术语真实的描述出一个di

sk enclosure中有16块DDM。它接受16块DDMs的两个订单来达到完全的组装一个disk encl

osure(前面和后面)。

提供一个例子,如果一台设备共有6个disk enclosure,将会有3个在前面,3个在背面。如果所

有的disk enclosure安装满硬盘,另外购买16块DDM之后,2个新的disk enclosure被添加,

一个在前面,一个在背面。交换式网络添加这些disk enclosure不需要被破坏broken。它们只需

要添加到环路的末端。16块DDMs将位于前面的disk enclosure,一半位于背面的disk enclosur

e。如果一个另外的16 DDMs后来购入,它们将被充满disk enclosure对。

阵列和热备盘array and spare

array site包含8块DDM并采用这些硬盘建立起来。配置的时候,可以选择一个array site建立

一个RAID-5或RAID-10阵列,在第十章,“DS存储管理器—逻辑配置”讨论。最初的4个ar

ray site建立在一个DA pair上,每个array site提供一块硬盘作为热备盘。因此根据磁盘的混合,

最少有4块热备盘在每个DA pair上建立起来。

这个目的每个DA pair是只拥有4块热备盘,但是这个数量依靠DDM混合可以增加。我们需要

有4个高容量的DDM以及最少2块更高转速的DDM。如果所有的DDM是相同大小和转速,

那么4块热备盘已经足够。

Arrays across loops

每个array site包含8块DDM。4块DDM从前面装入一个enclosure pair内,4块DDM从后面

装入一个enclosure pair内。这意味着当array site建立一个RAID,一半的array处在每个enclo

sure内。因为前面的enclosure在一个交换式环路上,后面enclosure在第二个交换式环路上,因

此这使得array穿过2个环路。这叫做array across loops(AAL)。

更好的了解AAL可以参阅图2-14和图2-15。为了使示图更加清晰,所以只有16块硬盘被表现

出来,每个enclosure内有8个。当满配时,每个enclosure将有16块硬盘。无论如何,这个图

示表示出的是一个有效的配置。

图2-14被用来描绘DA pair设计。一个DA pair建立2个交换式环路。前面的enclosure位于一

个环路,背面的enclosure位于另一个环路。每个enclosure有2个交换机连接每个环路。每个e

nclosure能够放入16块DDM。DDM按照16块一组销售。一半的DDM放入前面的enclosure,

一半放入后面的enclosure。

2-14 DS8000

交换式环路设计

确定物理上的设计后,示意图现在被改变来反映出array site的设计。array site 0是绿色(暗色

的硬盘)在每个enclosure内使用左边的4个DDM。array site 1是黄色(亮色的硬盘)在每个e

nclosure内使用右边的4个DDM。当一个array被建立在在每个arrar site,一半的array位于每

个环路。如果disk enclosure满配DDM,将有4个array site。

2-15 AAL

2.5.1FICON和光纤通道协议主机适配卡

光纤通道是一个允许数据高速的远距离(达到10km甚至更远)传送的标准技术。DS8000使用

光纤通道协议传送在光纤通道帧内的SCSI数据。它也使用光纤通道传输FICON数据,使用光

纤通道帧携带zSeries I/O。

每个DS8000光纤通道卡提供4个2Gbps光纤通道口。线缆连接器需要需要LC类型连接到这块

卡上。每个端口独立的自动适应2G或1G连接速度。DS8000上使用的4端口适配卡也能够独立

的成为FCP或FICON,尽管最初时端口规定为交换式的点与点FCP。选择的端口将自动根据FI

CON主机的定义被配置成FICON。每个端口可以是FCP或FICON。端口个性的可变性操作通

过DS Storage Manager GUI。一个端口不能既是FICON同时也是FCP,但是它能够根据需要进

行改变。

卡本身是PCI-X 64 Bit 133MHz。卡被一个新的强功能、高性能的ASIC驱动。确保最大化的数

据完整性,他支持元数据建立以及校验。每个光纤通道端口最大支持509个主机登陆地址。这允

许建立一个非常巨大的存储区域网。卡设计图示见图2-16。

2-16 DS8000 FICON/FCP

主机适配卡(

HA

光纤通道支持的服务器

最新的光纤通道连接服务器支持列表在这个Web地址:

/hardsoft/products/DS8000/

这个站点应该经常被参考,因为它有关于服务器支持的最新信息。

光纤通道距离

这里有两种类型的HA卡能够被选择:长波和短波。对于长波激光,可以连接节点的距离超过1

0km(无中继)。对于短波,只能限制距离在300到500米(无中继)。每块卡所有端口必须是长

波或短波(这里不能在一块卡上混合使用两种类型)。

2.6电源和冷却

DS8000电源和冷却系统是高冗余的。

AAL益处

AAL被用来提升性能。当DA写入一条带数据到RAID-5 array,它发送一半的写(入的数据)

到每个交换式环路。分开负载的这种方式,每个环路均匀的处理提高了性能。如果使用RAID-1

0,2个RAID-0 array被建立。每个环路控制1个RAID-0 array。当运行读I/O,一般的读被发

送到每个环路上,通过横越环路平衡负载再一次提高了性能。

DDMs

每个DDM是热插拔的,并有两个指示器。绿色的指示器显示硬盘活动,当琥珀色的指示被光通

路诊断使用,来允许容易地辨识和置换一块故障的DDM。

现在DS8000提供如下DDM类型供选择:

73GB (15000 rpm)

146GB (15000 rpm)

146GB (10000 rpm)

300GB (10000 rpm)

2.5 HA(Host Adapter)

DS8000支持两种类型的HA:ESCON和FC/FICON。它不支持SCSI适配卡。

DS8000的ESCON适配卡是双端口的HA,用来连接老式的不支持FICON的zSeries主机。在E

SCON卡上的端口使用MT-RJ类型的连接器。

控制单元和逻辑路径

ESCON体系结构只能认出163,990个逻辑控制单元(logical control unit—LCU),即使DS800

0能够模拟更多(这些控制单元能够被FICON使用)。一半的LCU(偶数的)在Server 0,另

外一半(奇数的)在Server 1。因为ESCON主机适配卡能够同时连接2个服务器,每个适配卡

地址总数为16个LCU。

一个ESCON链路由2条光纤组成,每个方向上一条,连接在各个末端由ESCON连接器到ESC

ON端口。每个ESCON适配卡支持2个ESCON端口或链路,每条链路支持64个逻辑路径。

ESCON距离

没有中继器(repeaters)的连接下,ESCON使用50微米多模光纤,距离是5km,使用62.5微米

的多模光纤,距离达到3km。DS8000支持扩大连接距离的9032 ESCON导向器用于所有的型号。

使用ESCON远程镜像和拷贝

ESS 2105的远程镜像和拷贝功能(比PPRC更好)最初的使用设备是ESCON适配卡。这为人

所知是PPRC第一个版本。DS8000的ESCON适配卡不支持任何形式的远程镜像和拷贝。如果

希望建立一个在DS8000和ESS800之间,或其他DS8000或DS6000的远程镜像,必须使用光

纤通道卡。不能在一个DS8000与ESS E20,或F20之间建立远程镜像关系,因为E20/F20只支

持在ESCON上的远程镜像和拷贝。

ESCON支持的服务器

ESCON被用来连接DS8000到IBM S/390和zSeries服务器。大部分的当前支持列表在这个We

b地址:/hardsoft/products/DS8000/

这个站点应该经常被参考,因为它有关于服务器支持的最新信息。

Rack Power Control cards (RPC)机架电源控制卡

DS8000有一对冗余的RPC卡被用来控制遍及DS8000的电源的顺序。这些卡附加了Service Pr

ocessor(SP)卡在每个处理器,允许它们通信两个S-HMC和存储设备影像LPAR。在每个机架

内,RPC也与每个主供电电源、每个机架风扇感应卡和disk enclosure通信。

主供给电源Primary power supplies

DS8000的主供给电源Primary power supplies(PPS)将输入的交流电转换为直流电。PPS有高

电压和低电压版本,因为在世界上,使用的电压是不同的。也因为世界上有着广泛种类的电源线

插座,所以电源线输出线也许也没有与客户国家合适的插座。这也许就需要一个电工在机器交货

后进行替换。

每个DS8000机架有两种冗余PPS。每个PPS有能力为机架单独供电。PPS产生208V输出电,

为processor complex和I/O enclosure提供动力。它同时也产生5V和12V输出电,为disk encl

osure提供动力。如果系统有配置extended power line disturbance的功能,那么增强模块可以在

系统断电的情况下暂时支持系统的运行,(参阅第四章,“RAS”,关于为什么这个零件对于客户

的安装是否有必要的完整说明)。

每个PPS拥有内置风扇来提供电源的冷却。

处理器和I/O enclosure的供电

每个处理器和I/O enclosure都有双冗余电源供给,将208V直流电转换为enclosure或complex

需要的电压。每个enclosure也都含有自己的冷却风扇。

Disk enclosure的电源和冷却

Disk enclosure直接从PPS中引出电源而没有单独分离的供电设备。这样做后仍然有冷却风扇通

风系统在enclosure上。冷却气流从每个enclosure前面通过,在机架顶部排出。

后备电池装置

后备电池装置帮助在失去外部电源时保护数据。型号921含有2个后备电池装置,型号922和9

A2含有3个(来支持4路处理器)。当完全失去输入的交流电时,电池后备装置被用来在电源失

去前容许NVS内存中的内容写入到processor complex内置的一定数量的硬盘。

供电失去后,FC-AL硬盘不能被保护,除非购买extended power line disturbance feature。

2.7管理控制台网络

所有的基础型号装运时都含有一个有键盘(一个)、显示器和2个以太网交换机的存储硬件管理

控制台Storage Hardware Management Console (S-HMC)。

S-HMC

S-HMC是拷贝服务管理和维护工作的中心配置。它也可以订购2个管理控制台来冗余的工作。

一种典型的配置是由1台内部的和一台外部的控制台。内部的S-HMC为远程服务含有一个PCI

modem。

以太网交换机

就像每个Disk enclosure安装的光纤通道交换机一样,DS8000基础机架包含有2个16端口以太

网交换机。这两个交换机能够建立一个完全冗余的管理网络。每个processor complex到每个交

换机有多重联结。这使得每个服务器可以访问每个交换机。这个交换机不能被用于任何与DS80

00无关的设备。交换机从内部电源总线得到电源供应,不需要单独的电源插座。

2.8总结

此章描述了构成DS8000的各种各样的组成部分。关于其它的信息,参阅下面链接的文档:

/servers/storage/support/disk/

第三章存储系统LPAR(逻辑分区)

此章提供了关于DS8000存储系统逻辑分区(LPAR)的相关信息。

下面详细讨论了如下的内容:

LPAR介绍

DS8000和LPAR

-

LPAR和storage facility images (SFIs)

-

DS8300 LPAR实现过程

-

一个SFI的硬件零件

-

DS8300 Model9A2配置选项

LPAR安全性和保护措施

LPAR和拷贝服务

LPAR益处

3.1逻辑分区介绍

逻辑分区Logical partitioning允许将一个服务器分割成几个完全独立的虚拟服务器或分区。

IBM于1960年晚期开始了逻辑分区的工作,使用特定的CP40的VM(虚拟机)的先驱S/

360大型机系统。从那以后,逻辑分区在IBM大型机(现在叫做IBM zSeries)发展为从一

个基于硬件边界支配的物理分区配置,到一个考虑虚拟化和动态负载均衡共享资源。IBM

在1999年实现LPAR支持AS/400(现在叫做IBM iSeries)平台,在2001年pSeries平台实

现。2000年,IBM宣布能够在一台zSeries服务器上的一个LPAR上或在VM顶部运行Lin

ux操作系统,从而创造了在唯一的一个系统内运行数以万计的Linux实例。

3.1.1虚拟化引擎技术

IBM虚拟化引擎包括的一套系统服务和技术构成IBM随需应变(on demand)计算模型的

关键元素。它把各自的服务器、存储和网络产品视作一个池,更加高效率的允许资源的访问

和管理横跨组织。在随需应变的操作环境中,虚拟化是一个关键的组成部分。这种系统基础

被提供了这种环境下操作实现这些功能所需要的具有巨大进步的POWER5处理器实现。

LPAR是POWER 5系统技术的一个组成部分,也是IBM虚拟化引擎的一个部分。

使用IBM虚拟化引擎技术,选择DS8000型号能够使用一个独立的、大型的存储系统,或

能够利用LPAR能力使用两个存储系统。IBM LPAR技术是存储业界唯一一个能够将存储

系统资源分配为单独的逻辑存储系统分区,每个分区是完全独立和隔离开的。虚拟化引擎(V

E)提供简化基础设施来允许在一个单一的系统上管理异构分区/服务器的能力。

3.1.2分区概念

它是适当的澄清我们分类这些机制的术语和定义。

注意:下面这些项讨论了分区的一般概念,并不是所有都适用于DS8000。

分区Partitions

当多处理器计算机再被细分倍数的独立的操作系统影像,那些独立的操作环境叫做分区。系

统调拨资源到独立的分区。

资源Resources

资源被定义为系统的处理器、内存和I/O插槽。I/O插槽能够插入不同的适配卡,例如以太

网、SCSI、光纤通道或其他设备控制器。一个硬盘被分配到一个分区,由它分配一个含有

硬盘控制器的I/O插槽。

积木Building block

一个Building block是系统资源的收集品,例如处理器、内存和I/O连接。

物理分区Physical partitioning (PPAR)

对于物理分区,分区沿着硬件边界线分开。每个分区能够运行一个不同版本的同一种操作系

统。分区的数目取依赖于硬件。物理分区具有的优点是允许完全隔离在其他处理器上运行的

操作,因而保证它们的可用性和正常运行时间。处理器、I/O板、内存和内部连接不被共享,

允许关键性业务或为那些安全问题完全被隔离。物理分区的缺点是物力设备不能分割成使用

逻辑分区那样多的分区,以及使用者不能在一台设备上合并一些轻负载应用程序。

逻辑分区Logical partitioning (LPAR)

一个逻辑分区使用硬件和软件去逻辑的划分一个系统的资源。LPAR逻辑的分割操作系统影

像,因此着不依靠硬件积木。

一个逻辑分区包含处理器、内存和I/O插槽,在一个系统中这些都是一个可用资源的子集,

如图3-1所示。当有这些配置规则,资源的单位颗粒度能够非常弹性的被分配给分区。它有

可能只添加很少的需要的内存,而不依靠内存控制器的大小或者不需要必须添加那些不需要

的更多处理器或I/O插槽。

LPAR不同于物理分区的方面是资源被分组形成一个分区。逻辑分区不需要符合积木的物理

的边界线建立服务器。替代物理性的积木分组,LPAR添加更多灵活性来从全部系统可用资

源池中选择零件。

3-1

逻辑分区

软件和硬件故障隔离

因为一个分区的主机独立的运行操作系统影像,因此这是一个坚固的软件隔离software isolation。

这意味着在一个分区里的一个工作或软件的崩溃不会影响到资源中的其他分区。

动态逻辑分区Dynamic logical partitioning

从AIX 5L

TM

5.2版开始,IBM pSeries服务器型号上的多个逻辑分区,支持动态逻辑分区(也被

称为DLPAR)分隔。

动态逻辑分区功能允许例如CPU、内存和I/O插槽资源添加或从一个分区移出,也可以是资源在

两个分区间移动,不需要操作系统重启(漂移)。

微分区Micro-Partitioning™

同AIX 5.3一起,分区被增强了包含小于处理器分区或微分区能力。微分区它可能分配小于一个

完整物理处理器到一个逻辑分区。

微分区的好处是,它允许完全利用系统资源自动的只给每个分区需要数量的处理器资源。

虚拟I/O

在POWER5服务器上,I/O资源(硬盘和适配卡)能够通过虚拟I/O共享。虚拟I/O提供为一台

虚拟服务器提供I/O适配卡和设备的能力,允许随需分配这些资源到不同分区以及管理这些I/O

设备。物理资源被虚拟I/O服务器拥有,

3.1.3为什么要逻辑分区

这是一个为高端系统提供更好的灵活性的需要,独特再把它们细分为能运行一个版本操作系统的

分区或一套特殊应用程序负载分区的能力。

一个大型的系统进行分区的主要原因是:

服务器合并

一个高度可靠的服务器具有充足的处理能力和根据服务器的需要有能力由逻辑上再把服务器细

分为一定数量、更加小型的系统的能被分区的能力。这样,应用隔离能够放在在一个统一的环境

里,额外的好处是减小占地面积,一个管理节点,以及根据负载变化更加简单的再次分配资源。

提高或减少分配给分区的资源能够促进暴露在变化很大工作量的服务器得到更好的利用。

生产和测试环境

一般情况下,生产和测试环境是彼此分开的。如果没有分区能力,唯一实用的方法是为应用开发

和测试购买另外的软件和硬件。

分区是当生产环境继续运行下,留出系统资源为测试新版本的应用程序和操作系统的方法。这消

除了需要另外的服务器专门用于测试,以及提供了测试版本将能够平滑的迁移到生产环境中的更

高的可信度,因为它们是在生产的硬件系统上测试的。

合并多种版本的相同OS或应用

LPAR内在固有的弹性能够很大的帮助计划和实现正常的升级和系统维护工作。所有涉及到升级

一个应用程序或者甚至是一套操作系统的预备活动,都能够完全在一个隔离的分区上进行。一个

LPAR能够被建立来测试在升级产品环境以前新版本的操作系统。而不是为这个租用而使用一个

单独的服务器,极小的资源能够被临时使用去建立一个新的完成测试的LPAR。当这个分区不需

要时,它的资源分配给其他的LPAR。

应用隔离

分区隔离一个应用从另外的一个不同分区。例如,2个应用在一个SMP系统会互相干扰或者争

抢同一个资源。分割应用到自己的分区,它们不会互相干扰。同时,如果一个应用挂起或崩溃操

作系统,他也不会对其他分区又影响。同样,应用被防止过度消耗资源,这样会使其他应用需要

的资源缺乏。

增好的硬件利用率

分区是一种很好的方式,达到当软件不能横跨大量的处理器时更好的硬件利用率。可能,运行在

分开的小的分区上的多个实例能够提供比运行一个大的应用实例带来更好的生产能力。

增加资源分配的灵活性

一个负载需要的随时间改变的资源需求能够被更加容易的在一个分区内管理。

3.2 DS8000和LPAR

在章节的第一部分我们讨论了LPAR的一般特征。在这一节我们提供LPAR如何在DS8000系列

上实施。

DS8000系列是一个服务器基础的磁盘存储系统。集成了POWER5 eServer p5 570在DS8000系

列里面,IBM提供了第一个在磁盘存储系统里实现服务器LPAR功能。

存储系统LPAR功能现在支持DS8300 Model9A2。它提供在一个物理设备上2个虚拟存储系统。

每个存储系统LPAR能够运行自己等级的内部许可编码licensed internal code (LIC)。

对于DS8300上2个存储系统LPAR的处理器、内存和I/O插槽的资源分配现在被分为固定的5

0/50比例。

注意:资源的分配将能够更加灵活。依据IBM已经出版发行的Statement of General Direction

宣告信:

IBM

打算提高

DS8000

系列的型号选择虚拟化引擎分区的能力,提供更加灵活的分配和管理两个

影像之间资源。

在两个存储设备影像之间,通过硬件存在一个坚固的隔绝;例如,分开的RIO-G环路,POWER

5 Hypervisor,相关更多的信息请参阅2.3节,“LPAR安全性通过POWER5

TM

Hypervisor(PHYP)”

3.2.1LPAR和存储设备影像

在我们开始解释DS8300 LPAR功能是如何实现以前,我们要澄清一些术语和命名约定。图3-2

举例说明了这些术语。

3-2 DS8300 Model 9A2 –LPAR

和存储设备影像

图3-2 DS8300系列结合了两台eServer p5 570。我们把它们每个叫做一个processor complex。

每个processor complex支持一个或多个LPAR。现在每个DS8300上的processor complex可以

被分为两个LPAR。一个LPAR是在processor complex上的一组资源,来支持执行一个操作系统。

存储设备影像storage facility image从一对LPAR上被建立,一个影像在每个processor complex

上。

图3-2显示了来自processor complex 0的LPAR01和来自processor complex 1的LPAR11的st

orage facility image 1的例子。来自processor complex 0的LPAR02和来自processor complex

1的LPAR12的例子是第二个storage facility image 1。

重要:DS8300中,重要了解一个LPAR在一个processor complex不是相同作为一个storage fac

ility image。

3.2.2DS8300 LPAR实现

每个storage facility image将可以在所有机器类型/型号的编号/SN的DS83009A2基础机架上使

用。机架SN将以0结束。SN最后的字符由一个范围1到8来独特的识别DS8000影像。最初

这个数字是1或2,因为只有2个存储设备影像可用。在GUI、CLI和为准许和分配许可在存储

设备影像之间,SN是需要在存储设备影像之间区别的。

DS8300 Model9A2的LAPR功能第一个版本提供在资源之间50/50比率的拆分,如图3-3所示。

3-3 DS8300 LPAR

资源分配

每个存储设备影像的资源是:

处理器的百分之50

处理器内存的百分之50

1个RIO-G互联环路

最大16块HA(4个I/O抽屉,每个最大4个HA)

最大320块硬盘驱动器(最大96TB容量)

3.2.3 存储设备影像硬件组成部分

本节我们解释建立一个存储设备影像需要的硬件资源。

管理在pSeries LPAR之间的资源分配上通过S-HMC。因为DS8300 Model 9A2 提供在两个存储

设备影像之间固定的拆分,这不是必须通过S-HMC控制和管理。DS8300预配置所有LAPR资

源的需求分配给每个存储设备影像。

图3-4 表示了在两个存储设备影像之间的所有可用资源的拆分。每个存储设备影像具有所有可用

资源的50%。

3-4 DS8300

上存储设备影像在

processor complexes

上的资源分配

I/O 资源

对于一个存储设备影像,需要以下这些硬件资源:

2个SCSI控制器以每2个硬盘驱动器一起

2个以太网端口(与S-HMC通信)

1个薄设备媒体架(例如CD或DVD;能够被2个LPAR共享)

每个存储设备影像拥有2个物理硬盘驱动器在每个processor complexes上。每个硬盘驱动器含

有3个逻辑卷,启动卷和2个为内存保存转储功能的卷。每个LPAR的这三个逻辑卷通过2个物

理硬盘镜像。在图3-4中,例如,硬盘A/A’被镜像。对于DS8300 Mosel 9A2,一个物理proces

sor complexes上有总公四个硬盘。

处理器和内存分配

对于DS8300 Mosel 9A2每个processor complexes有4个处理器和最大达到128G的内存。最初,

这也是一个对处理器和内存50/50拆分分配。

因此,任何LPAR都有2个处理器,所以每个存储设备影像都有4个处理器。

内存的限制依赖于整个系统的所有可用内存数量。现在每个存储设备影像可用这些内存分配:

32GB(16GB每个processor complex,16GB每个存储设备影像)

64GB(32GB每个processor complex,32GB每个存储设备影像)

128GB(64GB每个processor complex,64GB每个存储设备影像)

256GB(128GB每个processor complex,128GB每个存储设备影像)

RIO-G互联分离

图3-4示意了RIO-G在存储设备影像之间也被分开的互联。RIO-G连接分开到两个环路。每个R

IO-G环路指定给一个绿色的存储设备影像。所有在RIO-G上的I/O enclosure内的HA和DA都

被指定给拥有RIO-G环路的存储设备影像。

由于2个影像严格的分离,以下配置配置选项存在:

每个存储设备影像被分配一个专属的RIO-G环路;如果一个影像离线,这个RIO-G环路将

不可用。

所有在一个给定的RIO-G环路的I/O enclosure专属于拥有RIO-G环路的影像。

在一个给定环路的HA和DA被指定给拥有这个RIO-G环路的相关影像。

在一个给定DA对后面的Disk enclosure和存储设备,被指定给拥有这个RIO-G环路的相

关影像。

配置一个影像的容量通过在一个被指定给这个影像安置的Disk enclosure的具体DA对上管

理。

3.2.4 DS8300 Model 9A2 配置选项

在本节我们解释了DS8300 Model 9A2上可用的配置选项/

Model 9A2(基础机架)有:

32到128 DDMs

-

每个存储设备影像最大64 DDMs,增量按照16 DDMs

系统内存

-

32、64、128、256GB(一般数量的内存被分配给每个存储设备影像)

4个I/O 抽屉

-

2个抽屉分配给存储设备影像1,2个抽屉分配给存储设备影像2

-

每个抽屉含有:

最大4个HA

最大2个DA

S-HMC,键盘/显示器和2个以太网交换机

第一个Model 9AE(扩展机架)有:

一套额外的4个I/O抽屉

-

2个抽屉分配给存储设备影像1,2个抽屉分配给存储设备影像2

每个抽屉含有:

-

最大4个HA

-

最大2个DA

一套额外的256 DDMs

-

每个存储设备影像最大128 DDMs

第二个Model 9AE(扩展机架)有:

一套额外的256 DDMs

-

每个存储设备影像最大128 DDMs

一个满配置的有存储设备影像的DS8300优1个基础机架和2个扩展机架。第一个扩展机架(9

AE)又另外的I/O抽屉和硬盘模块(DDMs),而第二个扩展机架含有额外的DDMs。

图3-5 提供一个例子,怎样充分的组装DS8300能够被配置。Disk enclosure被分配给存储影像1

(黄色,或浅色)或存储设备影像2(绿色,或深色)。当订购额外的硬盘容量,他能够被分配

给存储设备影像1或存储设备影像2任意一方。连接被预先确定,并且在这个例子中有空的一对

Disk enclosure分配给为下次存储设备影像2添加硬盘使用。

3-5 DS8300

典型配置

Model变换

Model 9A2 是固定50/50拆分成2个存储设备影像。可是,这里有不同Model变化供使用。例如,

他能够从9A2 变化为一台满配的922系统。表3-1表示了关于LPAR功能的型号所有变化。

注意:任意型号的变化需要一个中断操作。

3.3 LPAR安全性通过POWER5

TM

Hypervisor(PHYP)保障

DS8300 Model 9A2 提供2个存储设备影像。这提供了一定数量合乎需要的业务的优势。但是它

也能引发一些对DS8300系列的安全性和保护措施的关注。在本节我们讨论DS800怎样提供在2

个存储设备影像之间坚固的隔离。

LPAR保护措施和安全性的一方面是DS8300有一个为两个设备影像专门的硬件资源分配。这里

清楚的分离处理器、内存、I/O插槽以及disk enclosure 在2个影像之间。

另外一个重要的安全性特性是在pSeries 服务器上叫做POWER Hypervisor (PHYP)的工具。它强

制执行分区完整性提供安全层在逻辑分区之间。PHYP是一个系统firmware的组成部分,能够被

安装和激活,而不管系统的配置。它操作一个隐藏分区,没有处理器资源分配给它。

图3-6 举例说明一套被描述在以下章节的地址映射机制。

在一个分区环境,PHYP被装载入第一个物理内存块Physical Memory Block (PMB)在物理地址

0和储备PMB。然后,它不可能是一个LPAR能够直接访问的物理内存。任何内存访问都被PH

YP控制。

每个分区有自己的惟一页表page table,它也被PHYP控制。处理器使用这些表透明的转换一个

程序的虚拟地址到页被映射入物理内存的物理地址。

在一个分区环境中,操作系统使用PHYP服务管理翻译控制登陆translation control entry (TCE)

表。操作系统通信想得到的I/O总线地址到逻辑映射,管理程序hypervisor在TCE表内翻译I/O

总线地址对物理映射。管理程序需要一个专门的内存区域给TCE表来翻译I/O地址给分区内存

地址,然后管理程序能够执行直接的内存访问direct memory access (DMA)传输到PCI适配器。

3-6 LPAR

保护—

PHYP

3.4 LAPR和拷贝服务

在本节我们提供了在DS8300上拷贝服务功能相关LPAR功能的一些细节信息。如图3-7的一个

例子。

3-7 DS8300

存储设备影像和拷贝服务

快照FlashCopy

DS8000系列都支持现在ESS800支持的FlashCopy V2能力。一个FlashCopy V2的功能是无论

在ESS内部的任何地方都能有源和目标的一个FlashCopy关联(一般归类于越过LSS支持)。

在DS8300 Model9A2上,源和目标必须驻留在同一个存储设备影像中。

一个FlashCopy源卷位于一个存储设备影像,不能有在第二个存储设备影像中的一个目标卷,像

图3-7说明的那样。

远程镜像Remote mirroring

一个远程镜像和拷贝关系支持越过存储设备影像。在同一台DS8300中,主服务器可以位于一个

存储设备影像,第二个位于另一个存储设备影像。

获得有关拷贝服务的更多的信息,参阅第七章,“拷贝服务”。

3.5 LPAR益处

在DS8300 Model9A2中采用LPAR技术提供了很多潜在的益处。客户得到了一个对占地面积,

电源需求和冷却需求减少通过多个独立存储功能的统一。

它通过减少系统管理工作帮助客户简化客户的IT架构。客户也能减少客户的存储架构复杂程度

以及客户物理资产管理。

以硬件为基础的LPAR设备保证了数据的完整性。实际情况是客户可以建立一个双的、独立的、

完全分离开的虚拟存储系统,帮助客户优化客户的投资利用率,以及帮助去分离负载和从另一方

保护他们。

下面举例说明存储设备影像有可能被利用到的情况:

2个生产负载

生产环境能被分离开,例如,依据操作系统、应用程序或组织边界。例如,一些客户维持

分离的一台物理ESS 800在z/OS环境和另一台在开放系统环境。一台DS8300能够维持这

种分离在一台物理存储系统。

生产和开发分区

它有可能把生产环境从开发环境中分离。一个分区可以用来开发和测试新的程序,完全的

分离从一个关键任务的生产负载运行在另一个存储设备影像。

专用分区资源

作为一个服务提供者,能够提供隔离的资源给每个客户,因而有满意的安全性和服务级别

认可,当拥有的环境所有包含在一台物理的DS8300。

生产和数据挖掘

对于数据库的用途,可以想象生产数据库运行在第一个存储设备影像,一份生产数据库拷

贝运行在第二个存储设备影像。客户可以完成生产和数据挖掘在它上面,不需要干扰生产

数据库。

业务连续(次要)在同一个物理阵列

可以使用2个分区测试拷贝服务方案或者能够使用它们用于在一个生产环境的多重拷贝。

信息生命周期(ILM)区分更少的资源,更慢的DDMs

一个存储设备影像能够利用,例如,只有快速的硬盘驱动器去确保高性能生产环境,其他

存储设备影像能使用更少和更慢的硬盘在低投资下去确保ILM。

图3-8描述了一个DS8300存储设备分区的例子。

3-8 DS8300

存储设备分区举例

这个例子显示了一个总物理容量30TB的DS8300。在这个例子中,一个最小的操作环境许可Op

erating Environment License (OEL)需要超过30TB容量。DS8300被拆分成2个存储设备影像。

存储设备影像1被使用在一个开放系统环境,利用20TB固定容量。存储设备影像2被使用在一

个zSeries环境,使用10TB计数调节数据。

去利用FlashCopy在全部容量将需要一个30TB FlashCopy许可。然而,在这个例子中,它可能

只需要一个对存储设备影像1的20TB的FlashCopy许可。在这个例子中的zSeries环境,没有拷

贝服务的需求,所以不需要花钱购买一个拷贝服务许可给存储设备影像2。可以从9.3节中找到

更多的信息关于许可的功能,“DS8000许可的功能”。

这个例子也显示了运行2个不同licensed internal code (LIC)级别在存储设备影像的可能性。

存储设备影像的寻址能力

图3-9荟萃了DS8300 LPAR型号与早期的ESS800相比上得到的寻址能力巨大的增强。

3-9 ESS80

DS8300

有无

LPAR

的对比

3.6总结

DS8000系列交付了第一个使用POWER5处理器IBM虚拟化引擎逻辑分区能力。这个存储系统

LPAR技术是计划用来允许建立2个完全独立的存储系统,可以运行相同或不同版本的许可内部

代码LIC。存储设备影像能够被用于生产、测试或其他独特的存储环境,它们运转在唯一一个物

理外壳内。每个存储设备影像能够被建立来为一个不同的、异构的负载支持特殊性能需求的环境。

DS8000系列坚固的划分工具帮助隔离和保护存储设备影像。这些存储系统LPAR能力被设计通

过最大化管理效率、投资效率以及灵活性来帮助简化系统,

第四章RAS

此章说明了DS8000的RAS(高可靠性、高可用性和可服务性)特征。它将论述:

命名

Processor complex的RAS

管理程序:存储设备影像独立性

服务器RAS

主机连接的高可用性

磁盘子系统

电源和冷却

微码升级

管理控制台

4.1命名

为了更好的理解RAS的概念,需要先了解DS8000的命名术语。

Storage complex

这个术语描述了DS8000通过单一的管理控制台管理。一个Storage complex只能由一台存储单

元组成。

存储单元Storage unit

一个存储单元包含一台单独的DS8000(包含扩展机架)。如果拥有一台DS8000,那么是拥有一

个单独的含有存储单元的Storage complex。

存储设备影像Storage facility image

在ESS800术语中,一个存储设备影像storage facility image (SFI)是完整的ESS800。在DS8000

上,一个SFI是两个逻辑分区LPAR的结合,来自于每个Storage complex。每个LPAR主持一

台服务器。SFI将控制一个或多个DA对,以及2个或更多的disk enclosures。有时一个SFI也

可能被归类到一个存储影像。

4-1

单一影像模式

4-1

中,服务器

0

和服务器

1

建立存储设备影像

1

逻辑分区和服务器

在一个DS8000中,一台服务器有效的使用逻辑分区LPAR软件,并且可以访问可利用在一个p

rocessor complex上资源百分比的内存和处理器。目前,百分比只有50%(Model 9A2)和100%

(Model 921和922)。在ESS800术语中,一台服务器是一个集群。所以一个ESS800种我们有

2个服务器和一个存储设备影像每存储单元。可是,一台DS8000我们能够建立逻辑分区LPAR。

这允许建立4个服务器,每个processor complex上两个。在processor complex上的一台服务器

被用来形成一个存储影像。如果这里有4个服务器,它们有效的将2个分离等存储子系统存在于

一台DS8000存储单元中。

4-2

双影像模式

在图4-2中,我们有2个存储设备影像SFI。上面的服务器0和上面的服务器1形成SFI 1。下

面的服务器0和服务器1形成SFI 2。在每个SFI,服务器0是深色(绿色),并且服务器1是浅

色(黄色)。SFI 1和SFI 2可以共享普通的硬件(processor complex),但是它们完全从一个看

到的操作点分离开。

注意:可以认为,下面的服务器0和1应该被叫做服务器2和3。从一个数字观点看当然也许有

道理(例如,这里有4台服务器,为什么不将它们编号为0到3),但是每个SFI不会意识到其

他的存在。每个SFI必须有一个服务器0和服务器1,而不管有多少SFI或者服务器在一台DS8

000存储单元里。

Processor complex

一个Processor complex是一台p5 570 pSeries系统单元。2个Processor complex形成一个冗余

对,防止任意的Processor complex发生故障,在Processor complex上剩余的服务器能够继续为

存储影像工作。在一台ESS800,我们可以认为是一个Processor complex集群。

4.2 Processor complex的RAS

p5 570是DS8000体系架构中一个完整的部分。他被设计提供一套广泛的高可靠性、高可用性和

高可服务性(RAS)特性,并且包括改善的故障隔离、不停顿Processor complex从错误中恢复,

避免故障复发和预故障分析。

高可靠性,高可用性和高可服务性(RAS)

IBM p5固有的设计和制造工艺的卓越品质和可靠性被应用在所有方面。设计基本目标是将停机

减至最小。RAS特性帮助保障系统完成可靠性和有效的控制任何有可能出现的失效。这是通过

硬件,AIX5L,和为DS8000量身打造的RAS代码共同达到的。下面的章节更加详细的描述了IB

M Server p5系统RAS领先性特性。

免错Fault avoidance

POWER5系统被建造去保护不断的发生的错误。这些基础品质设计包括例如电源消耗和冷却器

操作温度增加的可靠度,使用铜芯片线路,SOI(绝缘硅),以及动态时钟控制特性。它也使用

了从大型机得到灵感的零件和技术。

最初故障数据捕获First Failure Data Capture

如果一个问题将要发生,有能力去准确的诊断是一个在改进可用性之上的根本的需要。p5 570

具有启动诊断和运行时FFDC的高级功能。这些功能是基于芯片自带的错误检查能力

任何错误通过深入的故障检查被捕获,放入将被服务处理器(SP)询问的故障隔离寄存器Fault

Isolation Registers (FIRs)。SP在p5 570中具有使用专门目的的处理器端口访问系统零件,或通

过访问故障寄存器的能力。

FIR是非常重要的,因为它们能够独特的识别一个错误,因而能够采取适当的动作。适当的动作

可能包括一个总线的重试,ECC(故障校验和修正),或者系统系统firmware恢复测试。恢复

测试能够包含动态解除潜在失效零件的分配。

错误会被记录在NVRAM和SP历史记录里,同时会有一个发通知事件给AIX,所以在操作系统

的错误日志里也是会有记录。诊断错误记录分析(diagela)例行测试分析错误记录条目,调用一

个适当的操作,例如发出一个警告信息。如果错误能够被修复,或者在适当的操作之后,服务处

理器复位FIR以便它们能准确的记录未来任何错误。

准确的诊断任何挂起或确定的错误的能力是一个关键的需求,在任何动态或固定的零件重新分配

或任何其他重新配置发生之前。

永久性监控Permanent monitoring

包含在p5 570的SP提供了一种方式去监控系统,即使当主要主要处理器不能工作。在下一小

部分提供了更多在p5 570上监控功能详尽的描述。

彼此监视Mutual surveillance

SP能监控firmware的操作在启动过程中,以及他能监控失去控制的操作系统。这使得SP采取

适当的动作,当它发现firmware或操作系统失去了控制。彼此监视也使得操作系统监控SP活动,

以及如果必要的话能够请求1个SP修复动作。

环境监测Environmental monitoring

环境监测涉及到电源、风扇和温度通过SPCN执行。环境临界的和非临界的条件发生初期电源关

闭警告Early Power-Off Warning (EPOW)事件。临界事件(例如,一个5类交流电源失效)引

发适当的信号从硬件到受影响的部件,在没有操作系统或firmware介入下来防止任何数据丢失。

非临界环境事件被记录和报告使用事件扫描。操作系统不能使用SP规划或访问温度阀值。

温度监控也是执行的。如果周围的温度达到在预制的操作范围之上,冷却风扇能够加速运转速度。

温度监控也会警告潜在的与环境相关的问题在内部微码上。系统一个顺序停机将要在操作环境温

度超过一个临界水平时发生。

电压监控提供了警告,并且一个顺序停机将要在电压超出操作规定时发生。

自修复Self-healing

对于一个系统的自修复,它必须能够从一个失效的部件通过首先检测和隔离恢复回来。它应该在

当时将部件离线,修理或隔离它,并且然后通过维护再次修复或替换零件,而没有任何应用程序

中断。例如包括:

对于一个内存模块失效的事件,有位bit控制功能的冗余内存来保证服务器运作。

位扩散Bit scattering,因而允许在完全芯片失效时错误修正和继续工作(Chipkill™ recover

y)。

一个位Single-bit错误修正使用ECC,对于主、L2,L3 Cache内存没有达到错误阀值时。

L3 cache线删除了延伸的从2到10的另外的自修复。

ECC延伸到芯片内部连接光纤和处理器总线。

内存清洗Memory scrubbing帮助预防内存软错误(soft-error)故障

动态处理器重新分配

内存可靠性,故障容错度和完整性

p5 570系统内存使用错误校验和修正Error Checking and Correcting (ECC)线路,校正一个位的

内存错误和监测双位。监测双位内存故障帮助维护数据完整性。此外,内存芯片被组织成任意一

个内存模块失效只会影响到一个位,在一个4位ECC命令(bit-scattering),因而允许错误修正

和继续操作在完全芯片失效时(Chipkill™ recovery)。

内存DIMM也利用内存清洗scrubbing和阀值来决定什么时候内存模块在各个内存需要被替换超

出了错误数量阀值的部分。内存清洗是在内存空闲的时间读内容,校验和修正经由ECC逻辑的

积累的数据所有single-bit错误。这是一个内存控制芯片的硬件功能,不会影响系统内存的性能。

N+1冗余

下面逐一的列出了允许p5 570用所有的资源保持运行使用的冗余部件:

冗余备用内存位在L1、L2、L3和主内存中

冗余风扇

冗余电源

故障屏蔽Fault masking

如果校正和重试成功并且不超过阀值限制,系统将保持运行在全部资源下,没有顾客或IBM服

务代表干涉需要。

资源重新分配Resource deallocation

如果可恢复的错误超过阀值限制,资源能够被重新分配用于系统剩余的运行,允许等到在适宜的

时间延缓维护。

动态重新分配可能的损坏部件是不需要中断的,允许系统继续工作。持久的重新分配发生在一个

故障部件被找到后;它会在一次重新启动后被释放。

动态重新分配功能包括:

处理器

L3 Cache Line

部分L2 Cache重新分配

PCI-X总线和插槽

持久的重新分配功能包括:

处理器

内存

Deconfigure或旁路失败I/O适配卡

L3 Cache

如果服务处理器有发现硬件错误,那机器在重起的时候会进行全面的诊断。如果处理器或者L3

内存已经被持续处理器的资源免除功能确认为没有正常配置,那在机器在重起过程中会忽略那些

设备。不能正常工作的I/O卡会被洗去配置或者忽略。

同时维护Concurrent Maintenance

Concurrent Maintenance提供了在processor complex还在运行的时候替换下列部件的能力:

硬盘

冷却风扇

电源子系统

PCI-X适配卡

4.3系统管理程序Hypervisor:存储影像独立性

一个逻辑分区LPAR是在processor complex上的一套资源,提供足够的硬件去支持启动和运行

一个操作系统(我们叫做一台服务器)的能力。LPAR建立在一台DS8000 processor complex上

被用来形成存储影像。这些LPAR共享不仅仅是在processor complex上一般的硬件,包括CPU、

内存、内部SCSI硬盘和其他媒体托架(例如DVD-RAM),但也有processor complex之间共同

的硬件。这些硬件包括例如I/O enclosures以及安装在内部的适配卡。

一个机制必须存在来允许这些共享的资源是无缝的方式。这个机制叫做hypervisor。

hypervisor提供了如下能力:

保留内存分区允许留出内存某一确定的部分用于Cache以及某一确定的部分用于NVS。

被保存的内存支持允许NVS和cache内存区域的内容被保护在服务器重启之下。

在一个存储影像里的LPAR之间共享I/O enclosures和I/O插槽。

I/O enclosures初始化控制以便当一台服务器被初始化时它没有初始化一个另一台服务器使

用的I/O适配卡。

在LPAR之间内存块的移动来允许信息传递。

能够关闭一个LPAR的一个I/O适配卡插槽或是enclosures或者强行重启另一个LPAR。

自动重启一个停顿的LPAR或hypervisor

4.3.1 RIO-G—一个自修复连接

RIO-G连接也通常叫做RIO-2。每个RIO-G端口能够运行在1GHz双向模式,并且有能力传输数

据在端口的每个方向。这建立了一个冗余高速的连接,允许在任意的storage complex上的服务

器使用任何RIO-G环路访问资源。如果资源不能从一台服务器上访问,请求能够选择备用RIO-

G端口在另一台服务器上发送。

4.3.2 I/O enclosures

DS8000的I/O enclosures使用热插拔的PCI-X适配卡,这些适配卡是在防护交换热插拔箱内,

允许它们同时被替换。每个插槽能够独立的关闭电源来同时更换失效的适配卡,安装一个新的适

配卡或移走一个旧的。

另外,每个I/O enclosures以2个电源和集成的风扇的形式形成N+1电源和冷却。电源能够被同

时替换,并且有一个独立的电源为一个I/O抽屉提供直流电的能力。

4.4服务器RAS

DS8000的设计基于IBM高度的冗余存储架构。它也得益于超过5年发展历史的ESS 2105。DS

8000因而也使用了同ESS保护数据完整性相似的方法,在写操作或服务器故障的时候。

4.4.1元数据检查Metadata checks

当应用数据进入DS8000,特殊编码或元数据,也成为冗余校验,被添加到那个数据。这个元数

据一直关联着应用数据,当它在DS8000内流转时。元数据被各种各样的内部元件检查确认数据

的完整性,当它移动到盘的过程中。在一个读I/O请求被响应时,它也会在数据发送到主机之前

被DS8000检查。此外,原数据也包含信息被另外一个级别验证,确认返回给主机的数据是来自

于硬盘上需要的位置。

4.4.2服务器failover和failback

了解服务器failover和failback的过程,我们能够懂得DS8000的逻辑构造。为了更好的了解本

节内容,可以查阅第十章,“DS存储管理器—逻辑配置”。

简略的,DS8000上建立逻辑卷,我们的工作通过以下实现:

我们从安装在预先定义的array site上的DDM出发。

这些array site被用来形成RAID-5或RAID-10。

这些RAID阵列之后成为一个rank的成员。

每个rank之后成为一个extend pool的成员。每个extend pool有一个或是服务器0或是服

务器1的亲缘关系。每个extend pool可以是开放系统FB(fixed block)也可以是zSeries

CKD(count key data)。

我们在每个extend pool内部建立逻辑卷,为开放平台的叫做LUN,为zSeries叫做3990卷。

LUN代表逻辑单元数字logical unit number,使用SCSI地址。每个逻辑卷属于一个逻辑子

系统logical subsystem (LSS)。

对于开放系统的LSS数量是不重要的(除非我们使用拷贝服务),但是对于zSeries,LSS是逻辑

控制单元logical control unit (LCU),它们等同于3990(一个DS8000仿真的zSeries磁盘控制器)。

它非常重要,如果LSS又一个偶数辨认数字,它就属于服务器0,有一个奇数数字就属于服务器

1。当一个开放系统主机发出一个写操作到一个逻辑卷,DS8000 HA直接写到这个逻辑卷所属的

拥有那个LSS的服务器上。

如果DS8000被用来操作一个单独的存储设备影像,因而下列的例子涉及到2个服务器,运行在

每个processor complex上。如果一个processor complex失效,于是一台服务器将失效。同样的,

如果一台服务器它自己失效,于是它将有一样损失processor complex上面运行的应用的影响。

如果,DS8000被分开成两个存储设备影像,每个processor complex将拥有2个服务器。这样的

话,一个processor complex失效带来2个服务器的失效。在每台服务器上的影响相同。failover

过程由各个存储影像独立进行。

数据流动

当一个写入发送到一个卷,这个写入一般直接到达拥有这个卷的服务器。数据流是写入放置到服

务器的Cache内存里。写入数据也被放置到另外一台服务器的NVS内存中。

4-3

正常数据流

图4-3举例说明了服务器0的Cache内存被用于支持所有偶数LSS成员的逻辑卷。同样的,服

务器1的Cache内存被用于支持所有奇数LSS成员的逻辑卷。但是任何写放入Cache,另一个拷

贝放置到另一台服务器的NVS内存。因此一个写的正常数据流是:

1. 数据写入到自己的服务器cache内存

2. 数据写入到预备服务器的NVS内存

3. 报告给连接的主机写已经完成

4. 写从cache降级到硬盘

5. 写从预备服务器上的NVS内存中清除

在正常的操作下,DS8000所有的服务器都积极的处理I/O请求。此节描述了在一个异常条件下

影响到它们中的一个时,发生在DS8000服务器之间failover和failback的规程。

Failover

在图4-4中,描述了服务器0失效。剩下的服务器接管它所有的功能。RAID阵列,因为它们连

接到所有的服务器,所以能够被服务器1通过DA卡访问。

从数据完整性观点,真实的问题是未降级或者修改的数据属于服务器1(它应该在服务器0的N

VS上)。自DS8000现在只有一个数据(当前驻留在服务器1的Cache内存中)拷贝以后,它将

现在采用以下的步骤:

1. 它的NVS内容降级到磁盘子系统

2. 服务器1的NVS和Cache分离成2部分,一半用于奇数LSS,一半用于偶数LSS

3. 服务器1现在开始为所有LSS处理写(以及读)

4-4

服务器

0

故障转移它的功能给服务器

1

这个完整的过程就是为人所知的failover。在failover之后,DS8000现在的运转如图4-4所示。

服务器1现在拥有所有的LSS,这意味着所有读和写将通过服务器1服务。服务器1的NVS现

在用于奇数和偶数LSS。完整的failover过程对连接的主机是不可见的,除了一些临时的硬盘错

误的可能性。

Failback

当一个失效的服务器被修理和重启后,Failback进程被激活。服务器1再次使用服务器0的NV

S,偶数LSS的所有权调转回服务器0。两个控制器重新开始正常的操作。就像failover过程一

样,Failback过程也是不会被连接的主机感知的。

一般情况下,DS8000的恢复操作不会影响I/O操作的等待时间不会超过15秒。由于配置的某些

局限性和高级功能,这种对等待时间的影响能够被限制在8秒以内。逻辑卷没有被配置为RAID

-10存储时,确定的有关的RAID恢复能够使等待时间的影响超过15秒。如果你有一个实时响应

的需求环境,请联系IBM来确定怎样通过管理你的存储来达到需求。

4.4.3在所有电源失去后的NVS恢复

在正常的操作下,DS8000使用NVS拷贝到交替工作的服务器上来保护快速写入的数据。为了确

保这些快速写入的数据不会被丢失,DS8000包含了电池后备单元(battery backup units BBU)。

如果所有的电池都发生了故障(这是一种不太可能的极端情况,因为电池是N+1冗余配置的),

DS8000将失去这种保护,并且因此所有的DS8000服务器都会离线。如果电源失去的是一个单

独的主电源供应,那么不会影响其他电源的供应来保证所有电池的带电,因此所有服务器将继续

在线。

电池的唯一目的是保护DS8000服务器内存上的NVS区域,在完全损失输入电源的情况下。如

果基础机架内的两个电源都被停止电源输入,服务器将会被通知它们现在运行在电池模式下,立

刻开始一个停机程序。除非购买power line disturbance feature,BBU不能被用来保持硬盘旋转。

即使它们继续转动,设计也不会将数据从NVS移动到FC-AL硬盘阵列中。作为替代的,每个p

rocessor complex都有一定数量的内置SCSI硬盘,可以被用来存储NVS内容。当一个电池供电

环境中,相关的停机开始,下面的事件会发生:

1. 所有HA卡I/O被block

2. 每个服务器开始拷贝它们的NVS数据到内置的硬盘。对于每个服务器,那个服务器制造

2个拷贝。

3. 当拷贝进程结束,每个服务器关闭AIX。

4. 当每台服务器AIX关闭完成(或一个计时器终止),DS8000被停机。

当DS8000电源供应恢复时,会发生下面的过程:

1. processor complexes加电,完成电源自检。

2. 每个服务器开始启动。

3. 在某一阶段的启动过程中,服务器检测内置SCSI硬盘中的NVS数据,并且开始将其降

级到FC-AL硬盘。

4. 当电池充电达到某一水平,服务器开始上线。

一个关键点是服务器将不会上线直到电池电力充满。在一些案例中,在供电自检和存储设备影像

初始化时完全充电将会发生。然而,如果电池的完全放电发生过,也许会发生如果多路电力损耗

发生在一个很短的周期内,那么电池再次充电可能要花费2个小时。

因为NVS的数据写入到了DS8000 processor complexes上的内置SCSI硬盘,并且没有抑制在电

池保护的NVS-ROM,NVS上的内容将被无限期保存。这意味着不像DS8000或ESS,在电源必

须恢复以前,没有固定的时间要求。

4.5主机连接高可用性

每个DS8000光纤通道主机适配卡提供了4个端口,用来直接连接主机或通过光纤通道交换机。

单或多路经

不像DS6000,DS8000没有使用偏爱路径preferred path概念,因为HA卡被服务器之间共享。

用来表示这个原理,图4-5描述了一种可能的产品配置。在这个例子中,DS8100 Model 921有

2个I/O enclosures(是enclosures2和3)。每个enclosures有4个HA:2个FC和2个ESCON。

I/O enclosure插槽3和6没有描绘出来,因为它们预留给DA卡。如果一个主机只有一条路径连

接到DS8000,如图4-5,因而它将能访问属于所有LSS的卷,因为HA将直接的把I/O发送给

正确的服务器。然而,如果一个错误发生在HA或HP(host port),或I/O enclosure,所有的连

接将失去。明显的HBA连接到主机是一个单点故障。

4-5

单路径主机

始终更好的是主机访问DS8000拥有至少2个连接在不同I/O enclosure的分开的HA上的HP,

如图4-6。这个例子中,主机连接到不同的I/O enclosure内的光纤通道HA上。这也非常重要,

因为在微码升级的时候,I/O enclosure可能需要下线。这种配置允许主机经受得住任意一条路径

上的任何组成部分的一个硬件故障。

4-6

双路径主机

SAN/FICON/ESCON交换机

因为可能有很多主机要连接到DS8000,每个都使用多路径,DS8000上可用的HA卡端口数量不

一定能满足所有连接。这个问题的解决方案是使用SAN交换机或导向器来从连通多主机的逻辑

连接。在一个zSeries环境,将需要选择支持FICON的交换机或导向器。ESCON连接的主机需

要ESCON导向器。

在交换机或导向器的一个逻辑或电源故障能够中断主机和DS8000的通信。我们建议采用超过一

台的交换机或导向器来保证连续的高可用性。在两个不同的I/O enclosure上的不同HA卡的端

口被配置为通过2台导向器。任意一个导向器级别的故障发生时仍有一半的路径工作。

多路经软件Multi-pathing software

每个连接的主机操作系统现在需要一种机制来允许它管理多路经连接到相同的设备,以及更好的

负载均衡这些请求。同样,当一个失效发生在一个冗余路径,于是连接的主机必须有一种机制允

许发现一条链路的失效,并且路由这些逻辑设备的所有I/O请求到备用的路径。最后,它应该能

够察觉路径已经恢复,以便I/O能够再次负载均衡。这个机制将能可用在多样的主机操作系统和

环境中,详细的描述在以下2节说明。

4.5.1开放系统主机连接

在大多数的开放系统环境,IBM强烈的推荐使用Subsystem Device Driver (SDD)管理2个路径

的failover和首选路径判断。SDD是一个IBM为所有使用ESS 2105、SVC、DS6000、或DS80

00的用户提供的免费软件产品。现在SDD有一个新版本来允许管理到DS6000和DS8000的路

径(Version 1.6)。

SDD提供了高可用性通过自动化的I/O路径failover。如果一个故障发生在DS8000和主机之间

的数据路径,SDD自动切换I/O到另一条路径。SDD也将在修复完成后,自动调整故障路径上

线。SDD也改善了通过共享I/O操作到一个共同的硬盘在多活动路径之上去分配和平衡I/O负载

的性能。SDD也支持DS6000和SVC的偏爱路径概念。

SDD不能支持所有的开放系统。查阅IBM TotalStorage DS8000 Host Systems Attachment Guid

e, SC26-7628,和互操作性网页得到多路经软件能够使用。一些设备,例如IBM SVC,不需要

任何多路经软件,因为设备内部软件已经支持多路经。互操作性网页地址:

/servers/storage/disk/ds8000/

4.5.2 zSeries主机连接

在zSeries环境,正常的习惯是提供从每台主机到一台存储设备多路径。典型的,安装4条路径,

每台主机的通道能够访问DS8000每个逻辑控制单元Logical Control Unit (LCU)被规定在HCD

(硬件配置定义hardware configuration definition)或IOCDS (I/O配置数据组I/O configuration da

ta set)之内。动态路径选择Dynamic Path Selection (DPS)允许通道子系统选择任意可用的(不

繁忙的)路径开始一个操作到磁盘子系统。DPR允许DS8000选择任意可用路径到一台主机来重

新连接和继续一个断开的操作;例如,传输数据在由于一个cache miss断开以后。

这些功能是zSeries体系结构的一部分,并且被主机和DS8000的通道子系统管理。

一个物理的FICON/ESCON路径被建立起来,当DS8000端口看见了光纤变亮(例如,一根线缆

插入一台DS8000 HA,一个处理器或DS8000被启动,或者一个路径通过OS/390被配置)。这

时,逻辑路径通过主机和一些或所有DS8000的LCU被建立起来,被主机的HCD定义控制。这

发生在一个zSeries CPU和DS8000之间的每条物理路径上。这有可能是多个系统影像在一颗C

PU。逻辑路径被建立给每个系统影像。DS8000于是知道哪条路径能够被用于每个LCU和每个

主机之间通信。

CUIR

Control Unit Initiated Reconfiguration (CUIR)防止在zSeries环境中由于错误路径处理失去到卷

的通路。这个功能自动操作通道路径管理在zSeries环境中,支持DS8000被选择的服务操作。

当操作在z/OS和z/VM

®

环境中CUIR是可用的。在选择DS8000服务操作时,CUIR自动操作通

道路径改变开启和改变关闭来最小化人为错作干涉。

CUIR允许DS8000请求所有连接的系统影像,调整所有路径所需的对脱机状态下一个特殊服务

操作。系统影像以适当的软件支持级别将反映这样的请求通过非常受影响的路径,以及或者通知

DS8000子系统路径离线,或者它无法使路径离线。CUIR减少人为操作的干涉和维护过程操作

中的人为错误,同时减少维护所需的时间。这在很多系统连接到DS8000时非常有用。

4.6磁盘系统

DS8000现在只支持RAID-5和RAID-10。它不支持无RAID的以JBOD的配置硬盘。

4.6.1磁盘路径冗余

每个DS8000的DDM连接到2个20口SAN交换机。这些交换机组合在disk enclosure控制卡

里。图4-7举例说明DS8000交换式磁盘结构的冗余特性。每个磁盘使用2条单独的连接到背板。

这允许同时连接到2台交换机。如果任意disk enclosure控制器卡从enclosure中移去,在控制器

卡中的交换机也会被移去。然而,剩余控制器卡中的交换机保留了与所有硬盘和一对DA卡的通

信能力。同样的,每个DA有一条路径到每台交换机,因此它同样能容忍一条路径的失去。如果

一个DA卡失效,2条路径因而不能访问交换机;然而,另一个DA保持了连接。

4-7

交换式磁盘连接

图4-7也显示出在左侧和右侧的扩展的连接路径。路径从一个交换机行进到下一个disk enclosur

e的交换机。由于扩展以这种线性方式完成,更多enclosure的添加是完全非中断性的。

4.6.2 RAID-5概述

RAID-5是RAID保护当中最常用的格式。

RAID-5原理

DS8000支持RAID-5阵列。RAID-5横跨多个硬盘驱动器散布卷数据加上校验数据的方法。RAI

D-5提供了更快速的性能通过条带化数据横跨一组DDM。数据保护通过每个条带数据生成校验

信息。如果一个阵列的成员失效,通过使用校验数据再次生成它的内容。

DS8000 RAID-5的实现

在一台DS8000里,一个RAID-5阵列建立在一个array site上,将包含7或8块硬盘,依赖于a

rray site是否提供一块spare盘。1个7硬盘的阵列有效的使用一块硬盘用于校验,所以它被归

类于一个6+P阵列(P是校验)。只有7块硬盘形成一个6+P阵列的原因是在array site的8块硬

盘被用于建立阵列时使用一块被用盘。因而归类于一个6+P+S的array site(S是spare)。一个8

硬盘的阵列也可以有效的使用1块硬盘用于校验,提供了一个7+P阵列。

硬盘失效

当一个RAID-5阵列中的一个硬盘驱动器模块失效,DA开始一个重构数据的操作从失效硬盘到

spare盘。被使用的spare盘将根据一种巧妙的算法看spare盘的位置、大小和失效DDM的位置

选择。重建的执行通过读取阵列中剩余的每个条带上相应的数据和校验值,履行一个异或exclu

sive-OR操作来再造数据,然后写入这些数据到spare盘。

当数据重建进行中时,DA能够继续服务于读和写请求。这里也许有可能有一些性能的下降,当

spare操作进行的时候,因为一些DA和交换式网络资源被用于重构。由于DS8000基于交换式

结构,这种影响被降至最小。另外,任何对失效硬盘的数据读请求需要从阵列中的其他硬盘中读

取,于是DA执行一个重建数据的操作。

RAID-5阵列的性能在数据重建完成后恢复正常。spare需要花费的时间是不定的,依赖于失效D

DM的大小和阵列的负载,交换式网络以及DA。使用arrays across loops AAL能够提高重建速

度和降低重建的影响。

4.6.3 RAID-10概述

RAID-10不像RAID-5那样经常被使用,主要原因是需要为每一个有效GB容量提供更大的原始

容量。

RAID-10原理

RAID-10通过组合RAID-0和RAID-1提供了高可用性。RAID-0优越的性能表现通过条带化卷,

数据一次横跨多个硬盘驱动器实现。RAID-1提供了硬盘镜像,在两个硬盘驱动器之间复制数据。

通过结合RAID-0和RAID-1的特性,RAID-10提供了第二级错误容忍度的优化。在RAID-1阵

列中数据被条带化横跨一半的硬盘。同样的数据也被条带化跨越另一半的硬盘,建立一个镜像。

如果在每个镜像对里面一块硬盘可用的话,访问数据会被保存。RAID-10提供了比RAID-5更快

速数据读取和写,因为它不需要去管理校验。然而,一组DDM中一半的用于保存数据,另一半

用于数据镜像。RAID-10硬盘组比RAID-5硬盘组具有更少的可用空间。

DS8000中RAID-10的实现

在DS8000上,RAID的实现是使用6或8块硬盘。如果spare盘存在于array site上,那么6块

硬盘被用于形成两个3块硬盘的RAID-0阵列之间的镜像。如果spare盘没有在array site上,那

么8块硬盘被用于形成两个4块硬盘的RAID-0阵列之间的镜像。

硬盘失效

当一个RAID-10中的DDM失效,控制器开始一个重建操作从失效硬盘到热备盘。被使用的spa

re盘将根据一种巧妙的算法看spare盘的位置、大小和失效DDM的位置选择。记住一个RAID-

10阵列式RAID-0阵列镜像得来的。当RAID-0阵列中的一块硬盘失效时,我们能够重建失效的

硬盘,通过读取在另一个RAID-0阵列中等值硬盘的数据。

当数据重构时,DA能继续服务于从主机到阵列的读和写请求。这里也许有可能有一些性能的下

降,当spare操作进行的时候,因为一些DA和交换式网络资源被用于重构。由于DS8000基于

交换式结构,这种影响被降至最小。对失效硬盘数据的读请求将不会受到影响,因为它们能被从

好的RAID-1阵列直接取到。

写操作将不会被影响。RAID-10阵列的性能将恢复正常,当数据在spare设备上重构完成时。sp

are需要花费的时间是不定的,依赖于失效DDM的大小和阵列的负载。

AAL

DS8000采用AAL(arrays across loops)技术。对于AAL,一个array site是实际被分成2半。

一半site位于一个DA对上的第一个硬盘环路上,另一半位于那个DA对上的第二个硬盘环路。

它主要用于实现最大的性能。因此,RAID-10种,我们能够利用AAL的先进性提供一个高等级

的冗余。DS8000 RAS代码有意的保证一个RAID-0阵列被维护在由一对DA建立的2个环路上。

这意味着在一个环路完全失效的极端情况下,DS8000也不会失去访问RAID-10阵列的能力。这

是因为党一个RAID-0阵列离弦,另一个仍能服务于硬盘I/O。

4.6.4 spare的创建

当DS8000上一个array site被创建后,DS8000微码规定这个site中必须含有spare盘。前4个a

rray site中通常为每个DA对提供一个spare盘,每个环路中将有2个spare盘。通常情况下,每

个DA对将有4个spare盘。

在ESS800上,spare盘的创建规定是每一种DDM类型在一个SSA环路中有4块。这意味着在

一个特殊的SSA环路中有可能有12块spare盘,如果在一个SSA环路中有3种不同的硬盘的话。

对于DS8000不是这样的。最小值是1个spare盘被创建在每个array site,直到符合以下的条件:

一个最小值是每个DA对有4块spare盘

一个最小值是在一个DA对上最大容量的array site有4块spare盘

在一个DA对上,spare盘容量和转速大于或等于指定容量的最快速的array site的最小值是

2块

spare盘漂移

DS8000的spare盘可以执行一个聪明的漂移技术。在ESS 800上,spare盘漂移。这意味着当一

块DDM失效,它所包含的数据被重建在spare盘上时,那么当硬盘复位后,复位的硬盘自动变

为备用。数据不再迁移到另一块DDM上,譬如失效DDM的原始位置。换句话说,ESS 800没

有布置修复处理。

DS8000微码也可以选择允许热备盘保留它移动了的位置,但是它也许改为选择移动spare到一

个更佳的位置。这将改善spare盘横跨DA对、环路和enclosures的平衡。这能够更好的将当前

一个阵列的成员DDM转换为备用。这样DDM上的数据在后台被迁移到一块已经存在的spare

盘上。迁移这个步骤不会失效硬盘,尽管它减少了DS8000中可用的spare盘数量直到迁移进程

结束。

一个聪明的进程将被用来保证更大或更快的DDM总是用于spare。这更加优越,因为如果我们

重建了一块146G DDM上的内容到一块300G DDM,于是300G DDM有大约一半的容量因为

不需要而被浪费。这里的问题是失效的146GB DDM将被一块新的146G DDM替换。所以,D

S8000微码将很可能迁移数据到最近被替换的146G DDM上。当这个进程完成,146G DDM将

重新加入阵列,300G DDM将再次变为备用。另一个例子是,如果我们失效了一块73G 15k R

PM DDM迁移到一块146G 10k RPM DDM。这意味着数据现在迁移到了一个低速的DDM,

但是复位的DDM将是同失效的硬盘一样的DDM。这意味着阵列运行在混合的RPM下。这不是

令人满意的。再一次,一个聪明的数据迁移将执行将相配的spare盘变为可用的进程。

热插拔DDM

替换失效的硬盘不会影响DS8000的运转,因为所有的硬盘驱动器都是热插拔的。因为事实是每

个硬盘插入一个开关,相关的移出或替换一块硬盘没有环路破坏。另外,这里没有潜在的LIP(l

oop initialization process)。

4.6.5预故障诊断Predictive Failure Analysis

®

(PFA)

DS8000使用的硬盘结合了PFA,并且能够预测某些错误的形式通过保持内部的读和写的统计表。

如果错误等级超过了预先确定的极限值,硬盘将被推荐替换。因为这个硬盘还没有失效,数据能

够被立即拷贝到一块spare盘上。这避免了使用RAID恢复来重构所有数据到spare盘。

4.6.6硬盘scrubbing

DS8000将周期性的读取硬盘所有扇区。这个设计不会有任何的冲突而影响应用性能。如果ECC

校验识别了错误的数据位,这个数据位会马上被DS8000校正。这减少了超过ECC能力校正能

力的多个坏位堆积在一个扇区之内的可能性。如果一个扇区包含的数据超过ECC纠正的能力,

于是RAID被用来重建数据和写一个新的拷贝到spare盘的扇区。这个scrubbing过程适用于阵列

成员及spare的DDM。

4.7电源和冷却

DS8000采用完全冗余的电源和冷却系统。DS8000每个电源和冷却风扇工作在大家知道的N+1

模式下。这意味着最少比正常运行需要有一个或多个电源,冷却风扇或电池。这简单的在许多条

件下意味复制。

Primary power supplies(PPS)

每个机架有2个PPS。每个PPS产生两种不同电压范围:

产生的208V支持每个I/O enclosure和每个processor complex。这种电压由每个电源安置的

2个冗余电源供应。

产生的12V和5V支持disk enclosure

如果任何一个PPS故障,其他的PPS能够继续支持所有必须的电压给所有机架内的power bus。

PPS能够被同时替换。

重要:值得注意的是,如果安装DS8000这样2个PPS连接到同一个断路开关或同一个配电盘,

因此DS8000将不会得到很好的外部电源失效保护。这是一个非常普遍的引起非正常停机的原因。

后备电池单元BBU

每个机架的I/O enclosure,或者每个机架如果电源线干扰特征(power line disturbance feature)

被安装上,将有BBU。每个BBU能被同时安置,倘若在那时候只有一个BBU不可用。DS8000

的BBU有最少4年的计划工作生命。

机架冷却风扇Rack cooling fans

每个机架有一个冷却风扇plenum位于disk enclosure的上方。在这个plenum的风扇引导空气从

DDM前面流动到机架上端排出。每个enclosure有多个冗余的风扇。每个风扇能够在线更换。

机架电源控制卡Rack power control card (RPC)

RPC是DS8000电源管理 的一部分。有2个PRC做冗余。每个卡能够独立的控制整个DS8000

的电源。

4.7.1Buildingpower loss

DS8000使用服务器的一个内存区域作为非易失性缓存(NVS)。内存的这个区域被用来保存未被

写入磁盘子系统的数据。如果Building power失效,在基础机架内的2个PPS会报告失去交流

输入电,于是DS8000必须开始保护数据动作。

4.7.2电力波动保护

DS8000基础机架包含后备电池保护,用来保护发生完全失去电力这个事件时修改的数据。如果

一个电源波动发生致使发生霎那间电力中断(经常叫做brownout),DS8000将能容忍大约30ms。

如果DS8000上的电源线干扰特征(power line disturbance feature)没有购买,在那之后,DD

M将停止旋转并且服务器开始拷贝NVS内容到processor complexes的内置SCSI硬盘。使用UP

S技术的很多用户,这不是问题。UPS电源调节一般情况下是非常可信赖的,因此另外的冗余连

接设备常是没有必要的。

如果Building power没有可靠的考虑,那么另外的power line disturbance feature需要被考虑。

DS8000这个特性增加了2片单独的硬件:

1.

DS8000机架内每个PPS,增加一个调压器模块将转换电池电源208V到12V和5V。这直接

从电池供给DDM电力。PPS不能正常的从BBU得到电力。

2.

添加到没有电池扩展机架里。基础机架和扩展机架以有无I/O enclosure得到电池。没有I/

O enclosure的扩展机架一般没有电池。

增加这个硬件,DS8000能够在电池供电时运行达到50秒,在服务器开始拷贝NVS到SCSI硬

盘和停机之前。

4.7.3 DS8000电源控制

不像ESS 800,DS8000没有一个白色的电源开关打开或关闭DS8000存储单元。所有电源先后

顺序的完成通过SPCN和RPC。如果用户希望关闭DS8000电源,必须使用由S-HMC提供的管

理工具。如果S-HMC没有工作,于是它将不可能控制DS8000的电源顺序直到S-HMC功能恢

复。购买一个冗余的S-HMC在这里是有益处的。

4.7.4紧急电源关闭Emergency power off (EPO)

每个DS8000的机架都有一个紧急电源开关。这个按钮被用来在下列紧急情况下完全切断DS80

00电源:

DS8000位于一个危险环境,例如火灾

DS8000位于人身安全危险的环境,例如人员发生触电的典型环境。

除这两种情况(这些情况是发生概率很小的),EPO开关永远不会用到。这是因为DS8000 NVS

存储区域不会直接被电池保护。如果Building power失效,DS8000能够使用内置的电池将NVS

内存中的数据降级到一个可变大小的硬盘空间来保护数据,直到电源恢复。然而,EPO开关不

允许这个降级过程发生和NVS数据丢失。这可能导致数据丢失。

如果需要DS8000下电进行维护,或者移动,总是使用S-HMC完成。

4.8微码升级

DS8000包含许多冗余部件。这些中的大部分部件都有微码并且可以被升级。这些包含processor

complexes、DA和HA。每个DS8000服务器也有一个操作系统(AIX)和Licensed Internal Co

de (LIC)能够被升级。当IBM持续发展和改进DS8000,新发布的firmware和LIC将变为被利用

提供改善功能和可用性。

DS8000的体系结构允许在线代码升级。这由使用DS8000冗余设计达到。总之,当每个在冗余

对的部件被升级时,一小段时间内会失去冗余。

S-HMC能够支撑6种不同版本的代码。每个服务器能够支撑3种不同版本的代码(之前的版本、

运行版本和下一个版本)。

安装进程

安装进程包含几个过程。

1.

S-HMC代码将被升级。新的代码版本将被提供CD或通过FTP下载。这可能潜在的包含升

级S-HMC内部Linux版本,省级S-HMC LIC和升级S-HMCfirmware。

2.

新DS8000 LIC将被加载到S-HMC以及从这里到每个服务器的内部存储。

3.

偶尔,新的PPS和RPCfirmware可能被发布。新的firmware能够直接被从S-HMC加载到

每个RPC卡和PPS。每个RPC和PPS将静止、升级和一次一个的恢复直到所有的都被升级

完成。

4.

有时候,系统管理程序(hypervisor)、服务处理器、系统平台和I/O enclosure平台的新的f

irmware可能被发布。这些firmware能够被直接从-S-HMC加载到每个设备。激活这些firm

ware可能需要每个processor complexes一次一个的停机和重启。这将使在每个processor c

omplexes上的每个服务器fail over它的逻辑子系统到另一个processor complexes上的服务

器。确定升级可能不需要这个步骤或它可能不会发生进程重启。

5.

升级服务器操作系统(现在是AIX 5.2)加上升级内部LIC将被完成。在一个存储影像中

的每个服务器将被一次一个的升级。每个升级将使得每个服务器fail over它的逻辑子系统

到另一个processor complexes上的服务器。这个进程也将升级运行中的属于那个服务器的

DA的firmware。

6.

升级HA将被完成。对于FOCON/FCP适配卡,这些升级将影响每个适配卡少于2.5秒,并

且不会影响连接。如果一个升级时间超过这个,在主机上的多通路软件或CUIR(对ESCO

N和FICON),将直接将I/O转到另一个HA上。

上面的安装过程的描述也许过于复杂,它将不需要很多用户的干预。代码安装器通常将正确的开

始进程和然后使用S-HMC检测它的进展。

S-HMC考虑

在升级DS8000代码之前,S-HMC将被升级到最后版本的代码。这个通常在任何时候改变窗口

之前操作,因为DS8000能够没有S-HMC的情况下继续操作,倘若当拷贝服务或配置计划更改

不可用的时候。如果有2台S-HMC能够在另一台S-HMC上完成拷贝服务或配置计划的更改。

在存储影像之间不同版本代码

如果DS8000被分区为多个存储影像,就有可能在每个存储影像上运行不同版本LIC。它会带来

很多益处,例如一个影像被用来做生产影像,同时另一个用来测试。

既然它们使用共同的硬件,步骤1到4将仍然影响2个存储影像。然而,可能只在一个存储影像

执行5到6的步骤,留下另一个存储影像downlevel。这个情况能被留下直到一个测试的周期被

完成。Downlevel的影像能够之后被完成步骤5和6的升级。

4.9管理控制台

DS8000管理网络包含冗余的以太网交换机和冗余的S-HMC控制台。

S-HMC

S-HMC被用来完成DS8000上的配置、管理和维护动作。它可能被订购在基础机架内部或安置

在外部的客户的机架内。

如果S-HMC没有运行,因而完成服务、DS8000电源开关或完成拷贝服务任务(例如建立快照F

lashCopy)都是不可能的。因而推荐订购2台管理控制台实现一个冗余。

以太网交换机

每个DS8000基础机架包含2个16端口以太网交换机。2个交换机来支持建立一个完全冗余的管

理网络。在DS8000内的每个服务器到每台交换机有一个连接。每个S-HMC也有到每台交换机

的一个连接。这意味着如果只有一台交换机失效,所有的流量会使用剩余的交换机从S-HMC到

任何一台服务器。

4.10总结

此章总描述了DS8000 RAS特点。这些特点的结合使得DS8000在高可靠性、高可用性和高服务

性方面成为世界领先的产品。

第五章虚拟化概念

此章描述了DS8000的虚拟化概念。关于细节部分,包含了以下内容:

存储系统虚拟化

磁盘虚拟化的提取层

-

array site

-

array

-

rank

-

extend pool

-

逻辑卷logic volume

-

逻辑存储子系统logic storage subsystem

-

地址组address group

-

卷组volume group

-

主机连接host attachment

5.1定义

在我们快速发展的世界里,必须对快速响应变化的商业环境,基础架构必须允许随需的改变。虚

拟化是一个随需应变架构的关键。然而,谈论虚拟化的时候,很多厂商谈论的不尽相同。

DS8000的一个重要的特性是虚拟化一个完全的存储子系统。如果客户必须运行不同的负载,例

如一个服务提供商可能运行不同银行的负载,因此它可能最好完全把负载分离开。这将被使用I

BM的LPAR技术的处理器方面实现;同样的技术现在也对IBM TotalStorage DS8000系统有效,

另一个虚拟化的定义是,从物理硬盘驱动器到主机和服务器看起来像是一块物理硬盘的一个逻辑

卷的提取过程。

5.2存储系统虚拟化

IBM具有在虚拟化方面很长的历史和经验。这可以往前追溯几十年,在上世纪60年代中期当虚

拟化内存被引入操作系统。那时,IBM开发了一个系统能够虚拟化整个processor complex——

包含处理器、内存和设备。这个操作系统被叫做虚拟计算机Virtual Machine (VM)。之后这个功

能也成为S/390处理器上一个硬件功能。当processor complex运行在LPAR模式,几个操作系

统能够互相隔离和独立的运行在同一个硬件基础上。

从S/390和zSeries继承而来的LPAR能力现在变为在POWER5 pSeries上可用。DS8000是基于

POWER5技术,因此能够利用这些功能的优势,包括LPAR功能。

DS8300 Model 9A2支持LPAR模式。现在可以运行2个逻辑分区在一套物理存储系统单元上。

每个分区可以运行一个存储设备影像。一个存储设备影像是一个虚拟存储子系统,拥有自己的L

IC拷贝,包含AIX内核和功能代码。2个存储设备影像共享物理硬件,并由LPAR系统管理程

序(hypervisor)管理这些共享的硬件,现在,对于像处理器、内存、cache和I/O的分配比例有

一些限制。详细的信息请参阅第三章,“存储系统LPAR(逻辑分区)”。

像在无LPAR的模式下,有2个SMP运行在一个AIX核心并形成一个由2个服务器构成的stor

age complex,服务器0和服务器1,一个存储设备影像是它自己的storage complex,但是因为

它没有自己的物理硬件(存储单元),可以把它当作一个虚拟存储系统。每个存储设备影像能运

行自己版本的LIC。所有的存储设备影响全部被LPAR hypervisor分离开来。磁盘驱动器和阵列

拥有一个或另一个存储设备,它们无法被分割。

图5-1显示了LPAR的概念

5-1

存储设备虚拟化

在下面的部分,当我们谈论服务器0或服务器1时,我们的意思也是指运行在一个LPAR内的一

个存储设备影像的服务器0或服务器1。

5.3磁盘虚拟化的抽象层次

在此章,当我们讨论虚拟化时,我们讨论的是将一串准备好的物理硬盘(DDM)用于一个操作

系统的过程,它意味着我们谈论的是建立LUN。

DS8000使用安装在disk enclosures的交换式FC-AL硬盘驱动器。按照16块相同容量和转速的

硬盘进行订购。这些硬盘可以通过一对DA访问。每个DA有4条路径到磁盘驱动器。这4条路

径提供2个FC-AL设备接口,每个接口对应2条路径,这样,设备接口上的任一路径都能够被

用于与所有任何硬盘驱动器通信(换句话说,路径是冗余的)。每个DA上的设备接口连接到一

组FC-AL设备上,这样,任何一个DA都能够通过2个独立的交换式网络访问任何硬盘驱动器

(换句话说,DA和交换机是冗余的)。

每个DA有4个端口,并且DA成对工作,因此共有8个端口或路径到硬盘驱动器。所有8个端

口能够同时工作,并能访问所有连接到网络的硬盘驱动器。哪一个DA拥有硬盘是在逻辑配置时

决定的。这避免了在两个DA之间访问硬盘时的争夺。

5-2

物理层最为基础的虚拟化

图5-2显示了虚拟化基于物理层

对比ESS的设计,ESS使用一个真实的环路以及拥有8-pack硬盘与DA有紧密关系。这不再使

用在DS8000上。因为交换式设计,每个硬盘到DA之间直接连接,通过光纤通道交换机绕过其

他硬盘,不需要更多的跳跃。所以,这不是一个真正的环路,但是一个交换式FC-AL环路使用

FC-AL寻址图解:仲裁环路物力寻址Arbitrated Loop Physical

Addressing (AL-PA)。

5.3.1 Array site

一个Array site是一组8块DDM。DS8000预定义了哪些DDM构成一个array site,但是需要注

意,这里没有预定义array site与服务器之间的关系。一个array site从不同环路的2个disk enc

losures中选择DDM(如图5-3)。

在array site中的DDM是相同的DDM类型,这意味着相同容量和相同转速(RPM).

5-3 array site

从图5-3中可以看出,array site跨越了环路。4个DDM从环路1中抽取,另外的4块DDM从

环路2中抽取。

Array site是定义Array的积木。

5.3.2 Array

一个array创建在一个array site上。形成一个array意味着定义了一个特殊的RAID类型。支持

RAID类型有RAID-5和RAID-10(详见4.6.2,“RAID-5概述”和4.6.3,“RAID-10概述”)。可

以为每个array site可以选择一个RAID类型。为一个array选择RAID类型的过程也被叫做定义

一个array。

注意:在现在的DS8000中,一个array被定义使用一个array site。

依据DS8000 spare算法,array site有0到2个spare盘。未来在第6章中详细描述,“IBM Tot

alStorage DS8000 model概述”。

图5-4显示了RAID-5阵列中创建一个spare的过程,也叫做一个6+P+S阵列(6块DDM保存

数据,一块DDM保存校验数据,一块一盘作为spare盘)。根据RAID-5的机制,在这个例子中,

校验数据平均分布到所有的7块硬盘上。

在图5-4右边的的D1、D2、D3等,代表阵列中一组在每块硬盘中包含的条带化数据。例如,如

果1GB数据写入,它将被分布在阵列中所有的硬盘上。

5-4

一个

array

的创建

因此,一个array site形成一个array,当array能够被每个DA对的一个DA访问,它被一个DA

管理。哪个适配卡和哪个服务器管理这个array将在后面的配置路径中定义。

5.3.3 Rank

RANK是IBM DS8000和DS6000中的一个新的逻辑概念。

RANK的名字是由DS Storage Manager所自动指定的,例如R1、R2、R3等等,可以把已经定

义好的array加入到RANK当中。必须增加一个array到一个rank。

注意:在现在的DS8000中,一个rank建立在使用一个array上。

每个rank可用的空间将被划分到extent。Extent是逻辑卷的积木。一个extent跨越一个array被

条带化,如图5-5所示,并且在图5-6中的小方格表示出。

形成一个rank的过程要做两件事情:

array被格式化成FB(开放系统)或CKD(zSeries)数据。这决定了阵列上每块硬盘的一

个条带包含的数据的大小。

把array分成一个个相同容量的extent,extent的大小取决于该extent的类型,是FB还是C

KD。

一个FB rank使用1GB的extent大小(1GB等于2

30

字节)。

在zSeries环境中不使用gigabyte,反而以3390卷大小替代。一个3390 Model 3三倍于Model

1的大小,一个Model 1有1113个cylinder,大小为0.94GB。CKD rank的extent大小所以是一

个3990 Model 1或者称为1113个cylinder。

一个extent是创建一个LUN或者一个CKD卷时的最小的物理分配单元,会在后面详细讨论。

定义CKD卷必须是一个cylinder的整数倍,而定义FB LUN必须是128个logical blocks(64K

bytes)的整数倍。然而,如果定义的容量不是一个extent的整数倍,那么最后一个extent中未用

的容量空间就浪费了。例如,定义一个cylinder CKD卷,1113个cylinder被分配但是1112个c

ylinder被浪费了。

图5-5显示了一个array格式化为1GB extent的FB数据的例子(rank中的正方形表示extent由

来自不同DDM的很多block组成)。

5-5

1GB extent

形成一个

FB rank

5.3.4 Extent pool

一个extent pool是一个逻辑构造,从一组rank形成的extent集合为一个域,分配出逻辑卷。典

型的是extent pool中的一组rank具有相同的RAID类型和相同的硬盘转速参数,因而extent po

ol中的extent具有完全相同的参数。这里没有预定义rank或array到一个存储服务器的关系。一

个rank(以及它关联的array)与一个服务器的关系决定于其分配给哪一个extent pool。

使用相同extent类型的一个或多个rank能够分配给一个extent pool。一个rank也可以分配给唯

一的extent pool。extent pool的数量可以与rank的数量相同。

DS Storage Manager GUI引导用户在一个extent pool里使用相同的RAID类型。当一个extent

pool被定义,它必须分配以下属性:

-

服务器关连Server affinity

-

extent类型

-

RAID类型

extent pool最小的数量是1:然而,一般情况下需要最少2个,一个分配给服务器0,另一个分

配给服务器1,于是所有的服务器都是活动的。在FB和CKD都存在DS8000存储服务器上时,

可以定义4个extent pool,一个FB pool给每个服务器,一个CKD pool给每个服务器,在两个

服务器之间平衡容量。当然,也可以定义一个FB pool分配给一个服务器,定义一个CKD pool

分配给另一个服务器。另外的extent pool可以根据不同的DDM类型分离成不同的rank。

Rank被组织为2个rank group:

-

rank group 0被服务器0控制

-

rank group 1被服务器1控制

重要:必须在两个服务器之间平衡容量以获得最佳性能。

图5-6是一个混合CKD和FB extent pool的例子。

5-6 Extent pool

可以通过添加更多的rank到一个extent pool中来扩展extent pool。

5.3.5逻辑卷

一个逻辑卷由一个extent pool中的一组extent组成。

在一个DS8000上最大能够达到65280(我们在讨论中使用64K的缩写,即使实际上是65536-2

56,这在二进制中不等于64K)个卷能够建立(64K CKD,或64K FB卷,或混合两种类型,

但是总数不能超过64K)。

Fixed Block LUNs

一个逻辑卷由被称为LUN的固定的Block LUN extent组成。一个固定的Block LUN由一个F

B entent pool中的一个或多个1GB(2

30

)entent组成。一个LUN不能横跨多个extent pool,但

是一个LUN能够使用在相同extent pool中的从不同rank得来的extent。可以创建最大为2TB(2

40

)大小的LUN。

LUN能够以二进制GB(2

30

字节),十进制GB(2

9

字节)、512或520字节分配。然而,分配给

一个LUN的物理容量总是1GB的倍数,因此一个很好的想法是LUN大小是一个gigabyte的倍

数。如果定义一个LUN不是1GB的倍数,例如,25.5 GB,LUN大小是25.5 GB,但是物理上

分配了26 GB,0.5 GB的物理容量被浪费了。

CKD卷

一个zSeries CKD卷由从一个CKD extent pool中的一个或多个extent组成。CKD extent的大

小是1113个cylinders的3390 Model 1。然而,当定义一个zSeries CKD卷,需要得到的卷不能

指定3390 Model 1的数量,而是指定cylinders的数量。

可以定义CKD卷达到65520个cylinders,大小是55.6 GB。

如果cylinders的数量指定的不是1113个cylinders的整数倍,那么在最后分配的extent的一些空

间就会被浪费。例如,如果定义1114个或3340个cylinders,1112个cylinders被浪费掉了。为

了最大的存储利用率,应该考虑分配的卷是精确的1113个cylinders整数倍。事实上,为了未来

的兼容性,应该也考虑3339个cylinders的整数倍。

如果希望使用cylinders的最大数量(65520),应该考虑这不是1113的倍数。可以达到每个卷6

5520个cylinders,并浪费147个cylinders(区别于下一个1113的倍数)或者最好以1113个整数

倍的64554个cylinders(58倍),或者更好采用Model 3尺寸,3339整数倍的63441个cylinder

s。

一个CKD卷不能跨越extent pool,但是一个卷能够在相同extent pool中的从不同rank得来的e

xtent得来。

5-7

分配一个

CKD

逻辑卷

图5-7显示了怎样的一个逻辑卷被分配以一个CKD卷的例子。FB卷的分配过程与它非常相似。

5-8

一个

FB LUN

的创建

iSeries LUN

iSeries LUN也有固定的1GB extent块组成。然而,对于iSeries LUN有一些特别方面。DS800

0上建立LUN总是有RAID保护。LUN基于RAID-5或RAID-10阵列。然而,可能希望欺骗O

S/400

®

,告诉它LUN没有RAID保护。这使得OS/400做自己的镜像。iSeries LUN有无保护(u

nprotected)属性,DS8000将向一个iSeries主机说谎,并告诉它LUN没有RAID保护。

OS/400只支持固定大小的卷,例如类型大小是8.5 GB,17.5 GB和35.1 GB。这些尺寸不是1

GB的倍数,因此依赖于类型的选择,一些空间将被浪费。iSeries LUN显示给主机的是520字

节的块。操作系统使用这些字节的8字节,因此可用的空间像其他SCSI LUN一样,依旧是51

2字节。iSeriesLUN容量是512字节块为单位的,按照GB(10

9

)表达出来。这些容量应该被转

换为GB(2

30

),当考虑到有效的利用1GB(2

30

)的extent时。更多的信息请参阅附录B,“在i

Series环境使用DS8000”。

分配和删除LUN/CKD卷

被分派给一个extent pool的所有rank的extent被独立的可利用的分配给逻辑卷。给一个LUN/

卷的Extent被逻辑定制,但是它们不是必须来自一个rank,并且extent不必临近一个rank。现

在DS8000的extent分配算法将不跨rank分布extent。算法将使用一个rank内可利用的extent,

除非rank里没有足够的空闲的extent,但是在同一个extent pool内的其他rank有空闲的extent。

当这种算法存在,用户也许想考虑投入每extent pool一个rank来控制逻辑卷跨越rank的分配方

式来改善性能,除了逻辑卷的容量需要比一个rank的容量大的唯一情形。

DS8000中这种使用固定extent形成一个逻辑卷的方法允许管理逻辑卷更加灵活。我们能删除L

UN并且再使用这个LUN的extent建立另一个LUN,可能是不同的大小。在同一个extent pool

内一个逻辑卷在不影响其它LUN条件下移除。对比ESS,不可能删除一个LUN除非整个array

被重新格式化,这一点上,DS8000提供了更好的灵活性和允许根据需要进行改变。

因为extent被cleaned在删除一个LUN或CKD卷以后,它也许需要到这些extent被重新分配利

用的时候。重新格式化extent是一个后台进程。

IBM计划未来提高LUN/卷管理的灵活性。我们援引从DS8000的公告信基本方向的以下声明:

扩展

IBM

的动态提供技术在

DS8000

系列计划提供

LUN/

卷:动态扩展、在线数据重新分布、超

出提供的虚拟容量以及高效的

FlashCopy

最小保留目标容量的空间。

5.3.6逻辑子系统Logical subsystems (LSS)

一个逻辑子系统(LSS)是另一个逻辑构造。它聚合逻辑卷logical volumes、LUN为一组,可最

大达到256个逻辑卷。

在一台ESS上有一个固定的关联在逻辑子系统LSS(和它关联的逻辑卷)和DA(和它关联的r

ank)之间。一个8-pack到一个DA的关联决定了哪个LSS的数字能被选择为一个卷。在一台E

SS上能达到有16个LSS能被定义,这依赖于DA和阵列的物理配置。

在DS8000,在任何rank和任何逻辑子系统之间没有固定的关联。一个或多个rank的容量能被

聚集入一个extent pool,并配置逻辑卷,由于extent pool不一定针对任何具体的rank。在同一

个LSS内不同的逻辑卷能被配置在不同的extent pool中。这样,存储设备的可用容量能够能被

灵活的分配横跨一组定义好的LSS和逻辑卷。

DS8000中,在array和LSS之间的预定义关联也没有了。LSS的数量也改变了。现在可以为DS

8000定义达到255个LSS,甚至可以使LSS的数量超过array。

现在可以为每个LUN或CKD卷选择一个LSS。最大可以有256个卷放入一个LSS中。然而,

有一个限制。我们看到的卷是从一个extent pool中的一串extent形成的。无论怎样,extent poo

l是属于一台服务器,分别为服务器0或服务器1。LSS也和服务器有关联。所有偶数LSS(X’

00,X’02,X’04,到X’FE’)属于服务器0,所有奇数LSS(X’01,X’03,X’05,到X’FD’)属

于服务器1。LSS X’FF’被保留。

zSeries用户应该对逻辑控制单元logical control unit (LCU)很熟悉。zSeries操作系统配置LCU

来建立设备地址。在一个LCU和一个CKD LSS(LSS X’ab’映射给LCU X’ab’)之间是一对一

的关系。逻辑卷有一个逻辑卷编号X’abcd’,X’ab’定义了LSS,X’cd’是LSS上256个逻辑卷其

中之一。当一个逻辑卷被创建和确定与LSS的关联的时候,逻辑卷的编号会分配给一个逻辑卷。

与一个LSS关联的256个可能的逻辑卷映射给一个LCU可能的256个设备地址(逻辑卷X’abc

d’映射给LCU X’ab’的设备地址X’cd’)。当创建CKD逻辑卷以及分配它们逻辑卷数量的时候,

使用者应该考虑是否并行访问卷Parallel Access Volumes(PAV)必须在LCU上,和为别名地址

保留一些地址在LCU。更多的信息请参阅第十章,“DS存储管理器-逻辑配置”。

对于开放系统,LSS并不是一个重要的角色,除了确定由哪台服务器管理LUN(和哪个extent

pool必须被分配)、并且在某些Metro Mirro、Global Mirror,或任何其他远程拷贝功能有关的方

面。

一些Metro Mirro、Global Mirror或Global Copy操作的管理动作是在LSS级别的。例如,如果

有一个问题在一对当中的一个,为了保护跨越所有对的数据一致性冻结对,是在LSS级别完成

的。选择投入所有的或大多数的某一应用的卷在一个LSS上,这是的管理远程拷贝更加方便(如

图5-9)。当然,在ESS上能够把一个应用的所有卷都放入一个LSS内,但是那个应用的所有的

卷也在一个或一些array上,并且从一个性能的观点上看这不是一个令人满意的方法。现在,DS

8000上可以组合卷在一个或一些LSS上,但是仍然有卷在许多array或rank上。

5-9

LSS

内的卷分组

当在LSS上第一个固定块逻辑卷被创建和删除时,固定块LSS被自动创建和删除。CKD LSS

需要制定用户参数和必须在第一个CKD逻辑卷在LSS创建之前被建立;必须在LSS上崔后一

个CKD卷被删除以后手工删除。

地址组Address groups

当建立第一个LSS关联时地址组就会自动被建立,以及当最后一个LSS被删除时地址组随之自

动删除。

LSS可以是CKD LSS,也可以是FB LSS。在一个LSS内所有的设备必须是CKD或FB。这个

限制会持续存在。地址组可以由16个LSS组成。LSS被编号为X’ab’,a是地址组的编号,b是

在这个地址组的LSS编号。因此,例如X’10’到X’1F’是在地址组1中的LSS。

在一个地址组中的LSS必须是同一个类型,CKD或者FB。地址组中第一个LSS的类型决定了

那个地址组的类型。

zSeries的客户仍然想使用ESCON连接DS8000和主机的话,必须意识到ESCON只支持地址组

0(X’00’到X’0F’)中只有16个LSS这种影响。因此,这个地址组需要为ESCON连接设备保留,

这样的话,这个地址组就不能用于FB LSS。

图5-10显示了LSS和地址组的概念。

5-10

逻辑存储子系统

Logical storage subsystems

LUN标识的X’gabb’由地址组X’g’、在地址组中的LSS X’a’和LSS中的LUN的位置X’bb’组成。

例如,LUN X’2101’表示了在地址组2中的LSS X’21’的第二个(X’01’)LUN。

5.3.7卷访问

DS8000提供了控制主机访问LUN的机制。在多数情况下,一台服务器有2块或更多块的HBA

卡,以及服务器需要访问一组LUN。为了容易的管理服务器访问逻辑卷,DS8000引入了主机连

接和卷组的概念。

主机连接Host attachment

在DS8000上,一个主机连接结构中使用HBA卡的确定的World Wide Port Names (WWPNs)

把HBA辨别出来。一批主机端口能够与一个端口组属性关联起来,允许一批HBA卡被共同管

理。这个端口组在GUI中被归类于主机连接host attachment。

一个给定的host attachment只能与一个卷组关联起来。每个host attachment能够与一个卷组关

联起来,以此决定哪些LUN和HBA允许被访问。多个host attachment能够被相同的卷组共享。

Host attachment也可以规定一个端口掩码来控制DS8000 I/O端口允许哪些HBA登陆。无论HB

A从哪一个端口登陆,都会被视于host attachment规定的与HBA关联的同一个卷组。

在一台DS8000中Host attachment最大的数字是8192。

卷组Volume group

一组逻辑卷被定义为一个卷组。当使用CKD主机连接时,有一个默认的卷组包含了所有的CK

D卷,任何CKD主机都可以通过一个FICON I/O端口访问这个卷组的卷。CKD逻辑卷当创建

的时候被自动的添加到这个卷组,当删除逻辑卷的时候会被自动从这个卷组中删除。

当使用开放系统主机时,一个Host attachment目标与HBA连接到的一个明确的卷组关联来。用

户必须通过标志哪个fixed block逻辑卷被放置在内来定义卷组。逻辑卷可以动态的从任何卷组

中添加和删除。

开放系统主机有两种类型的卷组可以使用,并且这些类型决定了逻辑卷编号怎样被转换为主机可

寻址的在光纤通道SCSI接口上的LUN-ID。一个映射卷组map volume group的类型被用在与F

C SCSI主机类型关联上,通过LUN在SCSI接口地址范围轮询的方式。这个卷组的类型能够把

最后六字节是0,最开头的2个字节范围是X'0000'到X'00FF'的任何FB逻辑卷映射为256个LU

N _ID。

一个掩码卷组mask volume group的类型被用在与FC SCSI主机类型关联上,使用Report LUN

命令定义LUN_ID的访问权限。这种类型的卷组能够允许所有FB逻辑卷数量能够被主机访问,

这个掩码是一个规定哪些LUN可以被访问的位图bitmap。对于这种卷组类型,逻辑卷编码X'ab

cd'被映射到LUN_ID X'40ab40cd00000000'。卷组类型也控制着在卷组中被配置的512字节bloc

k LUN或520字节block LUN。

当一个host attachment与一个卷组缔合时,host attachment包含了定义一个逻辑block大小和通

过主机HBA使用的Address Discovery Method(LUN轮询或报告LUN)的属性。这些属性必须

与被分配给host attachment的卷组的类型一致,因此HBA共享一个卷组具有一个一致性的卷组

定义和具有访问一致的一组卷组类型的解释。GUI典型的为HBA基于用户的一个主机类型的规

格进行适当的设置。用户必须考虑当为一个特殊的HBA设定一个卷组时建立什么样的卷组类型。

FB逻辑卷能够被定义到一个或多个卷组中。这允许一个LUN被配置给不同卷组的主机HBA共

享。当删除一个FB逻辑卷时,它自动从所有卷组中移除。

DS8000卷组的最大数量是8320。

5-11 host attachment

和卷组

图5-11显示了在host attachment和卷组之间的关系。主机AIXprod 1有2块HBA,被分组到一

个host attachment,它们都被授权访问卷组DB2-1。在卷组DB2-1中的大部分卷也在卷组DB2-

2中,通过AIXprod2访问。在我们的例子中,这里的每个卷组中仍然有一个卷没有被共享。在

左下部分的服务器有4块HBA,它们被分开到2个独立的host attachment。一个能够访问被AI

Xprod1和AIXprod2共享的一些卷。另一个能够访问一个叫做“docs”的卷组。

5.3.8虚拟化层次的总结

通过虚拟化层次,我们从一串被分组进array site的硬盘开始。一个array site被转化进一个arra

y,最后有热备盘。array更进一步的转化进一个rank,随着extent被格式化为FB或CKD数据。

下一步,extent被添加到一个extent pool中,这个extent pool决定了哪个存储服务器(storage

server)将服务rank以及在后来分配给一个或多个逻辑卷的extent pool中集合所有rank的exten

t。

下一步,我们在extent pool中建立逻辑卷,分配给它们一个逻辑卷号,逻辑卷号决定了哪些逻

辑子系统将与其关联,以及那些服务器将管理它们。之后,LUN能够被分配给一个或多个卷组。

最后,主机HBA被配置到与一个给出的卷组的一个host attachment关联。

这种新的虚拟化概念提供了更多的灵活性。逻辑卷能够动态建立和删除。它们能够被分组,逻辑

上简化存储管理。大的LUN以及CKD卷减少了卷的总数,以及为减少管理工作做出了贡献。

图5-12总结了虚拟化层次。

5-12

虚拟化层次

5.3.9数据放置

就像先前章节的阐述,如何去建立逻辑卷有几个选项。您能选择被一个服务器控制的一个extent

pool。可以是一个服务器只有一个extent pool,或者一个服务器具有多个extent pool。extent p

ool的rank可以来自于在不同DA对和不同环路或者同一个环路的array。图5-13显示了在一台

DS8000中8个逻辑卷的最优分配方式。当然您可以有多个extent pool和rank,但是当您想分配

您的数据达到最佳性能的时候,您应该确定它们展开并跨越2个服务器,跨越不同的DA对,跨

越环路以及跨越多个rank。

如果您在您的主机上使用一些类别的逻辑卷管理器(像AIX上的LVM),您能从多个DS8000

的逻辑卷(LUN)建立一个主机逻辑卷。您能从不同的DS8000的服务器中选择LUN、DA和环

路,就像图5-13所示。通过跨越LUN条带化您的主机逻辑卷,您将会得到最好性能的LVM卷。

5-13

最佳的数据放置

5.4虚拟化的益处

DS8000物理和逻辑架构定义了新的企业及存储虚拟化的标准。虚拟层主要的益处是:

灵活的LSS定义允许达到每个LSS的设备数量最大化/最优化。

在RAID rank和LSS之间没有严格的关系。

LSS性能与下面的存储没有关系

LSS的数目能够根据需要的设备数量定义

-

大量的设备可能只需要用更少的LSS

-

一个特殊的应用的卷能够保持在一个单独的LSS

-

如果需要,能够定义更小的LSS(为系统/应用需要的较少的存储)

-

相比生产系统,测试系统能拥有它自己的具有较少卷的LSS

增加逻辑卷的数量

-

达到65280(CKD)

-

达到65280(FB)

-

CKD+FB总数达到62580

在4096地址组中任意混合CKD或FB

增加逻辑卷大小

-

CKD:55.6 GB(62580 cylinders),体系架构达到219TB

-

FB:2TB,体系架构达到1PB

灵活的逻辑卷配置

-

多种RAID类型(RAID5,RAID10)

-

存储类型(CKD和FB)聚集在extent pool里

-

从extent pool的extent分配卷

-

动态添加/移除卷

虚拟化减少了存储管理的需求

本文标签: 服务器能够逻辑