admin管理员组

文章数量:1535529

2024年7月21日发(作者:)

IBM TSM 存储备份系统

介质故障原因分析及解决办法

存储备份系统报介质故障是TSM 运维过程中常见故障之一;这里不是指硬件设备故

障(硬件故障必须报IBM 800 售后),这里的介质故障指的是TSM备份软件中定义的磁

带库设备由于机房断电、SAN交换机ZONE信息更改等原因导致TSM配置信息与系统重

新识别到的磁带库设备信息不一致,引起的故障。

一、案例:

1、查看rman备份报错日志

channel t2: starting piece 1 at 2015.08.24 01:00:19

RMAN-03009: failure of backup command on t1 channel at 08/24/2015 01:00

:26

ORA-19502: write error on file "oracle_full_DB_1537363504_1279_1_75997801

8_20150824"", blockno 1 (blocksize=512)

ORA-27030: skgfwrt: sbtwrite2 returned error

ORA-19511: Error received from media manager layer, error text:

ANS1312E (RC12) Server media mount not possible

channel t1 disabled, job failed on it will be run on another channel released c

hannel: t1 released channel: t2

RMAN-00569: ========= ERROR MESSAGE STACK FOLLOWS ========

RMAN-03009: failure of backup command on t2 channel at 08/24/2015 01:00

:26

ORA-19502: write error on file "oracle_full_SBDB_1137363504_1280_1_759978

018_20110824"", blockno 1 (blocksize=512)

ORA-27030: skgfwrt: sbtwrite2 returned error

ORA-19511: Error received from media manager layer, error text:

ANS1312E (RC12) Server media mount not possible

2、故障原因

工程师描述:机房停电,重新启动磁带库和备份服务器后,备份不成功。

分析:

TSM备份软件,在机房异常停电(SAN网络交换机设备连接发生调整)等情况下,

容易出现磁带库驱动器、介质变换器在操作系统中识别不到。

也有的时候,在停电重启时,TSM服务器识别到的磁带库设备名称会发生变化,造成

与TSM服务器中已经配置的设备名不一致。

这样情况,都会造成TSM 备份软件无法操作磁带库,导致备份失败。

3、检查设备状态、及配置信息

在设备管理器中检查磁带库设备状态;

在TSM管理控制台中检查磁带库设备名称;

检查TSM备份系统中磁带库设备配置信息;

对比设备名是否一致。

在设备管理器查看到磁带机设备和 媒体更换器设备状态是正常。

在TSM 管理控制台查看驱动器设备名称:

进入 TSM 管理命令行,对比之前配置的设备名是否不一致。

tsm: TSMserver>query path f=d

Source Name: TSMserver

Source Type: SERVER

Destination Name: DRIVER1

Destination Type: DRIVE

Library: 3584LIB

Node Name:

Device: mt0.1.0.3

On-Line: Yes

Last Update by (administrator): ADMIN

Last Update Date/Time: 10/19/14 11:49:07

Source Name: TSMserver

Source Type: SERVER

Destination Name: DRIVER2

Destination Type: DRIVE

Library: 3584LIB

Device: mt1.1.0.3

On-Line: Yes

Last Update by (administrator): ADMIN

Last Update Date/Time: 10/19/14 11:51:07

可以看出,TSM原有配置:

mt0.1.0.3

mt1.1.0.3

与TSM 管理控制台所显示的设备名称:

mt0.0.0.3

mt1.0.0.3

两者不一致,原因找到。

4、重新配置TSM设备

4.1更改配置

tsm:TSMserver>UPDATE PATH tsmserver DRIVE1 SRCTYPE=SERVER

DESTTYPE=DRIVE LIBRARY=3584LIB DEVICE= mt0.0.0.3

tsm:TSMserver>UPDATE PATH tsmserver DRIVE4 SRCTYPE=SERVER

DESTTYPE=DRIVE LIBRARY=3584LIB DEVICE= mt1.0.0.3

4.2删除配置,重新定义路径

删除配置

tsm:TSMserver>delete path tsmserver drive1 srctype=server desttype=drive l

ibrary=3584LIB

tsm:TSMserver>delete path tsmserver drive2 srctype=server desttype=drive l

ibrary=3584LIB

如果配置了存储代理,必须把存储代理的设备路径也得删除。

注意:

如果磁带机设备处于On-Line状态,删除的时候会报错;需要将磁带机设备更改为

Off-Line状态,才可以删除。

重新定义路径

tsm:TSMserver>define path tsmserver drive1 srctype=server desttype=drive l

ibrary=3584LIB device=mt0.0.0.3

tsm:TSMserver>define path tsmserver drive2 srctype=server desttype=drive l

ibrary=3584LIB device=mt1.0.0.3

5、根本原因

出现这种错误的主要原因,一般是SAN交换机ZONE 配置有问题;大部分是由于SAN

交换机没有规划ZONE,SAN网络中所有设备在一个大ZONE里。

本文标签: 设备磁带库备份