admin管理员组文章数量:1627746
http://blog.sina/s/blog_8317516b01015ipp.html
适用于:Oracle Database - Enterprise Edition - 版本 11.2.0.1 和更高版本本文档所含信息适用于所有平台 用途本文档的目的是总结可能阻止 Grid Infrastructure (GI) 成功启动的 5 大问题。 适用范围本文档仅适用于 11gR2 Grid Infrastructure。 2. $GRID_HOME/bin/crsctl stat res -t -init 3. $GRID_HOME/bin/crsctl stat res -t 4. ps -ef | egrep 'init|d.bin' 详细信息问题 1:CRS-4639:无法连接 Oracle 高可用性服务,ohasd.bin 未运行或 ohasd.bin 虽在运行但无 init.ohasd 或其他进程症状: 1. 命令“$GRID_HOME/bin/crsctl check crs”返回错误: 3. 命令“ps -ef | grep d.bin”不显示类似于如下所示的行: root 21350 1 6 22:24 ? 00:00:01 /u01/app/11.2.0/grid/bin/ohasd.bin reboot 4. 日志 ohasd.log 中出现以下信息:
可能的原因: h1:35:respawn:/etc/init.d/init.ohasd run >/dev/null 2>&1 </dev/null 2. 未达到运行级别 3,一些 rc3 脚本挂起 3. Init 进程 (pid 1) 并未衍生 /etc/inittab (h1) 中定义的进程,或 init.ohasd 之前的不当输入,如 xx:wait:<process> 阻碍了 init.ohasd 的启动 4. CRS 自动启动已禁用 5. Oracle 本地注册表 ($GRID_HOME/cdata/<node>.olr) 丢失或损坏
h1:35:respawn:/etc/init.d/init.ohasd run >/dev/null 2>&1 </dev/null 并以 root 用户身份运行“init q”。 2. 运行命令“ps -ef | grep rc”,并kill看起来受阻的所有 rc3 脚本。 3. 删除 init.ohasd 前的不当输入。如果“init q”未衍生“init.ohasd run”进程,请咨询 OS 供应商 4. 启用 CRS 自动启动: # crsctl enable crs # crsctl start crs 5. 以 root 用户身份从备份中恢复 OLR(Oracle 本地注册表): # touch $GRID_HOME/cdata/<node>.olr # chown root:oinstall $GRID_HOME/cdata/<node>.olr # ocrconfig -local -restore$GRID_HOME/cdata/<node>/backup_<date>_<num>.olr # crsctl start crs 如果出于某种原因,OLR 备份不存在,要重建 OLR 就需要以 root 用户身份执行 deconfig 并重新运行 root.sh: # $GRID_HOME/crs/install/rootcrs.pl -deconfig -force # $GRID_HOME/root.sh
问题 2:CRS-4530:联系集群同步服务守护进程时出现通信故障,ocssd.bin 未运行症状: 1. 命令“$GRID_HOME/bin/crsctl check crs”返回错误: 2012-01-27 13:42:58.796: [ CSSD][19]clssnmvDHBValidateNCopy: node 1, racnode1, has a disk HB, but no network HB, DHB has rcfg 223132864, wrtcnt, 1112, LATS 783238209, 5. 对于 3 个或更多节点的情况,2 个节点形成的集群一切正常,但是,当第 3 个节点加入时就出现故障,ocssd.log 显示如下内容: 2012-02-09 11:33:53.048: [ CSSD][1120926016](:CSSNM00008:)clssnmCheckDskInfo: Aborting local node to avoid splitbrain. Cohort of 2 nodes with leader 2, racnode2, is smaller than 6. 10 分钟后 ocssd.bin 启动超时 2012-04-08 12:04:33.153: [ CSSD][1]clssscmain: Starting CSS daemon, version 11.2.0.3.0, in (clustered) mode with uniqueness value 1333911873 7. alert<node>.log 显示:
可能的原因: 1. 表决磁盘丢失或无法访问2. 多播未正常工作(对于版本11.2.0.2,这是正常的情况。对于 11.2.0.3 PSU5/PSU6/PSU7 和 12.1.0.1 版本,是由于Bug 16547309) 3. 私网未工作,ping 或 traceroute <private host> 显示无法访问目标。或虽然 ping/traceroute 正常工作,但是在私网中启用了防火墙 4. gpnpd 未出现,卡在 dispatch 线程中, Bug 10105195 5. 通过 asm_diskstring 发现的磁盘太多,或由于 Bug 13454354 导致扫描太慢(仅在 Solaris 11.2.0.3 上出现)
如果 OCR ASM 磁盘组中的 voting disk已经丢失,以独占模式启动 CRS,并重建表决磁盘: # crsctl start crs -excl # crsctl replace votedisk <+OCRVOTE diskgroup> 2. 请参考 Document 1212703.1 ,了解多播功能的测试及修正。对于版本 11.2.0.3 PSU5/PSU6/PSU7 和12.1.0.1, 您可以为集群私网启用多播或者应用补丁16547309 或最新的PSU。更多信息请参考 Document 1564555.1 3. 咨询网络管理员,恢复私网访问或禁用私网防火墙(对于 Linux,请检查服务 iptables 状态和服务 ip6tables 状态) 4. 终止正常运行节点上的 gpnpd.bin 进程,请参考 Document 10105195.8 一旦以上问题得以解决,请重新启动 Grid Infrastructure。 如果 ping/traceroute 对私网均可用,但是问题发生在从 11.2.0.1 至 11.2.0.2 升级过程中,请检查 Bug 13416559 获取解决方法。 5. 通过提供更加具体的 asm_diskstring,限制 ASM 扫描磁盘的数量,请参考 bug 13583387 对于 Solaris 11.2.0.3,请应用补丁 13250497,请参阅 Document 1451367.1.
问题 3:CRS-4535:无法与集群就绪服务通信,crsd.bin 未运行症状: 1. 命令“$GRID_HOME/bin/crsctl check crs”返回错误: 可能的原因: 1. ocssd.bin 未运行,或资源 ora.cssd 不在线2. +ASM<n> 实例无法启动 3. OCR 无法访问 4. 网络配置已改变,导致 gpnp profile.xml 不匹配 5. Crsd 的 $GRID_HOME/crs/init/<host>.pid 文件已被手动删除或重命名,crsd.log 显示:“Error3 -2 writing PID to the file” 6. ocr.loc 内容与其他集群节点不匹配。crsd.log 显示:“Shutdown CacheLocal. my hash ids don't match” 7.当巨帧(Jumbo Frame)在集群私网被启用时,节点私网能够通过“ping”命令互相联通,但是无法通过巨帧尺寸ping通(例如:ping -s 8900 <私网 ip>)或者 集群中的其他节点已经配置巨帧(MTU: 9000),而出现问题的节点没有配置巨帧(MTU:1500)。 8.对于平台 AIX 6.1 TL08 SP01 和 AIX 7.1 TL02 SP01,由于多播数据包被截断。
2. 对于 11.2.0.2 以上版本,确保资源 ora.cluster_interconnect.haip 在线,请参考 Document 1383737.1 了解和HAIP相关的,ASM无法启动的问题。 3. 确保 OCR 磁盘可用且可以访问。如果由于某种原因丢失 OCR,请参考 Document 1062983.1 了解如何恢复OCR。 4. 恢复网络配置,与 $GRID_HOME/gpnp/<node>/profiles/peer/profile.xml 中定义的接口相同,请参考 Document 283684.1 了解如何修改私网配置。 5. 请使用 touch 命令,在 $GRID_HOME/crs/init 目录下创建名为 <host>.pid 的文件。 对于 11.2.0.1,该文件归 <grid> 用户所有。 对于 11.2.0.2,该文件归 root 用户所有。 6. 使用 ocrconfig 命令修正 ocr.loc 内容: 例如,作为 root 用户: # ocrconfig -repair -add +OCR2 (添加条目) # ocrconfig -repair -delete +OCR2 (删除条目) 以上命令需要 ohasd.bin 启动并运行 。 一旦以上问题得以解决,请通过以下命令重新启动 GI 或启动 crsd.bin: # crsctl start res ora.crsd -init 7. 如果巨帧只是在网卡层面配置了巨帧,请敦促网络管理员在交换机层面启动巨帧。如果您不需要使用巨帧,请将集群中所有节点的私网MTU值设置为1500,之后重启所有节点。 8. 对于平台 AIX 6.1 TL08 SP01 和 AIX 7.1 TL02 SP01,根据下面的note应用对应的 AIX 补丁 Document 1528452.1 AIX 6.1 TL8 or 7.1 TL2: 11gR2 GI Second Node Fails to Join the Cluster as CRSD and EVMD are in INTERMEDIATE State
问题 4:Agent 或者 mdnsd.bin, gpnpd.bin, gipcd.bin 未运行症状: 1. orarootagent 未运行. ohasd.log 显示: 可能的原因: 1. orarootagent 缺少执行权限2. 缺少进程相关的 <node>.pid 文件或者这个文件的所有者/权限不对 3. GRID_HOME 所有者/权限不对
# cd <GRID_HOME>/crs/install # ./rootcrs.pl -unlock # ./rootcrs.pl -patch 这将停止集群软件,对需要的文件的所有者/权限设置为root用户,并且重启集群软件。 2. 如果对应的 <node>.pid 不存在, 就用touch命令创建一个具有相应所有者/权限的文件, 否则就按要求改正文件<node>.pid的所有者/权限, 然后重启集群软件. 这里是<GRID_HOME>下,所有者属于root:root 权限 644的<node>.pid 文件列表: ./ologgerd/init/<node>.pid ./osysmond/init/<node>.pid ./ctss/init/<node>.pid ./ohasd/init/<node>.pid ./crs/init/<node>.pid 所有者属于<grid>:oinstall,权限644 ./mdns/init/<node>.pid ./evm/init/<node>.pid ./gipc/init/<node>.pid ./gpnp/init/<node>.pid 3. 对第3种原因,请参考解决方案1
问题 5:ASM 实例未启动,ora.asm 不在线症状: 1. 命令“ps -ef | grep asm”不显示 ASM 进程
2. ASM discovery string不正确,因此无法发现 voting disk/OCR 3. ASMlib 配置问题 4. ASM实例使用不同的cluster_interconnect, 第一个节点 HAIP OFFLINE 导致第二个节点ASM实例无法启动
2. 请参考 Document 1077094.1 以更正 ASM discovery string。 3. 请参考 Document 1050164.1 以修正 ASMlib 配置。 4. 请参考 Document 1383737.1 作为解决方案。请参考 Document 1210883.1 了解更多HAIP信息
要进一步调试 GI 启动问题,请参考 Document 1050908.1 Troubleshoot Grid Infrastructure Startup Issues. |
- Oracle Database Products > Oracle Database Suite > Oracle Database > Oracle Database - Enterprise Edition > Clusterware > Installation Issues including cluvfy, OUI and root.sh
本文标签: 五大oracleGridInfrastructure
版权声明:本文标题:oracle_Grid Infrastructure 启动的五大问题 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dongtai/1729000905a1182583.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论