AIX6106下安装oracle11g RAC时创建GRIDDG磁盘组存储ocr和vote disk没有候选磁盘的解决方法

  • A+
所属分类:技术

chatGPT账号
AIX6106下安装oracle11g RAC时创建GRIDDG磁盘组存储ocr和vote disk没有候选磁盘的解决方法

知点

AIX6106下安装oracle11g RAC时创建GRIDDG磁盘组存储ocr和vote disk没有候选磁盘的解决方法

问题场景

Aix6106上安装oracle11g RAC,在安装grid软件的过程中,进行到选择磁盘组存放ocr和vote disk步骤时,没有候选磁盘可供选择。正常情况下应该有多块rhdisk磁盘供选择,通常选择一个容量在2G到10G左右的磁盘来创建GRIDDG磁盘组,存放ocr和vote disk。

Oracle11g rac通常是把ocr和vote disk交给ASM来管理,并且11g已经不再支持裸设备,目前情况下只能使用ASM来管理ocr和vote disk。

报错环节截图:

选择ASM来管理ocr和vote disk ,点击next 如下截图

选择磁盘部分没有候选磁盘可供选择加入到磁盘组。

原因

出现该问题有多方面的原因:

  • 两个节点确实没有可以正常使用的共享存储磁盘
  • 共享磁盘的属主和权限设置不正确,grid用户无法正常使用
  • 图形界面上选择磁盘的disk discovery path设置不正确
  • 没有dd磁盘头,磁盘头中仍然记录了原来的信息,共享磁盘可能原来属于某一个vg或者曾经用作其他用途。总之共享安装rac使用的共享存储是旧的存储,磁盘头仍然记录了原来的残留信息。
  • AIX操作系统版本号不一致,两个节点虽然都识别到了共享存储,但是节点间交换信息时因为os版本号不一致导致识别共享存储的方式不同,所以节点间互相不认识对方识别上来的是共享磁盘。所以没有共享磁盘可供选择。
  • 操作系统上安装了其他的第三方集群软件,集群软件造成操作系统无法再提供共享磁盘给grid软件使用。

解决方法

针对操作系统版本号不一致的解决方法

rac中所有节点的os版本号必须完全相同。否则rac安装失败。

aix的版本号中小版本号之间区别也非常大,不能仅要求到6100相同,必须要求从大       版本号到小版本号完全相同才能成功安装rac。不同版本的aix os加载磁盘的方式是 不同的,比如6106和6102两个版本识别存储的方式是完全不同的。如果在版本号分别      为6106和6102的两个节点上安装rac ,在以ASM方式创建ocr磁盘组时没有候选的  共享磁盘可供选择。因为两个版本的os识别共享存储的方式不同,两个节点都互相不 认为对方节点加载上来的磁盘是共享存储。这样就没有共享存储磁盘可供选择来创建       ocr磁盘组

解决方法:

升级os版本号到完全相同的版本:6100-06-06-1140

一、上传6106升级包到aix214主机(该节点os版本号为6100-02-02-3721)

二、升级aix214节点的os版本号

1、smitty

Software Installation and Maintenance

Install and Update Software

Update Installed Software to Latest Level (Update All)

INPUT device / directory for software              [.]

注:执行smitty之前cd到/software/6106路径下

 

执行os的升级 ,升级完成后重启os,检查操作系统版本号

# oslevel -s

 

所有节点的os版本号完全一致。

针对共享磁盘权限和属主的解决方法

成功安装rac的前提条件是共享存储都正确的设置了属主和权限。

如下是成功安装rac后的共享磁盘权限和属主截图

aix213节点:

hdisk截图:

 

rhdisk截图

 

 

aix214节点:

hdisk截图:

 

rhdisk截图

 

在rac安装过程中所有被使用到的共享磁盘必须设置成截图中所示的属主及权限,才能在asmca创建磁盘组时,作为候选磁盘可供选择,如果没有正确设置属主及权限,是不会出现在候选磁盘中的。

解决方法:

设置属主:chown grid:asmadmin /dev/rhdisk1

chown grid:asmadmin /dev/rhdisk2

     chown grid:asmadmin /dev/rhdisk3

chown grid:asmadmin /dev/rhdisk4

`             chown grid:asmadmin /dev/rhdisk5

chown grid:asmadmin /dev/rhdisk6

设置权限:

chmod 660 /dev/rhdisk1

chmod 660 /dev/rhdisk2

chmod 660 /dev/rhdisk3

chmod 660 /dev/rhdisk4

chmod 660 /dev/rhdisk5

chmod 660 /dev/rhdisk6

注:不用修改hdisk*磁盘的属主和权限,实际上也不允许修改hdisk*磁盘的属主及权限,任何情况下hdisk*磁盘的属主都应该是root用户,如果修改了hdisk*磁盘的属主及权限可能会带来其他意想不到的麻烦。切记不能修改hdisk*磁盘的属主及权限。

 

针对磁盘没有dd干净的解决方法

如果共享磁盘没有dd干净,磁盘头仍然记录着原来的信息,该共享磁盘原来可能属于某一个vg或者曾经用作其他的用途。此时该共享磁盘是不会作为候选磁盘出现可供选择的。

解决方法:

为了确保dd干净,并且最大可能的减少其他无法预测的问题的出现,最有效的解决方法是在rhdisk*和hdisk*磁盘上同时执行dd操作。

并且尽可能多的破坏磁盘头的空间即设置bs * count的值尽量大。

解决方法:

在每一个节点都执行如下操作即同时dd:hdisk*和rhdisk*

dd if=/dev/zero of=/dev/rhdisk1 bs=1M count=200

dd if=/dev/zero of=/dev/hdisk1 bs=1M count=200

 

dd if=/dev/zero of=/dev/rhdisk2 bs=1M count=200

dd if=/dev/zero of=/dev/hdisk2 bs=1M count=200

 

dd if=/dev/zero of=/dev/rhdisk3 bs=1M count=200

dd if=/dev/zero of=/dev/hdisk3 bs=1M count=200

 

dd if=/dev/zero of=/dev/rhdisk4 bs=1M count=200

dd if=/dev/zero of=/dev/hdisk4 bs=1M count=200

 

 

dd if=/dev/zero of=/dev/rhdisk5 bs=1M count=200

dd if=/dev/zero of=/dev/hdisk5 bs=1M count=200

 

dd if=/dev/zero of=/dev/rhdisk6 bs=1M count=200

dd if=/dev/zero of=/dev/hdisk6 bs=1M count=200

 

针对hacmp的解决方法

如果os上安装有第三方的集群软件 ,会阻止os提供共享磁盘给RAC使用。所以必须彻底卸载第三方集群软件(AIX上是hacmp),并且彻底删除临时文件和相关类库。最后重启os杀死所有的残留进程。

解决方法:

所有节点都必须彻底卸载hacmp软件,删除临时文件并重启os

  • 卸载软件

Smitty

Software Installation and Maintenance

Remove software

在选择需要删除的软件页面查找所有以cluster开头的软件包即hacmp相关软件包

输入“/”

输入查找关键字“cluster”

F7选择所有以cluster开头的软件包,彻底卸载。

切记:preview 选项一定要选择no,即真实的彻底卸载hacmp相关软件包,切记!!!!

 

  • 清除hacmp的相关临时文件和类库

rm –rf /var/ha

rm –rf /var/hacmp

rm –rf /opt/ORCLfmap

  • 重启os杀死与hacmp相关的所有残留进程

shutdown -Fr

针对是否是共享存储的解决方法

Aix系统可能使用了多路复用软件,即出现了所谓的“诡盘”现象

两个节点识别上来的磁盘确实不是共享存储,这样无论如何都不会有候选磁盘(共享磁盘)可供选择。

解决方法:

必须确认两个节点是磁盘是否是共享存储:

Aix213节点:

mpio_get_config –Av

 

Aix214节点:

mpio_get_config –Av

 

通过比较User Label列来判断是否是共享存储:相同磁盘名称的磁盘对应的LUN(user lable列)相同就说明是共享存储。

如果最终确认确实不是共享存储,那么必须协调存储工程师重新划分和分配LUN。

针对磁盘保留策略的解决方法

如果磁盘的保留策略设置的不正确,也会造成无候选磁盘可供选择。

解决方法:

修改磁盘的保留策略,所有节点都执行如下命令:

chdev –l hdisk1 –a reserve_policy=no_reserve

     chdev –l hdisk2 –a reserve_policy=no_reserve

chdev –l hdisk3 –a reserve_policy=no_reserve

chdev –l hdisk4 –a reserve_policy=no_reserve

chdev –l hdisk5 –a reserve_policy=no_reserve

chdev –l hdisk6 –a reserve_policy=no_reserve

确认磁盘保留策略修改是否生效:

执行如下命令查看磁盘保留策略:

lsattr –El hdisk1

查看效果截图如下:

问题解决思路:

出现该问题时原因是多方面的,必须按照正确的排错思路才能以最快最有效的方式解决该问题。

解决该问题的正确思路

排错思路应该是按照如下顺序:

1、针对磁盘没有dd干净的解决方法

2、针对是否是共享存储的解决方法

3、针对磁盘保留策略的解决方法

4、针对共享磁盘权限和属主的解决方法

5、针对操作系统版本号不一致的解决方法

6、针对hacmp的解决方法

本文由 知点 首发于【知点网http://www.zhidnet.com)】未经允许不得以任何方式转载,违者必将追究法律责任

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的电报
  • 这是我的电报扫一扫
  • weinxin
chatGPT账号
知点

发表评论

您必须登录才能发表评论!