Oracle RAC 12c unter Windows: Ausfall einer Node
Nach dem Windows Update startet der Cluster auf einem der beiden RAC-Nodes nicht mehr. Bei der Analyse der Logfiles sind wir auf folgenden Fehler gestoßen:
2018-09-07 07:04:53.190121 : AGENT:1188: Agent framework initialized, Process Id = 4852
2018-09-07 07:04:53.190179 : USRTHRD:1188: clsscssd_main: Resource limit for stack size not supported
2018-09-07 07:04:53.202101 : USRTHRD:1188: clsncssd_main: setting priority to 3
2018-09-07 07:04:53.202109 : USRTHRD:1188: clsncssd_vmondisv: Compatible vendor clusterware not in use
2018-09-07 07:04:53.202208 : USRTHRD:1188: clsncssd_logose: slos [-2], SLOS depend-msg [2], SLOS error-msg [The syste]
2018-09-07 07:04:53.202215 : USRTHRD:1188: clsncssd_logose: SLOS other info is [CreateFile failed].
2018-09-07 07:04:53.202222 : USRTHRD:1188: clsncssd_main: failed to init node reboot.
2018-09-07 07:04:53.202286 : AGFW:1188: Agent is exiting with exit code: -1
Analyse
Dieser Fehler deutet daraufhin, dass es Probleme mit dem "orafenceservice" gibt. Siehe auch: RAC on Windows: CRS Not Starting After Applying Grid Infrastrcuture (GI) Bundle Patch (Doc ID 1988471.1)
Bei der funktionierenden Node sieht das Service in Ordnung aus:
C:\Users\oracle>sc query orafenceservice
SERVICE_NAME: orafenceservice
TYPE : 1 KERNEL_DRIVER
STATE : 4 RUNNING
(STOPPABLE, NOT_PAUSABLE, IGNORES_SHUTDOWN)
WIN32_EXIT_CODE : 0 (0x0)
SERVICE_EXIT_CODE : 0 (0x0)
CHECKPOINT : 0x0
WAIT_HINT : 0x0
Bei der defekten Node sieht es etwas anders aus:
C:\Users\oracle>sc query orafenceservice
[SC] EnumQueryServicesStatus:OpenService FAILED 1060:
The specified service does not exist as an installed service.
Fehlerbehebung
C:\Windows\system32>cd C:\app\12.1.0.2\grid\BIN
%ORACLE_GRID_HOME%\BIN\crssetup.exe installFence
<10:08:29> Started
<10:08:29> arguements 2
<10:08:29> crssetup.exe
<10:08:29> installFence
<10:08:29> Warning: failed to remove imagePath, continuing. The operation completed successfully.
<10:08:29> returning 0x0
danach sieht es besser aus:
C:\Users\oracle>sc query orafenceservice
SERVICE_NAME: orafenceservice
TYPE : 1 KERNEL_DRIVER
STATE : 1 STOPPED
WIN32_EXIT_CODE : 1077 (0x435)
SERVICE_EXIT_CODE : 0 (0x0)
CHECKPOINT : 0x0
WAIT_HINT : 0x0
Nach einem Reboot des Servers konnten die Clusterservices auch auf dieser Node wieder ohne Fehler gestartet werden.