Skip to Main Content

Breadcrumb

Windows Update führt zu RAC Ausfall

Oracle RAC 12c unter Windows: Ausfall einer Node

Nach dem Windows Update startet der Cluster auf einem der beiden RAC-Nodes nicht mehr. Bei der Analyse der Logfiles sind wir auf folgenden Fehler gestoßen:

2018-09-07 07:04:53.190121 :   AGENT:1188:  Agent framework initialized, Process Id = 4852
2018-09-07 07:04:53.190179 : USRTHRD:1188:  clsscssd_main: Resource limit for stack size not supported
2018-09-07 07:04:53.202101 : USRTHRD:1188:  clsncssd_main: setting priority to 3
2018-09-07 07:04:53.202109 : USRTHRD:1188:  clsncssd_vmondisv: Compatible vendor clusterware not in use
2018-09-07 07:04:53.202208 : USRTHRD:1188:  clsncssd_logose: slos [-2], SLOS depend-msg [2], SLOS error-msg [The syste]
2018-09-07 07:04:53.202215 : USRTHRD:1188:  clsncssd_logose: SLOS other info is [CreateFile failed].

2018-09-07 07:04:53.202222 : USRTHRD:1188:  clsncssd_main: failed to init node reboot.
2018-09-07 07:04:53.202286 :    AGFW:1188:  Agent is exiting with exit code: -1

Analyse

Dieser Fehler deutet daraufhin, dass es Probleme mit dem "orafenceservice" gibt. Siehe auch: RAC on Windows: CRS Not Starting After Applying Grid Infrastrcuture (GI) Bundle Patch (Doc ID 1988471.1)

Bei der funktionierenden Node sieht das Service in Ordnung aus:

C:\Users\oracle>sc query orafenceservice

SERVICE_NAME: orafenceservice
TYPE               : 1  KERNEL_DRIVER
STATE              : 4  RUNNING
(STOPPABLE, NOT_PAUSABLE, IGNORES_SHUTDOWN)
WIN32_EXIT_CODE    : 0  (0x0)
SERVICE_EXIT_CODE  : 0  (0x0)
CHECKPOINT         : 0x0
WAIT_HINT          : 0x0

Bei der defekten Node sieht es etwas anders aus:

C:\Users\oracle>sc query orafenceservice
[SC] EnumQueryServicesStatus:OpenService FAILED 1060:

The specified service does not exist as an installed service.

Fehlerbehebung

C:\Windows\system32>cd C:\app\12.1.0.2\grid\BIN

%ORACLE_GRID_HOME%\BIN\crssetup.exe installFence
<10:08:29> Started
<10:08:29> arguements 2
<10:08:29>   crssetup.exe
<10:08:29>   installFence
<10:08:29> Warning:  failed to remove imagePath, continuing. The operation completed successfully.

<10:08:29> returning 0x0

danach sieht es besser aus:

C:\Users\oracle>sc query orafenceservice
SERVICE_NAME: orafenceservice
TYPE               : 1  KERNEL_DRIVER
STATE              : 1  STOPPED
WIN32_EXIT_CODE    : 1077  (0x435)
SERVICE_EXIT_CODE  : 0  (0x0)
CHECKPOINT         : 0x0
WAIT_HINT          : 0x0

Nach einem Reboot des Servers konnten die Clusterservices auch auf dieser Node wieder ohne Fehler gestartet werden.