Freezes bei Zugriff auf HW-RAID (gdth)

03/11/2008 - 23:01 von Stefan Wagner | Report spam
Hallo,

ein seit einem Jahr produktiv laufendes System zeigte in den
vergangenen Tagen plötzlich mehrfach harte Freezes, die ich mir im
Moment nicht erklàren kann.

Die Hardware:
FSC Primergy 470, 2 * P3/700, 2GB RAM
HW-Raidcontroller GDT6523
4x73GB (interne Backplane) an Kanal A als RAID5
1x2GB am internen Controller (nur /boot)

Diese Konfiguration lief seit einem Jahr stabil 24/7 durch.

Kurz vor den Crashes sind 6x73GB in einem Compaq-Array U2 an Kanal B
des Controllers als RAID 5 mit Hot-Spare hinzugekommen.

Das System:
Debian etch, aufgesetzt mit 4.0r0, regelmàßige Updates. Kernel zum
Zeitpunkt der Freezes war 2.6.18-4-686.

Die Symptome:
"Hartes" Einfrieren des Systems, keine "letzten Worte" auf der Konsole.

Beim ersten Crash (vermutlich wàhrend des Kopierens mehrerer großer
Dateien, ca. 6 GB in Summe) fand sich folgendes im Log (Zeilen ohne
Bezug gekürzt):

/var/log/syslog
Nov 1 22:46:17 tux spamd[17745]: (...)
Nov 1 22:46:17 tux kernel: Adapter 0: SCSI-B, ID 4: last status
0x00000000. SCSI status: GOOD
Nov 1 22:46:17 tux kernel: Adapter 0: Array Drive 6: Logical Drive 10
<SCSI-B, ID 4, LUN 0> failed
Nov 1 22:46:17 tux kernel: Adapter 0: Array Drive 6: FAIL state entered
Nov 1 22:46:17 tux spamd[31571]: prefork: child states: II
(18 Zeilen spamd entfernt)
Nov 1 22:46:21 tux spamd[21348]: spamd: (...)
Nov 1 23:27:40 tux syslogd 1.4.1#18: restart.

Nach dem Freeze zeigte die Disk aber keinen Fehler und der Controller
war auch wieder zufrieden. Abgesehen davon hàtte der Ausfall einer
Platte nur bewirken dürfen, dass der Controller Alarm schlàgt, das
Hot-Spare Betrieb nimmt oder den Austausch der defekten Platte
anfordert und anschließend ein Rebuild fàhrt.
Bei den folgenden Crashes bricht die Aktivitàt in den Logs hart ab. Der
nàchste Eintrag ist der vom Reboot nach Entdecken des Freezes.

Die Hardware des Arrays hat bereits einen Langzeittest hinter sich und
lief zuvor an einem Testsystem (P470, GDT6523) problemlos. Schreiben
und Lesen großer Datenmengen (ca. 110 GB) war kein Problem.

Offene Bugs beim gdth-Treiber habe ich nur einen entdeckt, der aber
erst nach 2.6.18 (IIRC 2.6.23 oder so) auftrat und das Scannen der
Busse beim Start verhinderte. Eine Suche nach "gdth freeze" im
Zusammenhang mit dem Kernel 2.6.18-x ergab nichts verwertbares.

Weiss jemand was dazu oder hat Tipps für die weitere Recherche?

Danke und Grüße

Stefan
 

Lesen sie die antworten

#1 Thomas Orgelmacher
03/11/2008 - 23:15 | Warnen spam
Stefan Wagner schrieb:

Weiss jemand was dazu oder hat Tipps für die weitere Recherche?



Was steht im Log des Controllers (via BIOS oder Icpcon)?

Orgel

I have seen things you lusers would not believe. I've seen Sun
monitors on fire off the side of the multimedia lab. I've seen
NTU lights glitter in the dark near the Mail Gate. All these
things will be lost in time, like the root partition last week.

Ähnliche fragen