Haengender Rechner noch bevor die initrd startet

13/09/2010 - 07:38 von Marc Haber | Report spam
Hallo,

ich habe hier einen halbwegs aktuellen Xeon-Server, der beim Booten
reproduzierbar hàngen bleibt. Von Zeit zu Zeit passiert das sogar,
bevor das erste Script des initramfs gestartet wird.

Auf dem System ist ungefàhr so alles neu was neu sein kann, aber so
langsam hàtte ich auch nichts dagegen, wenn es auch mal funktionieren
würde.

Eckdaten:
- Debian lenny
- selbst kompilierter Kernel 2.6.35.4
- SATA-Festplatte, AHCI aktiviert
- 500 GB-Festplatte mit einer GPT
- kein RAID
- Boot mit grub2, vermutlich via der von parted erzeugten
Hilfs-Partiitonstabelle
- Vierkern-Xeon auf einem Supermicro-Board
- e1000e-Netzwerkkarte

Das Boot-Log sowie das Ergebnis eines via MagicSysrq ausgelösten
Backtraces habe ich auf
http://q.bofh.de/~mh/stuff/20100912-xeonserver-backtrace.txt zur
Ansicht bereitgestellt.

Der Rechner bleibt auch dann stehen, wenn ich die beiden Kernelmodule,
die sich in dem Trace ganz zum Schluss zu Worte melden, nàmlich e1000e
und ehci_hcd auf der Kommandozeile blackliste. Aber das Log sieht
irgendwie bei jedem Hànger anders aus: Oft sehe ich nichtmal die
Meldungen des AHCI-Treibers, und oftmals passiert der Hànger auch noch
vor dem "Begin: Loading essential drivers" vom ersten Script des
initramfs. Jedenfalls kommt er niemals dazu, auf das root-fs zu
warten, und auch der 180-Sekunden-Timeout bis zu einer Debug-Shell
làuft nicht los.

Ich vermute, dass der Rechner über irgendwelche Hardware fàllt und
der eigentliche Grund für den Hànger früher zu suchen ist. Das würde
jedenfalls erklàren, warum er jedes Mal unterschiedlich weit kommt.

Schon versucht habe ich:
- den Debian-Kernel von lenny (kein AHCI-Support)
- einen eigenen Kernel 2.6.34, der eh schon da war (kein GPT-Suppor)
- "debug" auf der Kommandozeile (kein sichtbarer Unterschied)
- Ein daily-Image von grml (mit 2.6.35-grml, der nach Aussage der
grml-Macher auch ein .4 ist). Làuft problemlos.

Was ich als nàchstes probieren könnte:
- eine konventionell partitionierte Platte
- einen Kernel 2.6.34 mit GPT-Support
- break=top auf der Kommandozeile mit wenig Hoffnung, dass der Rechner
bis zu einer benutzbaren Shell kommt

Hat noch jemand eine Idee, was ich probieren könnte, bevor ich mit den
aufwendigen Maßnahmen beginne?

Grüße
Marc
Marc Haber | " Questions are the | Mailadresse im Header
Mannheim, Germany | Beginning of Wisdom " | http://www.zugschlus.de/
Nordisch by Nature | Lt. Worf, TNG "Rightful Heir" | Fon: *49 621 72739834
 

Lesen sie die antworten

#1 Heiko Nocon
13/09/2010 - 09:28 | Warnen spam
Marc Haber wrote:

Ich vermute, dass der Rechner über irgendwelche Hardware fàllt und
der eigentliche Grund für den Hànger früher zu suchen ist. Das würde
jedenfalls erklàren, warum er jedes Mal unterschiedlich weit kommt.



Jepp.

Hat noch jemand eine Idee, was ich probieren könnte, bevor ich mit den
aufwendigen Maßnahmen beginne?



Bootparameter "acpi=off,noapic,nolapic" anwenden. Geht's dann?

Ähnliche fragen