Forums Neueste Beiträge
 

Haengenbleibender Rechner

31/03/2010 - 21:50 von Siegfried Schmidt | Report spam
Hallo,

ich verzweifle an einem immer wieder mit toten Prozessen und hoher
Systemlast hàngenbleibenden Rechner. Ausgangspunkt ist meistens die
nàchtliche Datensicherung oder der tàgliche Update der locate-Datenbank
in zufàlliger Verteilung.

Symptome:
- Fehlerhàufigkeit: einmal in 1..3 Tagen
- load schnellt hoch bis sich Rechner soweit verlangsamt dass nichts mehr
startet
- top zeigt 100% waiting
- der Kernel flush-Prozess und ein weiterer (tar, gzip, updatedb, u.a.)
sind "Dead", lassen sich also auch nicht killen
- lsof auf den hàngenden Prozess bleibt ebenfalls hàngen, lsof auf einen
übergeordneten Prozess (z.B. tar wenn gzip hàngt) zeigt offene, aber
immer andere Dateien, die sich spàter aber problemlos lesen lassen
- nach einem Neustart làuft der gleiche tar-Job manuell angestossen ohne
Probleme durch, erst in der nàchsten Nacht fàngt das Problem wieder an
- tagsüber intensiv als Fileserver genutzt gibts keinerlei(!) Probleme
- kein Eintrag in den Logfiles, keine Auffàlligkeiten bei den SMART-
Werten der Platten
- keine Meldungen beim Resync des RAIDs

Der Rechner làuft unter Fedora 12, derzeitiger Kernel ist 2.6.32.9-70, es
gibt es Software-RAID5 als reine Datenpartition. Bevor der Ärger vor zwei
Wochen losging ist er schon Monate problemlos gelaufen.

Hat jemand eine Idee, was da los sein könnte?


Siegfried
 

Lesen sie die antworten

#1 Andreas Kohlbach
31/03/2010 - 22:48 | Warnen spam
Siegfried Schmidt wrote on 31. March 2010:

ich verzweifle an einem immer wieder mit toten Prozessen und hoher
Systemlast hàngenbleibenden Rechner. Ausgangspunkt ist meistens die
nàchtliche Datensicherung oder der tàgliche Update der locate-Datenbank
in zufàlliger Verteilung.

Symptome:
- Fehlerhàufigkeit: einmal in 1..3 Tagen
- load schnellt hoch bis sich Rechner soweit verlangsamt dass nichts mehr
startet
- top zeigt 100% waiting
- der Kernel flush-Prozess und ein weiterer (tar, gzip, updatedb, u.a.)
sind "Dead", lassen sich also auch nicht killen
- lsof auf den hàngenden Prozess bleibt ebenfalls hàngen, lsof auf einen
übergeordneten Prozess (z.B. tar wenn gzip hàngt) zeigt offene, aber
immer andere Dateien, die sich spàter aber problemlos lesen lassen
- nach einem Neustart làuft der gleiche tar-Job manuell angestossen ohne
Probleme durch, erst in der nàchsten Nacht fàngt das Problem wieder an
- tagsüber intensiv als Fileserver genutzt gibts keinerlei(!) Probleme
- kein Eintrag in den Logfiles, keine Auffàlligkeiten bei den SMART-
Werten der Platten
- keine Meldungen beim Resync des RAIDs

Der Rechner làuft unter Fedora 12, derzeitiger Kernel ist 2.6.32.9-70, es
gibt es Software-RAID5 als reine Datenpartition. Bevor der Ärger vor zwei
Wochen losging ist er schon Monate problemlos gelaufen.

Hat jemand eine Idee, was da los sein könnte?



Ich würde auf Probleme mit den RAM und/oder Wàrmeprobleme tippen.

Gibt es etwas in den Logs? Vielleicht mal einen Test des Speichers laufen
lassen?
Andreas
Linux: The choice of a GNU generation.

Ähnliche fragen