NFS bremst andere Netzanwendungen aus?

10/06/2008 - 11:16 von Birgit Nietsch | Report spam
Ich würde gern verstehen, wie es NFS(?) gelingen konnte, einen von
mir administrierten Server heftig auszubremsen, bzw. ermitteln, ob
ich überhaupt auf den richtigen Verdàchtigen schieße.

Die Beteiligten an dem Drama:
- ein von mir nicht administrierter Windows2000-Server, der hier als
Datensicherungsmaschine eingesetzt wird,
- ein NFS-Laufwerk auf besagter Windose, auf dem die Sicherung
abgelegt werden sollte.
- ein Linux-Rechner mit Debian Etch, der oben genanntes NFS-Laufwerk
für seine Datensicherung nutzen wollte,
- ein Apache2 auf besagtem Debian-Rechner, der mehrere Websites
normalerweise klaglos zugànglich macht, aber plötzlich keine
Seiten mehr zeigen wollte,
- ein Perl-Skript, das Daten mittels DBI->connect mit einem weit
entfernten Server austauschen wollte, das dabei Samstag Nacht
hàngen blieb, und den ganzen Sonntag nichts mehr tat,
- ein Sicherungsskript, das normalerweise binnen 40 Minuten mit
seiner Arbeit fertig ist, dessen letzte Dateien aber diesmal
mit etlichen Stunden Verspàtung eintrudelten.

Die Story:
Am Montag Morgen wurde ich mit den Worten "$WICHTIGE_WEBSITE geht
nicht" an meinem Arbeitsplatz begrüßt. Browser auf, nachgeschaut:
keine Website auf dem genannten Server ist erreichbar (da sind
mehrere drauf). Der Server ist wichtig und sollte eigentlich
"hochverfügbar" sein. Also werfe ich einen hastigen Blick auf den
Füllstand der Dateisysteme, stelle fest dass da nichts vollgelaufen
ist, und mache einen Reboot. Server làuft hoch, Websites sind wieder
online. So weit, so gut. Aber was zum Geier ist passiert?

Die gesammelten Indizien:
- Den eintrudelnden Beschwerden von $CHEF und Nutzern entnehme ich,
dass alle Websites den ganzen Sonntag über nicht erreichbar waren.

- In den Syslog-Dateien finde ich, bis auf die folgenden Zeilen,
weder Fehler noch Warnungen:

Jun 9 07:19:36 $SERVER syslogd 1.4.1#18: restart.
Jun 9 07:36:47 $SERVER kernel: nfs: server xxx.xxx.xxx.xxx
not responding, still trying
Jun 9 07:53:30 $SERVER kernel: nfs: server xxx.xxx.xxx.xxx OK

Und das in größeren Abstànden zu verschiedenen Zeiten, d.h.
nfs ging mal, und mal ging es nicht.

- In der Nacht von Samstag auf Sonntag wurde die Sicherung auf das
NFS-Laufwerk pünktlich begonnen. Die ersten .tgz-Dateien haben
auch normale Zugriffszeiten, aber die letzten Dateien
wurden erst Montag morgens um 7.55 Uhr geschrieben.

- Meinen Mails entnehme ich, dass ein Perlskript, das normalerweise
stündlich per DBI->connect Daten mit einem Server in $FERNEM_NETZ
abgleicht, in der Nacht von Samstag auf Sonntag hàngengeblieben
sein muss. Und zwar wàhrend der Sicherung meiner Daten auf dem
NFS-Laufwerk.

- In der Nacht von Sonntag auf Montag wurde die Sicherung auf das
NFS-Laufwerk pünktlich begonnen. Die ersten .tgz-Dateien haben
gleichfalls normale Zugriffszeiten, aber die letzten Dateien
wurden hier Montag morgens um 8.22 Uhr geschrieben.

- Laut Auskunft eines Kollegen war der Windows-Server, auf dem
ich meine Sicherung hatte ablegen wollen, "irgendwie scheintot".
Offenbar also nicht völlig abgeschmiert, aber größtenteils
dysfunktional. Die Windose wurde dann morgens gegen 7.40 Uhr
von ihm neu gebootet.

Welche Diagnosemöglichkeiten habe ich im Nachhinein noch, um
festzustellen, wer hier wen wie ausgebremst hat, und welche
Literatur bringt mich weiter? Was hàtte ich, wenn ich die Zeit und
das Wissen gehabt hàtte, "live" testen können? Ich bin mit meinen
Aufgaben hier völlig überlastet und kann nicht auf Verdacht Berge
von Büchern wàlzen, aber ich möchte verstehen, was zu dieser
Situation geführt hat, damit sie sich nicht wiederholt. Ein Pointer
auf Buch und Kapitel bzw. eine zielführende URL wàre mir daher
willkommen.

Um weiterem Ungemach aus dem Weg zu gehen sichere ich nun mittels
Samba auf eine Windows-Freigabe auf dem selben :-( Windows-Rechner.
Dort laufen unsere Tapes, also bleibt mir nichts anderes übrig.
Allerdings frage ich mich, ob mir mit Samba vielleicht das selbe
passieren kann.
 

Lesen sie die antworten

#1 Michael Ziegler
10/06/2008 - 11:34 | Warnen spam
Birgit Nietsch wrote:
- Laut Auskunft eines Kollegen war der Windows-Server, auf dem
ich meine Sicherung hatte ablegen wollen, "irgendwie scheintot".
Offenbar also nicht völlig abgeschmiert, aber größtenteils
dysfunktional. Die Windose wurde dann morgens gegen 7.40 Uhr
von ihm neu gebootet.



Wenn der Rechner stirbt auf den du die Backups hochladen willst, kann
das natürlich nicht mehr funktionieren. Leider friert NFS gern mal
komplett ein wenn der Zielrechner nicht erreichbar ist, anstatt einen
Fehler zu produzieren und abzubrechen, was dann zu dem von dir
beobachteten Verhalten führt. Du müsstest also irgendeine verlàssliche
Methode finden um vor jedem Upload prüfen zu können, ob der Zielrechner
erreichbar ist.

Um weiterem Ungemach aus dem Weg zu gehen sichere ich nun mittels
Samba auf eine Windows-Freigabe auf dem selben :-( Windows-Rechner.
Dort laufen unsere Tapes, also bleibt mir nichts anderes übrig.
Allerdings frage ich mich, ob mir mit Samba vielleicht das selbe
passieren kann.



Ich weiß nicht wie Samba sich verhàlt wenn der Zielrechner nicht
erreichbar ist, grundsàtzlich müsstest du hier aber dieselben Probleme
bekommen...

Michael

Ähnliche fragen