df(1) und nfs laaaaangsam

09/07/2015 - 18:17 von Christian Baer | Report spam
Guten Abend, liebe Gruppengemeinde!

Seit einiger Zeit schlage ich mich einem sehr nervigen Problem rum. Ich
habe hier so rund ein duzend Rechner stehen, die untereinander alle per
nfs vernetzt sind. Einer von diesen ist ein Server, die recht viele
nfs-Freigaben hat. Im Wesentlichen làuft hier noch eine recht alte SuSE
(12.3). Wir nutzen Löhnsoft, die leider noch nicht an die neuen Libs
angepasst ist, deshalb ist ein Update nicht möglich.

Auf einem Rechner làuft sogar noch eine SuSE 10. Die meisten Rechner
handeln ein nfsv4 aus, zwei oder drei (darunter die SuSE 10) nur ein
nfsv3. Die Rechner sind zwar zu einem guten Teil nicht mehr ganz
taufrisch, aber durchaus leistungsfàhig genug, damit das genannte
Problem nicht auftritt (mindestens Zweikerner und 8GB RAM, meistens
mehr). Es sind auch ein paar neue (von Dezember) Achtkerner dabei, die
das Problem auch haben.

Das Problem ist das anzeigen von Verzeichnissen über nfs. Beispiel: ein
df zeigt alle gemounteten Systeme an (mit /proc und tmp sind es 33, 24
davon nfs). Der Vorgang braucht aber 8 Sekunden! Auch wenn ich mich mit
der Kommandozeile durch die Verzeichnisse hangel, fühlt es sich sehr
langsam an. Das Vervollstàndigen mit <TAB> kann schonmal 3 Sekunden
dauern. Wenn in einem Verzeichnisse viele Unterverzeichnisse sind,
dauert es lànger, bei wenigen nicht so lange.

Richtig schlimm wird es aber, wenn ich im Thunderbird eine Datei
anhàngen will. Ein Druck auf die "Attach" Taste sorgt für 30-60
Sekunden Wartezeit, bevor das Homeverzeichnis angezeigt wird. (/home
ist auch ein nfs mount). Das Eintauchen in ein Verzeichnis bedeutet
immer lange Wartezeiten und ist unertràglich. Es kann also mehrere
Minuten dauern, bis ich eine Datei angehàngt habe - und die Zeit habe
ich nicht mehr manuellem Suchen verbracht.

Pingzeiten sind normal (~0,1ms), Datentransfer ist auch nicht langsam,
der Internetzugang wirkt flott. An den Einstellungen vom nfs habe ich
auch schon rumgespielt - leider ohne Besserung. Ich weiß momentan nicht
mehr, was ich noch tun könnte, um das Problem zu lokalisieren.

An einen einzelnen Rechner, der das Netzwerk irgendwie lahmlegt, glaube
nicht nicht so richtig. Das langsame Vervollstàngien mit <TAB> passiert
auf jeder Freigabe - nur lokal nicht.

Hat jemand eine Inspiration für mich, wie ich das Problem lokalisieren
könnte?

Gruß
Christian
 

Lesen sie die antworten

#1 Marcel Mueller
09/07/2015 - 22:08 | Warnen spam
On 09.07.15 18.17, Christian Baer wrote:
Seit einiger Zeit schlage ich mich einem sehr nervigen Problem rum. Ich
habe hier so rund ein duzend Rechner stehen, die untereinander alle per
nfs vernetzt sind. Einer von diesen ist ein Server, die recht viele
nfs-Freigaben hat. Im Wesentlichen làuft hier noch eine recht alte SuSE
(12.3). Wir nutzen Löhnsoft, die leider noch nicht an die neuen Libs
angepasst ist, deshalb ist ein Update nicht möglich.



=> Das ist ein Job für VMs, oder sind es das schon?

Das Problem ist das anzeigen von Verzeichnissen über nfs. Beispiel: ein
df zeigt alle gemounteten Systeme an (mit /proc und tmp sind es 33, 24
davon nfs). Der Vorgang braucht aber 8 Sekunden! Auch wenn ich mich mit
der Kommandozeile durch die Verzeichnisse hangel, fühlt es sich sehr
langsam an. Das Vervollstàndigen mit <TAB> kann schonmal 3 Sekunden
dauern. Wenn in einem Verzeichnisse viele Unterverzeichnisse sind,
dauert es lànger, bei wenigen nicht so lange.

Richtig schlimm wird es aber, wenn ich im Thunderbird eine Datei
anhàngen will. Ein Druck auf die "Attach" Taste sorgt für 30-60
Sekunden Wartezeit, bevor das Homeverzeichnis angezeigt wird.



Wie sieht's denn mit den IOPS auf dem Server aus? Geht da noch was?
Lahme Platten würden nàmlich auch ganz gut auf die Symptome passen.

Wie sind die Cache bzw. Kohàrenz-Einstellungen der nfs-Clients?
Muss jedes stat einen eigenen I/O machen?

Mach doch mal ein paar Wireshark-Traces um herauszufinden bei welchen
Kommandos es hàngt oder ob es evtl. irgendwo unerwartete Latenzen oder
gar Retries gibt.


Pingzeiten sind normal (~0,1ms), Datentransfer ist auch nicht langsam,



Das spricht für ein IOPS oder Latenzproblem.

By the way, womit guckst Du denn in die Verzeichnisse? Mehr als ls?
So manches GUI-Programm erzeugt sinnlos viele IO-Zugriffe, um schicke
Icons anzuzeigen.

der Internetzugang wirkt flott.



Internet erzeugt um Zehnerpotenzen weniger Traffic und ist auf größere
Latenzen ausgelegt?

An einen einzelnen Rechner, der das Netzwerk irgendwie lahmlegt, glaube
nicht nicht so richtig.



Das sollten Netzwerk-Traces auch aufdecken.


Marcel

Ähnliche fragen