Unterstuetzung verteilter Archivierung

13/10/2010 - 19:35 von Christoph Biedl | Report spam
Hallo,

Mit der Zeit sammeln sich einige Dateien an, mit denen einiger
(zumindest ideeler) Wert verbunden ist; die man entsprechend in Kopien
vorhalten will; und das auch an einem anderen Ort, der dann mitunter
entweder gar nicht online erreichbar ist; oder nur mit einer
Bandbreite in inakzeptablen Verhàltnis zur zu übertragenden
Datenmenge.

Für die Unterstützung der üblichen Arbeitsschritte suche ich nach
einer geeigneten Softwarelösung.

rsync skaliert nicht auf viele Dateien und große Mengen und erfüllt
deshalb die Anforderungen nicht mehr: Mangels besserem Wissens
durchsucht es immer den gesamten Dateibaum nach Verànderungen, was
aber einer gewissen Größe teuer wird. Für die Synchronisation mit
off-site Kopien muß man entweder das gesamte Archiv auf einer mobilen
Festplatte halten, das wird irgendwann unhandlich; oder man muß
erfolgreich mit dem batch mode arbeiten, bei mir kam da aber immer nur
Müll heraus.

Ein effizientes Verfahren kennt die Verànderungen im Dateibaum und
repliziert diese geeignet. Nach meinen Vorstellungen müssen folgende
Dinge möglich sein:

* In der ersten Fassung gibt es genau einen einen "master"; alle
Verànderungen erfolgen dort und sollen auf die "slaves" repliziert
werden. In einer optionalen weiteren Stufe kann es mehr als einen
master geben, wobei es dann bei der Replikation Konflikte geben
kann, die geeignet erkannt und behoben werden müssen, und sei es
durch manuellen Eingriff.

* Die wesentlichen Operationen sind Anlegen, Löschen und Umbenennen
von Dateien, es wird nur auf ganzen Dateien gearbeitet. Es ist
unwahrscheinlich, daß jemals unter einem vollstàndigen (mit Pfad)
Dateinamen verschiedene Inhalte existieren, das darf durch Policy
ausgeschlossen sein.

* Als Methoden für die Replikation gibt es "online" (direkt in ein
weiteres Dateisystem schreiben), dasselbe auch durch ein Netzwerk,
und "offline"; bei letzterem werden die Änderungen zunàchst lokal in
einem Journal vorgehalten, das auf Anforderung auf einen mobilen
Datentràger geschrieben, zum Ziel gebracht und dort angewendet wird
(technisches Detail: Es kann mehr als ein Ziel geben, das Journal
sollte zur Platzersparnis von Hardlinks Gebrauch machen).

* Die Dateien müssen in einem Dateisystem abgelegt sein, das ohne
weitere Hilfsmittel ausgelesen werden kann. Verànderungen an den
Hilfsprogrammen vorbei führen natürlich zu Inkonsistenzen.

* Prüfsummen sollten exzessiv zum Einsatz kommen, ich habe schon zu
viele Bitflipper gesehen.

* Es gibt keinen Bedarf für besondere Dateitypen und Permissions, es
reichen Directories und Dateien, mit 0755 bzw. 0644. Auch Hardlinks
müssen nicht abgebildet werden.

Bevor ich selber etwas entwickle, gibt es Lösungen in diese
Richtung?

Christoph
 

Lesen sie die antworten

#1 Florian Weimer
13/10/2010 - 21:54 | Warnen spam
* Christoph Biedl:

Bevor ich selber etwas entwickle, gibt es Lösungen in diese
Richtung?



Wie wichtig ist das Löschen? Kannst Du die Dateien auf jedem Knoten
zweimal vorhalten (einmal im Dateisystem, einmal außen vor)?

Ähnliche fragen