Deduplication auf Dateisystem-Ebene

09/12/2012 - 11:48 von Paul Muster | Report spam
Hallo,

fdupes und freedups sind bekannt. Damit kann man auf Datei-Ebene
Duplikate finden und aufràumen (löschen / hard verlinken). Dabei gehen
aber unterschiedliche Besitzer und Rechte verloren.

Schauen wir also eine Ebene tiefer, auf Dateisystem-Ebene. Hier gibt es
offenbar ein paar Ansàtze. Allerdings alle über FUSE, will man das auf
einem Server?

* SDFS (Opendedup.org): Laut http://www.opendedup.org/quickstart braucht
das Java. Und es will von Hand gepflegt werden, denn es gibt kein
Debian-Repository.

* ZFS: zfs-fuse gibt es in den normalen Debian-Repositories, das ist
schonmal ganz positiv.
http://etbe.coker.com.au/2012/07/31...an-wheezy/

* Lessfs: Hm, ist das stabil, will man das einsetzen?
http://www.computerwoche.de/hardwar...e/2034990/ (Danke Ralf
Prengel für den Link auf debian-user-german!)


Nutzt ihr Deduplication? Auf Datei- oder auf Dateisystem-Ebene? Wie?


Danke & viele Grüße

Paul
 

Lesen sie die antworten

#1 Sven Hartge
09/12/2012 - 17:20 | Warnen spam
Paul Muster wrote:

* ZFS: zfs-fuse gibt es in den normalen Debian-Repositories, das ist
schonmal ganz positiv.
http://etbe.coker.com.au/2012/07/31...an-wheezy/



ZFS via FUSE würde ich nicht machen. Ich würde ZFSonLinux nutzen:
http://zfsonlinux.org/

Nutzt ihr Deduplication? Auf Datei- oder auf Dateisystem-Ebene? Wie?



Ich lasse das meine NetApp machen ;)

Scherz beiseite: Auf Servern direkt bisher gar nicht, weil das braucht
_abartig_ viel RAM und nicht wenig CPU, wenn es performant sein soll.

Die ZFS-Leute reden von 2GB RAM pro 1TiB an zu deduplizierenden
Festplatten-Speicher. Bei mageren 16TiB an Plattenplatz also mal eben
32GiB an RAM.

IMHO ist deduplizierter Storage an einer zentralen Stelle mit einer
dedizierten Maschine (Stichwort Filer, siehe NetApp) besser aufgehoben
als auf einzelnen Servern.



Sigmentation fault. Core dumped.

Ähnliche fragen