Datenbestand analysieren

22/03/2008 - 17:09 von Philipp Kraus | Report spam
Hallo,

Ich habe folgendes Problem: Bei einem Bekannten soll ein Server System
erstellt werden. Zurzeit werden die Daten auf einem Linux (Feisty)
gespeichert, an dem mehrere USB Platten angeschlossen sind, ein Mac
Mini mit USB Platte und ein Tablet PC (interne Platte mit WinXP).

Wie man sich nun vorstellen kann, ist der Datenbestand völlig
unstrukturiert. Ziel ist es einen Linux Server zu haben, auf dem
zentral die Daten via Samba abgelegt werden.
Ich muss nun zunàchst auf dem Linux Duplikate finden, meine Idee ist
mit find alle Datenverzeichnisse durch zu laufen, von jeder Datei einen
MD5-Hash zu erzeugen und die Liste in einer Daten zu speichern, so dass
ich dann nach identischen Dateien suchen kann und diese evtl
automatisiert lösche, das nàchste ist, was ist mit "àhnlichen" Dateien,
d.h. z.b. eine Worddatei, aber verschiedene Versionen)? Ähnliche
Dateien lieferen unterschiedliche MD5-Hashes, gibt es eine Möglichkeit,
dass man wie unter PHP methaphone(<string>) verwendet, um sagen zu
können, welche Dateien per Hand geprüft werden müssen.

Das Datenvolumen belàuft auf ca 1,2 TB

Bin wirklich um Hilfe dankbar, denn per Hand zu sortieren wird Jahre dauern.

Phil
 

Lesen sie die antworten

#1 helmut
22/03/2008 - 17:39 | Warnen spam
Hallo, Philipp,

Du meintest am 22.03.08:

Ich muss nun zunàchst auf dem Linux Duplikate finden, meine Idee ist
mit find alle Datenverzeichnisse durch zu laufen, von jeder Datei
einen MD5-Hash zu erzeugen und die Liste in einer Daten zu speichern,



http://arktur.shuttle.de/CD/5.0-sla...R1-hln.zip

von Adrian Lopez

Viele Gruesse
Helmut

"Ubuntu" - an African word, meaning "Slackware is too hard for me".

Ähnliche fragen