Sehr grosse Dateiliste nach doppelten Eintraegen durchsuchen

18/01/2009 - 11:00 von Wolfgang Klein | Report spam
Hallo,

ich habe eine Liste von Dateien mit über 500.000 Eintràgen, die fast
100MB groß ist. Wie kann ich diese Datei am schnellsten nach doppelten
Eintràgen durchsuchen?

Wolfgang Klein ,_, DE - Paderborn
PGP-Schlüssel (o,o) PGP-key is
ist verfügbar! {' '} available!
=#=#==
 

Lesen sie die antworten

#1 Thomas Orgelmacher
18/01/2009 - 10:29 | Warnen spam
Wolfgang Klein schrieb:
Hallo,

ich habe eine Liste von Dateien mit über 500.000 Eintràgen, die fast
100MB groß ist. Wie kann ich diese Datei am schnellsten nach doppelten
Eintràgen durchsuchen?



Schnell in der Ausführung oder "schnell gemacht"?

sort < liste | uniq -d

oder vielleicht

gawk '{ if(a[$0]) print $0; else a[$0] = 1;}' < liste


Ansonsten müßte man ein bischen mehr wissen, was Du genau vorhast und
wie die Liste ausschaut.


HTH

Orgel

I have seen things you lusers would not believe. I've seen Sun
monitors on fire off the side of the multimedia lab. I've seen
NTU lights glitter in the dark near the Mail Gate. All these
things will be lost in time, like the root partition last week.

Ähnliche fragen