Doppelte Treffer bei Stringsuche in Datei verhindern

29/05/2008 - 20:44 von Klaus Mayer | Report spam
Hallo,

ich hab etliche alte Dateien zu indizieren und zu archivieren.
Das Auslesen der benötigten Strings aus den Dateien für die
Indizierung ist kein Problem.
Da die Dateien aber sehr groß sind (bis zu 10Mb Text), möchte ich
nicht für
jeden einzelnen Index einmal durch die gesamte Datei suchen, um
Dubletten bei den
Treffern zu verhindern, sondern jede einzelne Zeile auf eventuelle
Treffer bei allen Indizes prüfen.
Hab Ihr eine Idee, wie ich so doppelte Treffer vermeiden kann?
Das Problem ist auch das der erste Treffer am Anfang der Datei, dann
100-200 verschiedene andere
und dann erst die Dublette kommen kann

Für Eure Ideen dankend

Klaus
 

Lesen sie die antworten

#1 Gerold Mittelstädt
29/05/2008 - 21:01 | Warnen spam
Hallo,

Klaus Mayer schrieb:
ich hab etliche alte Dateien zu indizieren und zu archivieren.
Das Auslesen der benötigten Strings aus den Dateien für die
Indizierung ist kein Problem.
Da die Dateien aber sehr groß sind (bis zu 10Mb Text), möchte ich
nicht für
jeden einzelnen Index einmal durch die gesamte Datei suchen, um
Dubletten bei den
Treffern zu verhindern, sondern jede einzelne Zeile auf eventuelle
Treffer bei allen Indizes prüfen.
Hab Ihr eine Idee, wie ich so doppelte Treffer vermeiden kann?
Das Problem ist auch das der erste Treffer am Anfang der Datei, dann
100-200 verschiedene andere
und dann erst die Dublette kommen kann



So recht versteh ichs gerade nicht.
Ist das Problem die Indizierung oder die Suchen im Index?
Und wie sieht der Index überhaupt aus? Datenbank? Und wenn ja: wie
strukturiert?

Viele Grüße!

Ähnliche fragen