HTML Dateien indizieren

01/05/2009 - 00:58 von Peter Mairhofer | Report spam
Hallo!

Für eine proprietàre Datenbankanwendung packe ich eine Masse von 20000
HTML Dateien komprimiert in eine SQLite Datenbank. Diese Datenbank wird
von einer GUI-Clientapplikation als Datendatei verwendet (beinhaltet
natürlich nicht nur den HTML Code sondern auch Navigation und andere
Metainfos).

Das Erstellen der Datenbank ist relativ aufwàndig (komplette Navigation
etc.) und wird mit einer Reihe von Bash, Perl und PHP-Scripts
bewerkstelligt.

Was nun fehlt ist aber eine Volltextsuche. Ich würde nun nach einem
möglichst einfachen Linuxprogramm suchen, das eine Menge an HTML Dateien
volltext indizieren kann und dabei der Output möglichst unkompliziert in
eine SQLite Datenbank importiert werden kann.

Anforderungen:

* Indizierung von (partiellen) HTML Dateien, ca. 20000
* Soll so schnell wie nur irgendwie möglich arbeiten (C-Programm?)
* Möglichst einfach und schnell zu installieren. Vielleicht sogar in
Debian dabei? Einfach: Keine Daemons oder so, sondern ein simpler
Aufruf wie:
makeindex --out-words=wordlist --out-zuordnungen=zuord htmldir/
* Die Ausgabe muss enthalten in welcher Datei welches Stichwort vorkommt
* Wenn möglich soll die Ausgabe-Datenstruktur bereits zweigeteilt sein:
- Eine Liste mit allen gefundenen Stichwörtern
- Eine Zuordnungsliste zwischen Stichwörtern und Dateien
(oder so àhnlich)

Gibt es zufàllig sowas? Für Windows hàtte ich bereits kommerzielle
Programme gefunden (z.B. ZoomSearch), allerdings ist da das
Ausgabeformat nie so wirklich optimal.

lg,
Peter
 

Lesen sie die antworten

#1 Heiko Schlenker
01/05/2009 - 02:08 | Warnen spam
* Peter Mairhofer schrieb:

Gibt es zufàllig sowas?



Hast Du Dir schon etwas in Richtung swish{-e,++}
<http://swish-e.org>, <http://swishplusplus.sourceforge.net>
angeguckt?

Gruß, Heiko
Neu im Usenet? -> http://www.kirchwitz.de/~amk/dni/
Linux-Anfànger(in)? -> http://www.dcoul.de/infos/
Fragen zu KDE/GNOME? -> de.comp.os.unix.apps.{kde,gnome}
Passende Newsgroup gesucht? -> http://groups.google.com/groups?as_umsgid=

Ähnliche fragen