PDF parsen

07/02/2008 - 17:14 von Jürgen Hoffmann | Report spam
Hallo,

ich möchte PDF-Dateien automatisch nach enthaltenen Worten (Text)
durchsuchen lassen. Ziel ist der Aufbau eines Indexes (DB) um schnell in
einen größeren Bestand von PDF-Dateien nach enthaltenen Begriffen suchen
zu lassen.

Habe vom CPAN das Package PDF (PDF-111.tgz) eingebunden und bekomme auch
diverse Angaben zu einer PDF-Datei, wie Version ($pdf->Version), Anzahl
Seiten ($pdf->Pages) u.a.

Die Frage ist: Wie komme ich einfach an den Textinhalt heran (andere
Inhalte wie Grafiken sind uninteressant)?

Gruß Jürgen
 

Lesen sie die antworten

#1 Christian Kirsch
08/02/2008 - 08:56 | Warnen spam
Jürgen Hoffmann schrieb:
Hallo,

ich möchte PDF-Dateien automatisch nach enthaltenen Worten (Text)
durchsuchen lassen.



Viel Spaß.

Ziel ist der Aufbau eines Indexes (DB) um schnell in
einen größeren Bestand von PDF-Dateien nach enthaltenen Begriffen suchen
zu lassen.

Habe vom CPAN das Package PDF (PDF-111.tgz) eingebunden und bekomme auch
diverse Angaben zu einer PDF-Datei, wie Version ($pdf->Version), Anzahl
Seiten ($pdf->Pages) u.a.

Die Frage ist: Wie komme ich einfach an den Textinhalt heran (andere
Inhalte wie Grafiken sind uninteressant)?



"einfach" - gar nicht. Oder zumindest nicht zuverlàssig. PDF ist im
Prinzip Postscript, also eine komplette Programmiersprache. Da kann es
Dir passieren, dass das ausgebende Programm jeden Buchstaben einzeln
(und nicht unbedingt in der Lese-Reihenfolge) positioniert.

Guck' Dir mal pdflib von Thomas Merz an, das hat m.E. auch ein
Perl-Interface und kann "im Prinzip" das, was Du willst.

Ähnliche fragen