In Python PDF-Dokumente nach Begriffen durchsuchen

07/09/2009 - 11:38 von krystian | Report spam
Hallo zusammen,

Ich bin interessiert an einer python bibliothek mit der ich PDF-
Dokumente nach Begriffen durchsuchen kann.
Im Internet habe ich ein projekt gefunden, PdfSearchGui-0.3, da aber
unvollstàndig scheint.
Denn nach Einbindung aller noch davon abhàngigen Libs bekomme ich
folgenden Fehler:

Traceback (most recent call last):
File "main.py", line 3, in <module>
from manager import conlongdos as conlongdos
File "C:\ Trainings\PDF\PdfSearchGui-0.3\manager.py", line 3, in
<module>
from indexer import Indexer
File "C: \Trainings\PDF\PdfSearchGui-0.3\indexer.py", line 14, in
<module>
from lupy.analysis.simpleanalyzer import SimpleAnalyzer
ImportError: No module named analysis.simpleanalyzer

Das Modul "analysis.simpleanalyzer " gibt es auch nicht.
Mein Problem ist jetzt, die Lib Lupy wird nicht mehr gepflegt und ich
scheine eine unpassende Version erwischt zu haben.

1. Kennt jemand das Problem und kann mir da weiterhelfen?
2. Was gibt es noch für Python Projekte, die sich mit PDF-Dokumenten
beschàftigen?

Danke im Voraus
krystian
 

Lesen sie die antworten

#1 Thomas Guettler
07/09/2009 - 16:25 | Warnen spam
Hallo,

man kann sich auch externer (nicht-Python) Programme bedienen, und
die per Python ansprechen (Modul subprocess).

zB pdftotext ist auf den meisten Linux-Systemen vorhanden. Es ist ein
Teil von xpdf. Vielleicht gibt es auch eine Windowsversion von dem Programm.

Sehr màchtig ist auch pdftk. Damit kann man einzelne Seiten extrahieren,
Wasserzeichen hinterlegen,

Gruß,
Thomas

krystian schrieb:
Hallo zusammen,

Ich bin interessiert an einer python bibliothek mit der ich PDF-
Dokumente nach Begriffen durchsuchen kann.
Im Internet habe ich ein projekt gefunden, PdfSearchGui-0.3, da aber
unvollstàndig scheint.
Denn nach Einbindung aller noch davon abhàngigen Libs bekomme ich
folgenden Fehler:

Traceback (most recent call last):
File "main.py", line 3, in <module>
from manager import conlongdos as conlongdos
File "C:\ Trainings\PDF\PdfSearchGui-0.3\manager.py", line 3, in
<module>
from indexer import Indexer
File "C: \Trainings\PDF\PdfSearchGui-0.3\indexer.py", line 14, in
<module>
from lupy.analysis.simpleanalyzer import SimpleAnalyzer
ImportError: No module named analysis.simpleanalyzer

Das Modul "analysis.simpleanalyzer " gibt es auch nicht.
Mein Problem ist jetzt, die Lib Lupy wird nicht mehr gepflegt und ich
scheine eine unpassende Version erwischt zu haben.

1. Kennt jemand das Problem und kann mir da weiterhelfen?
2. Was gibt es noch für Python Projekte, die sich mit PDF-Dokumenten
beschàftigen?

Danke im Voraus
krystian




Thomas Guettler, http://www.thomas-guettler.de/
E-Mail: guettli (*) thomas-guettler + de

Ähnliche fragen