Leerzeichen innerhalb von Worten beim Druck als PDF

03/03/2010 - 13:26 von Hans-Dieter Schulze | Report spam
Hallo NG,

beim Drucken aus Anwendungen gibt es die Möglichkeit zum "In Datei drucken"
um PDF- bzw. PostScript-Dokumente zu erzeugen. Die erzeugten Dokumente sehen
ordentlich aus.

Selektiert man aber in den erzeugten Dokumenten Text oder wandelt sie mit
pdftotext in Text um, so stellt man fest, dass in einige Worte Leerzeichen
eingefügt wurden.
Die Dokumente sind für eine Volltextsuche unbrauchbar. Das ist auch bei
Dokumenten so, die von cups-pdf erzeugt wurden.

Kennt jemand eine Möglichkeit zum Erstellen von durchsuchbare PDF-
Dokumenten, die diesen Makel nicht aufweisen?

Viele Grüße
Hans-Dieter
OS: openSUSE 11.2 (i586) · Kernel: 2.6.31.12-0.1-default
KDE: 4.4.00 (KDE 4.4.0) "release 224"
 

Lesen sie die antworten

#1 Ansgar Strickerschmidt
03/03/2010 - 14:10 | Warnen spam
Also schrieb Hans-Dieter Schulze:

Hallo NG,

beim Drucken aus Anwendungen gibt es die Möglichkeit zum "In Datei
drucken"
um PDF- bzw. PostScript-Dokumente zu erzeugen. Die erzeugten Dokumente
sehen
ordentlich aus.

Selektiert man aber in den erzeugten Dokumenten Text oder wandelt sie mit
pdftotext in Text um, so stellt man fest, dass in einige Worte
Leerzeichen eingefügt wurden.



Solche Eigenmàchtigkeiten sollten aber nicht normal sein... Bug-Reports
durchschauen und bei Bedarf schreiben?

Ansgar

*** Musik! ***

Ähnliche fragen