[Linux] Scan nach PDF mit komplettem Layout

29/09/2015 - 23:05 von Andreas Kohlbach | Report spam
Gegeben sein ein Scan (mehrere Seiten in mehreren Bitmap Dateien) einer
Zeitschrift. Gibt es ein Programm für Linux, mit dem man ein PDF daraus
erstellen kann, was aber auch das Layout von Seiten (Rahmen, aber auch
Bilder, und natürlich den Text selbst) wieder gibt, *und* den Text aus
markier- und kopierbar macht mit der Maus?

Wer nicht weiß, was ich meine, kann sich das am Beispiel des fast 400 MB
großen PDF des BYTE Magazins von Februar 1984 (der Macintosh wird zum
ersten Mal erwàhnt :-) auf
<https://archive.org/download/byte-m...ks.pdf>
anschauen. Dort sieht man alles, wie im Magazin selbst, und kann mit der
Maus auch Text heraus kopieren, so der PDF-Reader das erlaubt.

Ich habe breits den kontaktiert, der die Scans auf archive.org zur
Verfügung stellt. Der sagte aber, dass er die nur sammelt und verfügbar
macht, aber nicht weiß, wie das selbst aufarbeitet wurde.

Ich habe hier selbst nur tesseract, was nur den Text heraus zieht. Nach
Recherche bin ich noch auf Scantailor gestoßen, was zwar mit Layout
umgehen kann, aber, so weit ich das sehe, kein OCR kann, und zu viel
Handarbeit braucht.

(OT:) Falls es nichts für Linux gibt, vielleicht für Mac oder Windows?
Andreas

I use a Unix based operating system, which means I get laid almost as often
as I have to reboot my computer.
 

Lesen sie die antworten

#1 Tim Ritberg
29/09/2015 - 23:28 | Warnen spam
Am 29.09.2015 um 23:05 schrieb Andreas Kohlbach:
Gegeben sein ein Scan (mehrere Seiten in mehreren Bitmap Dateien) einer
Zeitschrift. Gibt es ein Programm für Linux, mit dem man ein PDF daraus
erstellen kann, was aber auch das Layout von Seiten (Rahmen, aber auch
Bilder, und natürlich den Text selbst) wieder gibt, *und* den Text aus
markier- und kopierbar macht mit der Maus?

Wer nicht weiß, was ich meine, kann sich das am Beispiel des fast 400 MB
großen PDF des BYTE Magazins von Februar 1984 (der Macintosh wird zum
ersten Mal erwàhnt :-) auf
<https://archive.org/download/byte-m...ks.pdf>
anschauen. Dort sieht man alles, wie im Magazin selbst, und kann mit der
Maus auch Text heraus kopieren, so der PDF-Reader das erlaubt.

Ich habe breits den kontaktiert, der die Scans auf archive.org zur
Verfügung stellt. Der sagte aber, dass er die nur sammelt und verfügbar
macht, aber nicht weiß, wie das selbst aufarbeitet wurde.

Ich habe hier selbst nur tesseract, was nur den Text heraus zieht. Nach
Recherche bin ich noch auf Scantailor gestoßen, was zwar mit Layout
umgehen kann, aber, so weit ich das sehe, kein OCR kann, und zu viel
Handarbeit braucht.

(OT:) Falls es nichts für Linux gibt, vielleicht für Mac oder Windows?




Gscan2PDF. In der ct stand dazu auch mal was.
https://www.heise.de/artikel-archiv...F-Sandwich

Tim

Ähnliche fragen