Scan + OCR

29/04/2010 - 18:21 von Reindl Wolfgang | Report spam
Hallo,

von einer Zeitschriften-Artikelserie möchte ich gerne eine durchsuchbare
PDF-Version anlegen. Mir steht dazu ein HP all-in-one zur Verfügung mit
dem mitgelieferten OCR-Modul von Iris; System ist Leopard ppc, gestern
letztes Update.

Das PDF sollte im "Bild über Text" Format sein, damit die originale
Seitengestaltung erhalten bleibt.

Die "üblichen Probleme" bei OCR werden im konkreten Fall noch erschwert
durch Ordner-Löcher, die teilweise den Text anknabbern (da _muß_ Iris
logischerweise rausfliegen) und durch etliche Fachbegriffe, die das
Wörterbuch von Iris nicht zur Verfügung haben dürfte.
Für eine vernünftige Volltextsuche ist also eine Nachbearbeitung des
gescannten und OCRten Textes unumgànglich.

Mit welchen Programmen làßt sich das OCR-Ergebnis entsprechend
nachbearbeiten und in das PDF einflechten?

Oder sollte ich besser in 2 Durchgàngen das Original-Layout und den Text
scannen und dann im RagTime einen Bildrahmen mit transparenten
Textrahmen überlagern (mit nachempfundenen Layout) und dann aus RT
heraus das endgültige PDF erzeugen?

Wolfgang
 

Lesen sie die antworten

#1 Radulph Kader
29/04/2010 - 20:55 | Warnen spam
Am 29.04.2010 18:21 Uhr schrieb "Reindl Wolfgang" unter
in 3d58d$4bd9b204$5b7705e1$:

Hallo,

von einer Zeitschriften-Artikelserie möchte ich gerne eine durchsuchbare
PDF-Version anlegen. Mir steht dazu ein HP all-in-one zur Verfügung mit
dem mitgelieferten OCR-Modul von Iris; System ist Leopard ppc, gestern
letztes Update.

Das PDF sollte im "Bild über Text" Format sein, damit die originale
Seitengestaltung erhalten bleibt.

Die "üblichen Probleme" bei OCR werden im konkreten Fall noch erschwert
durch Ordner-Löcher, die teilweise den Text anknabbern (da _muß_ Iris
logischerweise rausfliegen) und durch etliche Fachbegriffe, die das
Wörterbuch von Iris nicht zur Verfügung haben dürfte.
Für eine vernünftige Volltextsuche ist also eine Nachbearbeitung des
gescannten und OCRten Textes unumgànglich.

Mit welchen Programmen làßt sich das OCR-Ergebnis entsprechend
nachbearbeiten und in das PDF einflechten?

Oder sollte ich besser in 2 Durchgàngen das Original-Layout und den Text
scannen und dann im RagTime einen Bildrahmen mit transparenten
Textrahmen überlagern (mit nachempfundenen Layout) und dann aus RT
heraus das endgültige PDF erzeugen?

Wolfgang



Hört sich reichlich kompliziert an. Ich bin mir recht sicher, dass Du hier à
la durch den Rücken in die Brust agierst.
VueScan hat Texterkennung für durchsuchbares PDF an Bord. Gleiches kannst Du
auch mit DevonThink Office Pro erledigen (sehr zuverlàssig) - auch
nachtràglich von einfach als Bild gescannten PDF. Mit einer Demo sollte
Deine Aufgabe zu lösen sein. Ähnliche Freeform-Datenbanken dürften
vergleichbare Funktionen an Bord haben.

Radulph

Ähnliche fragen