Selbst gescannte Textpassagen ergeben PDF-Dateien, die vom Speicherbedarf relativ groß und von der Textqualität ggf. schwer lesbar sind.
Adobe Acrobat Professional 9.0 (Arbeitsplatzversion für Lehrende der Uni Hamburg) stellt verschiedene Werkzeuge zur Verfügung, die diese Dateien besser lesbar machen, im optimalen Fall auf ca. 1/20 des ursprünglichen Datenumfangs reduzieren können sowie den Text wie ein herkömmliches Textdokument in Textstellen kopierbar, durchsuchbar und indizierbar machen.

Ausgangspunkt ist ein möglichst kontrastreicher, hochaufgelöster (300 dpi) Schwarz-Weiss-Scan des Textes.
Das Vorgehen ist wie folgt:

1.) Schwarze Scanflächen und weiße Bildränder abschneiden

Jede Bildinformation benötigt Speicherplatz. Große weisse oder gar gräulich-schwarze Bereiche um die Seiten stehen für ‚leere‘ Informationen, so dass der erste Schritt der Beschnitt der Seiten ist. Wenn der Textbereich stets an der selben Stelle des Scanbereichs zu finden ist, kann der Beschnitt automatisiert durch alle Seiten hindurch durchgeführt werden.

  • Menü: Werkzeuge -> Erweiterte Bearbeitung -> Beschneidewerkzeug

2.) Scanbilder mit OCR-ClearScan als Text auslesen

Ein Scan einer Buchseite ergibt üblicherweise ein Bild einer Buchseite, nicht den Text. Das reicht zum Lesen und Ausdrucken, aber das Bild ist
a) nicht nach spezifischen Text durchsuchbar,
b) Textstellen darin können nicht aus dem Bild für z.B. Zitate heraus kopiert werden,
c) das Textbild kann eine schlecht lesbare, pixelige Qualität aufweisen und
d) das Bild verbraucht üblicherweise mehr Platz als ein ein ‚echter‘ Text.

Eine klassische OCR (Optical Character Recognition) versucht, die Buchstaben eines Textbilds zu erkennen und hinterlegt diese Informationen parallel zum Bild, was Durchsuchbarkeit und Kopierbarkeit ermöglicht. Diese Voreinstellung bei Acrobat Professional 9.0 hat ihren Sinn bei sehr pixeligen, niedrig aufgelösten Vorlagen oder solchen mit vielen Störungen/Verschmutzungen des Texts.

Acrobat Professional 9.0 bietet mit der neuen OCR-Clearscan-Methode die Möglichkeit, die Texte mit einem eigens aus dem Bild generierten Zeichensatz ’nachzustellen‘. Gerade bei längeren Texten kann dies zu sehr guten Ergebnissen führen, was Lesbarkeit und Speichergröße angeht.

  • Menü: Dokument -> OCR-Texterkennung ->Text mit OCR erkennen -> Button: Bearbeiten
    PDF-Ausgabestil einstellen -> Clearscan

Links: Scanbild mit klassischer OCR / Rechts: Scanbild via Clearscan mit weniger als 1/10 des Speicherbedarfs.

Nachtrag (10.08.2012)

Für Mac OSX ab 10.7 (Lion) wird die Version Adobe Acrobat Pro X benötigt, Pro 9.0 stürzt bei der Verwendung von Clearscan ab. Die Anwendung bei Pro X ist ähnlich, nur dass hier Clearscan unter „Werkzeuge“ -> „Texterkennung“ -> „In dieser Datei“ eingestellt werden muss.

Weiterführende Links