Adobe Acrobat-Tipp #1: Dokumente digitalisieren und in maschinenlesbare PDF’s umwandeln

6 Kommentare
Mathias Gamper, Senior Screendesigner

Ein PDF wird in der Regel direkt aus dem Ersteller-Programm des Original-Dokumentes – beispielsweise Microsoft Word – geschrieben. Doch was, wenn das Ursprungsdokument noch gar nicht digital vorliegt? Dieser Artikel zeigt, wie das mit Adobe Acrobat geht.

Digitale Dokumente werden heute fast ausschliesslich im Portable Document Format (PDF) ausgetauscht. Egal aus welchen – allenfalls exotischen – Erstellungsprogrammen unsere Dokumente kommen, alles was ausgedruckt werden kann, kann auch in ein PDF umgewandelt werden. Mit einem PDF kann sichergestellt werden, dass der Empfänger das Dokuments so dargestellt bekommt, wie es auch vom Ersteller beabsichtigt war. Und dies unabhängig von Betriebssystem, installierter Software oder anderen Einflussfaktoren wie beispielsweise den installierten Schriften. Darum hat sich das PDF längst auch im Internet zum universellen Datenaustauschformat von Dokumenten gemausert. Verständlich, dass auch die Suchmaschinenbetreiber das Format unterstützen und das Web auch bequem nach PDF's und deren Inhalten durchforstet werden kann.

Doch was, wenn ein Text-Dokument noch gar nicht digital, sondern nur als Print vorliegt? Wie bekommen wir diese gedruckte Vorlage in ein PDF? Und wie können wir erreichen, dass dieses PDF auf einer Website eingebunden auch von Suchmaschinen gefunden wird, oder in einem PDF-Reader durchsucht werden kann?

Auch für solche Fälle hält Adobe Acrobat – nicht zu verwechseln mit dem kostenlosen Adobe Reader, der PDF's nur anzeigen kann (hier ein Vergleich der Funktionen) – eine elegante Lösung bereit, die ich hier beschreiben möchte. Die Zwischenschritte der Dokumenteverarbeitung stehen als Beispieldatei zum Download bereit.

Nr 1

Dokument Scannen

Als erstes muss unser Schriftstück digitalisiert, also gescannt werden. Dabei empfiehlt sich eine genügend hohe Auflösung  (angegeben in dpi) in den Scanner-Einstellungen zu verwenden. Die richtige Auflösung hängt von verschiedenen Faktoren ab. Scannt man Texte, sind aber mindestens 200 dpi oder gar mehr zu empfehlen. Aber Achtung: je mehr dpi verwendet werden, desto grösser wird auch die Datei. Für die Verwendung im Web würde im Grunde eine Auflösung von 72 dpi reichen, doch für die nächsten Arbeitsschritte ist es von Vorteil, eine höhere Auflösung als nötig zu verwenden.

Auflösungseinstellung im Scanprogramm: 200 dpi

Resultat nach dem Scannen (JPG als Zip-Datei komprimiert, 970 KB)

Nr 2

Bild in Acrobat öffnen

Unser gescanntes Bild können wir nun über den Öffnen-Dialog in Acrobat öffnen. Dabei wird das Bild automatisch in ein PDF umgewandelt, respektive darin eingebettet. Soweit so gut. Im Grunde hätten wir nun schon unser PDF. Grosser Nachteil: Unser Schriftstück ist so immer noch ein gescanntes Bild, der Text darin kann so nicht maschinell erkannt und verarbeitet werden. Das bedeutet, dass keine Suchmaschine den Text in unserem Dokument wird lesen können. Und auch die praktische Volltextsuche, die uns im Acrobat Reader zur Verfügung steht, wird so nicht fündig werden. Zudem ist das Dokument mit unserem Bild in aller Regel noch ein ziemliches Schwergewicht, was die Dateigrösse angeht; damit kann man im Internet schon mal seine Besucher vergraulen.

Resultat nach dem Acrobat-Import (PDF, 1.1 MB)

Nr 3

Texterkennung durchführen

Im Acrobat-Menü wählen wir nun folgendes aus: Dokument > OCR-Erkennung > Text mit OCR erkennen… (OCR steht für Optical Character Recognition, also optische Zeichenerkennung). In wenigen Augenblicken wandelt Acrobat nun den gescannten Text wieder in richtigen, maschinenlesbaren Text um. Wurde unser Dokument leicht schräg gescannt, wird es vor der Erkennung sogar automatisch gerade ausgerichtet. Das gescannte Bild wird im Hintergrund belassen, so dass das Dokument nach der Texterkennung nicht anders ausschaut als der Scan. Über den Text in unserem Bild hat Acrobat nun aber eine unsichtbare Ebene mit dem Text gelegt, welcher die Schrifterkennung im Bild erkannt hat. Gleichzeitig hat Acrobat unser gescanntes Bild auch automatisch komprimiert, damit die Dateigrösse kleiner wird.

Acrobat Menü: Dokument > OCR-Erkennung > Text mit OCR erkennen…

Finales Resultat nach der Texterkennung (PDF, 298 KB)

Nr 4

Resultat testen

Ein Test mit dem Auswahl-Werkzeug von Acrobat im Bild zeigt schnell, dass die Texte nun tatsächlich markiert werden können. Auch die Volltextsuche von Acrobat sollte nun entsprechende Resultate liefern. Alles geklappt? Wenn ja, können Sie das fertige PDF nun abspeichern. Sollte das Resultat nicht zufriedenstellen sein, helfen vielleicht die Tipps in den Anmerkungen unten weiter.

Test in Acrobat mit dem Auswahlwerkzeug und der Volltextsuche

Nr 5

Dateigrösse verringern

Nun noch ein optionaler Schritt. Eventuell lassen sich nochmals ein paar Pfunde aus der Datei rausquetschen. Die eigentlich übertriebene Auflösung beim Scannen sorgte für eine bessere Texterkennung, hat aber die Dateigrösse ordentlich in die Höhe getrieben. Diese wurde mit der Texterkennung aber automatisch wieder reduziert. Trotzdem kann folgender Versuch nicht schaden: Über Dokument > Dateigrösse verringern presst Acrobat unnötige Kilobytes aus unserem Dokument raus. Dadurch wird die Bildqualität eventuell wieder etwas schlechter besser, doch im Internet sind schnelle Ladezeiten meist wichiger als gestochen scharfe Bilder. Das so entstandene PDF speichern wir nun unter neuem Namen ab und vergleichen nun die Dateigrössen der beiden PDF-Varianten. Sollte eine der beiden deutlich weniger Kilobytes auf die Waage bringen, haben wir unsere Datei fürs Internet gefunden.

Über das Menü: Dokument > Dateigrösse verringern… bekommen wir die Datei allenfalls noch ein ganzes Stück kleiner

Bei unserem Beispieldokument konnte der Befehl «Dateigrösse verringern» nichts mehr bewirken.

Nr 6

Was schon fertig? Dann ins Netz damit!

Nun können wir unser Dokument ins Web stellen. Mit Hilfe der durchgeführten Texterkennung dürfte unser Dokument so auch den Weg in die Suchmaschinen finden.

Anmerkung

Die Qualität der Umwandlung kann je nach Vorlage stark variieren. Ein guter Test ist, den Text in Acrobat nach der OCR-Erkennung auszuwählen und über die Zwischenablage in eine Textverarbeitung zu kopieren. Dort wird dann schnell ersichtlich, wie genau Acrobat den Text erkannt hat. Generell gilt: Fehlerfrei ist diese Methode nie. Doch es kann bereits mit kleinem Aufwand etwas für Suchmaschine und Benutzer gemacht werden.
Sollte das Resultat überhaupt nicht zufrieden stellend sein, kann ein Versuch mit einer höheren Scan-Auflösung gemacht werden. Auch die Kontraste zwischen Text und Hintergrund mit Hilfe einer Bildbearbeitung zu erhöhen, kann das Resultat positiv beeinflussen.

Die verwendete Musterdatei wurde mit freundlicher Genehmigung des Schweizerischen Zentralvereins für das Blindenwesen, SZB zur Verfügung gestellt. Copyright by SZB 2007.

neuen Kommentar erstellen

Wolfgang's Gravatar
Hallo zusammen,

Diese Vorgehensweise ist mir soweit auch bekannt; allerdings habe ich bei der weiteren Bearbeitung noch folgendes Problem:

In Acrobat XI Pro habe ich die Möglichkeit Text und Bilder zu bearbeiten, zB Text zu löschen oder zu ergänzen. Bei mir wird aber nach der OCR weiterhin nur ein Bild angezeigt, was eine weitere Bearbeitung nicht möglich macht. Hat jemand eine Idee?
Grüße aus München
Wolfgang
Wolfgang, am 15. März 2014 um 15:51 Uhr
Mathias's Gravatar
Ja, die nachträgliche Textbearbeitung ist mit OCR-Dokumenten meines Wissens nicht möglich. Zu sehen ist ja nach wie vor das gescannte Bild und kein richtiger Text. Darüber scheint Acrobat unsichtbar den erkannten OCR-Text zu legen, so dass Textauswahlen und die Suche möglich ist. Das eigentliche Bild lässt sich so nicht ohne weiteres bearbeiten, dafür ist Acrobat nicht gedacht.
Mathias, am 17. März 2014 um 09:23 Uhr
Frank Scheer's Gravatar
Eine schlanke, wenn auch relativ teure Lösung, ist das Einscannen mit ScanSnap von Fujitsu. Mit Hilfe der mitgelieferten Software, die den Abby Finereader enthält, kann man in einem Schritt durchsuchbare PDFs erzeugen.
Frank Scheer, am 26. April 2014 um 13:17 Uhr
Mathias's Gravatar
Ja, gute Scanner oder Multifunktionsgeräte mit Scan-Funktion erledigen das in der Regel komfortabel in einem Schritt. Beim Scannerkauf also unbedingt beachten, wenn man sich ein digitales Archiv anlegen möchte.
Eine weitere Möglichkeit ist beispielsweise auch die Pro-Version (kostenpflichtig) von Evernote, die Texte in Fotos und gescannten Dokumenten ebenfalls erkennen kann. Selbst mit Handschriften funktioniert das in der Regel problemlos.
Mathias, am 28. April 2014 um 08:38 Uhr
Kaka's Gravatar
Kaka
Kaka, am 19. Mai 2014 um 09:19 Uhr
sweety's Gravatar
hallo was geht ab
sweety, am 1. März 2016 um 15:06 Uhr
Bitte lassen Sie dieses Feld leer
Kommentar hinzufügen


Bitte lassen Sie dieses Feld leer
Beitrag als E-Mail verschicken
E-Mail via Webmail versenden

Schön, dass Ihnen unser Beitrag gefallen hat. Benutzen Sie folgende Social Networking Dienste, um den Beitrag abzulegen und zu verteilen. Selbstverstädlich können Sie ein direktes Lesezeichen auf diesen Artikel setzen.