OCR PDF Texterkennung mit PDF-XChange Editor: Text in PDF per OCR erkennen und bearbeitbar machen
Was ist PDF OCR und Texterkennung für PDF-Dateien?
Die PDF-Texterkennung ist eine bewährte Methode, um Inhalte aus gescannten Dokumenten dauerhaft nutzbar zu machen. Mithilfe von OCR für Ihr PDF lassen sich Texte aus Bildern, PDFs oder anderen Files extrahieren und in bearbeitbaren Text umwandeln. So wird aus einem statischen Dokument ein bearbeitbares und durchsuchbares PDF-Format. Die optische Zeichenerkennung (OCR) im PDF-XChange Editor analysiert bildbasierte Dokumente, erkennt Text und macht ihn selektier- und durchsuchbar.
Die OCR-Technologie ist ideal, wenn Dokumente ursprünglich als JPG oder andere Bilddateien vorliegen oder wenn PDFs aus gescannten Dokumenten bestehen. Durch die Konvertierung entsteht ein durchsuchbares PDF, das sich archivieren, durchsuchen und weiterverarbeiten lässt und das ganz ohne externes Online-Tool.
PDF-Dokumente per OCR-Tool erkennen und durchsuchbar machen
Und so geht es…
Klicken Sie auf „Umwandeln/Text erkennen“ um diesen Vorgang einzuleiten.

Die OCR-Funktion kann sowohl auf einzelne Seiten als auch auf komplette PDF-Dateien angewendet werden. Per OCR lassen sich Texte aus gescannten Dokumenten schnell erfassen und das einfach und schnell, ohne zusätzliche Online-Tools nutzen zu müssen.
Das Dialogfeld „Text erkennen“ wird geöffnet

Die Optionen für den Seitenbereich sind wie folgt:
- Wählen Sie Alle zur OCR aller Seiten des Dokuments.
- Wählen Sie Aktuelle Seite, um nur die aktuelle Seite zu OCR zu verwenden.
- Verwenden Sie das Feld Seiten, um bestimmte Seiten des Dokuments zu bestimmen, auf denen der OCR-Vorgang ausgeführt werden soll.
Verwenden Sie die Option „Teilmenge“ um Alle Seiten, Nur ungerade Seiten oder Nur gerade Seiten auszuwählen.
Unter „Erkennung“ bestimmen die Sprache und Genauigkeit des OCR-Prozesses.
Die Erhöhung der Genauigkeit erhöht die Zeit, die der Prozess benötigt und umgekehrt.
Zusätzlich ist zu beachten, dass die Einstellung der Genauigkeit auf hoch zu einer ungewöhnlichen Ausgabe führen kann, wenn das Dokument auf dem die Operation ausgeführt wird, Unvollkommenheiten aufweist. Das liegt daran, dass die Software tiefer sucht und versucht, Unvollkommenheiten als Text zu erkennen.
Unter der Option „Ausgabe“ bestimmen Sie das Format der Ausgabeinformationen aus dem OCR-Prozess:
- Wählen Sie entweder „Inhalte erhalten Textebene hinzufügen oder Neues durchsuchbares PDF-Dokument erstellen
Unter Qualität bestimmen Sie die Auflösung des neuen PDF-Dokuments in dpi (dots per inch).
Wählen Sie die Option Automatisch Entzerren um Dokumente automatisch zu entzerren. Diese Funktion kann zum Beispiel Bilder, die schief aufgenommen oder gescannt wurden, ausrichtet.
Klicken Sie auf OK für die Texterkennung auszuführen.
Einstellungen für die Texterkennung festlegen
Das Dialogfeld „Text erkennen“ wird geöffnet

Hier definieren Sie, wie die OCR-PDF-Verarbeitung erfolgen soll. Abhängig vom Ausgangsmaterial (PDF-Dateien, gescannte Inhalte, GIF- oder JPG-Files) können unterschiedliche Einstellungen sinnvoll sein. Ziel ist es stets, einen möglichst gut lesbaren und bearbeitbaren Text zu erzeugen.
PDF-Dateien per OCR-Tool gezielt konvertieren
Die Optionen für den Seitenbereich sind wie folgt:
- Wählen Sie Alle zur OCR aller Seiten des Dokuments.
- Wählen Sie Aktuelle Seite, um nur die aktuelle Seite zu OCR zu verwenden.
- Verwenden Sie das Feld Seiten, um bestimmte Seiten des Dokuments zu bestimmen, auf denen der OCR-Vorgang ausgeführt werden soll.
Verwenden Sie die Option „Teilmenge“ um Alle Seiten, Nur ungerade Seiten oder Nur gerade Seiten auszuwählen.
Diese Auswahl ist besonders hilfreich bei umfangreichen PDF-Dokumenten, bei denen nur bestimmte Seiten Text enthalten. So lassen sich PDF-Dateien gezielt konvertieren, ohne unnötige Seiten zu verarbeiten oder zusätzliche Rechenzeit zu verbrauchen.
Text aus PDF-Dateien per OCR erkennen und bearbeiten
Unter „Erkennung“ bestimmen die Sprache und Genauigkeit des OCR-Prozesses.
Die Erhöhung der Genauigkeit erhöht die Zeit, die der Prozess benötigt und umgekehrt.
Zusätzlich ist zu beachten, dass die Einstellung der Genauigkeit auf hoch zu einer ungewöhnlichen Ausgabe führen kann, wenn das Dokument auf dem die Operation ausgeführt wird, Unvollkommenheiten aufweist. Das liegt daran, dass die Software tiefer sucht und versucht, Unvollkommenheiten als Text zu erkennen.
Gerade bei unterschiedlichen Schriftarten oder stark komprimierten PDF-Dateien kann eine zu hohe Genauigkeit zu fehlerhaften Ergebnissen führen. In solchen Fällen empfiehlt es sich, mehrere Einstellungen zu testen, um einen gut bearbeitbaren Text zu erhalten.
PDF OCR Ausgabe: durchsuchbare PDF-Dateien erstellen
Unter der Option „Ausgabe“ bestimmen Sie das Format der Ausgabeinformationen aus dem OCR-Prozess:
- Wählen Sie entweder „Inhalte erhalten Textebene hinzufügen oder Neues durchsuchbares PDF-Dokument erstellen
Ein neu erstelltes durchsuchbares PDF ermöglicht es, Inhalte nicht nur zu lesen, sondern auch gezielt zu durchsuchen, zu kopieren und weiterzuverarbeiten. Dadurch wird das PDF-Format deutlich flexibler nutzbar als reine Bilddateien.
Qualität und Bildoptimierung für bessere Ergebnisse
Unter Qualität bestimmen Sie die Auflösung des neuen PDF-Dokuments in dpi (dots per inch).
Wählen Sie die Option Automatisch Entzerren um Dokumente automatisch zu entzerren. Diese Funktion kann zum Beispiel Bilder, die schief aufgenommen oder gescannt wurden, ausrichtet.
Je nach Auswahl bleibt das ursprüngliche Erscheinungsbild des Dokuments erhalten oder es wird ein neues durchsuchbares PDF erzeugt. Dadurch werden PDF-Dokumente nicht nur lesbar, sondern auch vollständig durchsuchbar und auswählbar. Inhalte können anschließend gespeichert, kopiert oder weiter bearbeitet werden.
OCR-Prozess starten und Ergebnisse nutzen
Klicken Sie auf OK für die Texterkennung auszuführen.
Nach Abschluss des OCR-Prozesses steht eine PDF-Datei zur Verfügung, in der Text markiert, durchsucht und weiterverarbeitet werden kann. Der PDF-XChange Editor fungiert dabei als vielseitiger Creator für die Konvertierung und Bearbeitung von PDF-Dokumenten, gescannten Inhalten und Bilddateien.
Die OCR-Funktion erleichtert die Arbeit mit gescannten Dokumenten erheblich und macht aus statischen Scans strukturierte, durchsuchbare PDF-Dateien. Diese sind ideal für Archivierung, Recherche und Weiterverarbeitung.
PDF-OCR: Dateien in durchsuchbare Inhalte verwandeln
Mit der PDF-Texterkennung im PDF-XChange Editor steht ein effektives OCR-Tool zur Verfügung, das in Windows eingesetzt werden kann. Die OCR-Software erlaubt es, eine PDF-Datei oder auch andere Dateien per PDF-OCR zu analysieren und den enthaltenen Text in ein durchsuchbares Format zu verwandeln. So erhält man eine konvertierte Datei mit durchsuchbarem Inhalt, die sich deutlich einfacher weiterverwenden lässt.
Für viele Anwendungsfälle kann die Texterkennung sogar kostenlos genutzt werden, ohne auf ein externes Online-Tool angewiesen zu sein. Gerade im Vergleich zu einem reinen Online-Tool bietet die lokale OCR-Software unter Windows mehr Kontrolle über die Datei, die Konvertierung und den Umgang mit sensiblen Inhalten.
