- Ein gescanntes PDF ist eigentlich ein Bild und benötigt OCR, um bearbeitbar oder durchsuchbar zu werden.
- Wondershare PDFelement bietet leistungsstarke OCR in den Modi „Bearbeitbar“, „Durchsuchbar“ und „Bereichsspezifisch“.
- Es gibt Alternativen wie HiPDF online, Word, Google Docs oder Adobe, die jedoch unterschiedliche Einschränkungen aufweisen.
- Die Qualität des Scans (Auflösung, Kontrast und Ausrichtung) ist entscheidend für eine genaue OCR-Erfassung.
Wenn Sie schon einmal auf eine eingescannte PDF-Datei, die Sie korrigieren oder aktualisieren müssen.Sie kennen das sicher: Es ist frustrierend, wenn man den Text nicht auswählen oder ändern kann. Auf den ersten Blick sieht es aus wie ein normales Dokument, aber tatsächlich haben Sie ein in eine PDF-Datei eingebettetes Bild vor sich, das sich nicht bearbeiten lässt.
Die gute Nachricht ist, dass es heutzutage sehr einfach ist. Konvertieren Sie die gescannte PDF-Datei mithilfe der OCR-Technologie in eine bearbeitbare Datei. (Optische Zeichenerkennung). Eines der umfassendsten Programme dafür, sowohl für Windows als auch für Mac, ist Wondershare PDFelement. Es verfügt über eine sehr leistungsstarke OCR-Engine, die sogar in der professionellen Testversion verfügbar ist, sodass Sie sie vor dem Kauf ausprobieren können.
Was ist OCR und warum kann man ein gescanntes PDF nicht bearbeiten?
Beim Scannen eines Papierdokuments erzeugt der Scanner eine Foto des Inhalts (Text, Grafiken, Tabellen, Unterschriften…).Das Ergebnis wird als Bild oder als bildbasierte PDF-Datei gespeichert. Praktisch gesehen interpretiert der Computer dies als Pixel, nicht als Text, daher können Sie kein Wort markieren, kopieren oder bearbeiten.
Deshalb fragen sich viele Menschen: „Warum kann ich eine gescannte PDF-Datei nicht bearbeiten?“Der Grund ist einfach: Die gescannte PDF-Datei enthält keine Textzeichen, sondern nur ein Bild. Ein Texteditor kann nichts davon erkennen und direkt bearbeiten.
Die Technologie zur optischen Zeichenerkennung (OCR) dient genau diesem Zweck: Es analysiert das Bild, identifiziert jedes einzelne Zeichen und wandelt es in digitalen Text um.Sobald die OCR-Texterkennung angewendet wurde, ist der Inhalt auswählbar, bearbeitbar und kann auch innerhalb des Dokuments durchsucht werden.
Die Anwendung von OCR ermöglicht die Transformation eingescannte PDFs, Fotos von Dokumenten oder handschriftliche Formulare in vollständig editierbaren Dokumenten, wobei das ursprüngliche Erscheinungsbild so weit wie möglich erhalten bleibt. Dies erleichtert Aufgaben wie Korrekturen, Datenaktualisierungen, digitale Archivierung oder die Extraktion von Informationen in andere Formate.
Bearbeiten des Textes einer gescannten PDF-Datei mit Wondershare PDFelement (Bearbeitungsmodus)
Wondershare PDFelement ist ein sehr umfassender PDF-Editor, der Folgendes beinhaltet: Professionelles OCR-Modul, kompatibel mit mehr als 20 Sprachen (Spanisch, Englisch, Französisch, Deutsch, Italienisch, Portugiesisch, Arabisch, Russisch, Tschechisch, Türkisch, Koreanisch, Indonesisch usw.). Die OCR-PDF-Funktion ist in der Testversion von PDFelement Professional verfügbar. Sie können sie also kostenlos ausprobieren, bevor Sie sich für den Kauf entscheiden.
Wenn Sie eine gescannte oder bildbasierte PDF-Datei öffnen, PDFelement erkennt automatisch, dass es sich um ein gescanntes Dokument handelt. Anschließend wird oben im Fenster ein Vorschlag zum Starten der OCR-Erkennung angezeigt. Von dort aus können Sie den am besten geeigneten Modus auswählen, je nachdem, was Sie mit der Datei tun möchten.
Wenn dein Ziel ist Bearbeiten Sie PDF-Inhalte, ändern Sie Formulierungen, korrigieren Sie Fehler oder tauschen Sie Bilder aus.Für Sie ist der Modus „Scannen in bearbeitbaren Text“ relevant. In diesem Modus generiert PDFelement eine neue PDF-Datei, in der der gesamte erkannte Text bearbeitet werden kann, als wäre es ein ursprünglich digital erstelltes Dokument.
Um die bearbeitbare OCR-Funktion in PDFelement anzuwenden, ist der Ablauf sehr einfach: Öffnen Sie das gescannte Dokument und gehen Sie zum Menü „OCR-Werkzeuge“. Sie wählen den Modus für die Konvertierung von editierbarem Text und die richtige Sprache. des Inhalts (dies erhöht die Genauigkeit erheblich) und, falls gewünscht, können Sie den Bereich der Seiten definieren, auf denen die Erkennung durchgeführt werden soll.
Wenn Sie auf „Anwenden“ klicken, zeigt das Programm einen Fortschrittsbalken an, und nach Abschluss des Vorgangs, Die neue bearbeitbare PDF-Datei öffnet sich automatisch.Klicken Sie anschließend einfach auf den „Bearbeitungsmodus“, um mit dem Ändern von Texten zu beginnen, neue Absätze hinzuzufügen, unerwünschte Teile zu löschen oder Bilder und Diagramme zu bearbeiten.
Suchbarer OCR-Modus: Gescannte PDFs durchsuchbar und auswählbar machen
Ab Version 6.3.0 von PDFelement Professional wurde eine weitere sehr interessante Option hinzugefügt: OCR-SuchmodusDieser Modus ist für diejenigen gedacht, die den Text nicht neu formatieren oder ändern müssen, aber Teile des Dokuments suchen, auswählen und kopieren möchten.
Wenn Sie in diesem Fall im PDFelement-Menü das OCR-Menü aufrufen, wählen Sie die entsprechende Option aus. „Scannen Sie den Scanner, um Text im Bild zu suchen“Das Ergebnis ist eine PDF-Datei, die optisch nahezu unverändert bleibt (das Originalbild bleibt erhalten), in die jedoch eine unsichtbare Textebene eingebettet ist, die es ermöglicht, Wörter mit Tastenkombinationen wie Strg+F zu finden.
Sobald die neue OCR-Suchdatei erstellt wurde, können Sie Markieren Sie einen beliebigen Textblock und kopieren Sie ihn in die Zwischenablage. Sie können es dann in ein Word-Dokument, eine E-Mail oder ein anderes Programm Ihrer Wahl einfügen. Diese Lösung ist besonders nützlich, wenn Sie mit Handbüchern, Verträgen oder längeren Dokumenten arbeiten, bei denen das Auffinden bestimmter Informationen entscheidend ist.
Diese Vorgehensweise ist besonders praktisch, wenn Sie wollen Das ursprüngliche Dokumentendesign zu 100 % beibehalten (Siegel, Wasserzeichen, Signaturen usw.), aber gleichzeitig müssen Sie mit dem Textinhalt arbeiten können, um schnelle Abfragen durchführen zu können.
OCR-Bereich in PDFelement: Nur einen Teil des Dokuments erkennen
Es ist nicht immer notwendig, OCR auf ein gesamtes Dokument anzuwenden. Mit der Funktion PDFelement „OCR-Bereich“ Sie können die Erkennung auf einen bestimmten Bereich der Seite beschränken, was Verarbeitungszeit spart und sehr praktisch ist, wenn Sie nur Daten aus einem Teil der PDF-Datei extrahieren müssen.
Es funktioniert ganz einfach: Sie öffnen das Bild oder die gescannte PDF-Datei und greifen dann darauf zu. „Werkzeug > OCR-Bereich“ Anschließend ziehen Sie mit der Maus, um das Rechteck auszuwählen, das den zu erkennenden Text enthält. Dies eignet sich ideal für Tabellen, bestimmte Spalten, Fußzeilen oder Formulare auf Seiten mit vielen grafischen Elementen.
Auf der rechten Seite des Fensters sehen Sie das Eigenschaftenfenster, über das Sie Wählen Sie die Erkennungssprache aus Für diesen spezifischen Bereich müssen Sie dann nur noch auf „Erkennen“ klicken, damit PDFelement den Inhalt verarbeitet und ihn je nach gewähltem Modus in bearbeitbaren oder durchsuchbaren Text umwandelt.
Diese OCR-Bereichsfunktion ist besonders nützlich bei der Arbeit mit eingescannte Formulare, Rechnungen, Lieferscheine oder Berichte Sie müssen lediglich bestimmte Datenfelder in eine Tabellenkalkulation oder ein anderes Managementsystem importieren.
Schritt-für-Schritt-Anleitung: So bearbeiten Sie gescannte PDFs unter Windows und Mac mit PDFelement
Auch wenn der Begriff OCR technisch klingen mag, ist der Prozess bei PDFelement sehr gut strukturiert und auf wenige Schritte reduziert. Im Folgenden finden Sie den typischen Arbeitsablauf für Bearbeiten gescannter PDF-Dokumente unter Windows 11 und macOS mit diesem Programm.
Der erste Schritt ist zu PDF-Datei importieren Zum Programm. Wenn Sie PDFelement starten, können Sie über die Schaltfläche „Öffnen“ unten links im Startfenster durch Ihre Ordner navigieren, die gescannte PDF-Datei auswählen und hochladen.
Sobald PDFelement erkennt, dass das Dokument bildbasiert ist, zeigt es eine Popup-Benachrichtigung an, die Folgendes vorschlägt: OCR durchführenWenn Sie auf „OCR durchführen“ klicken, werden Sie von der Software aufgefordert, die Sprache des Inhalts auszuwählen (es ist wichtig, die richtige Sprache anzugeben, um die Genauigkeit zu maximieren, insbesondere wenn Akzente oder Sonderzeichen vorhanden sind).
Nach Abschluss des Scans kann die Datei bearbeitet werden. (Über das Menü) Unter „Bearbeiten“ finden Sie die Werkzeuge zur Text- und Objektbearbeitung.Auf diese Weise können Sie auf jeden Absatz klicken, um Wörter hinzuzufügen oder zu löschen, das Textformat zu ändern oder mit der Option „Text hinzufügen“ neue Blöcke einzufügen.
Darüber hinaus ermöglicht PDFelement die Bearbeitung von Bildern, Formen, Grafiken und anderen Elementen. Die Option zum Mit „Objekte bearbeiten“ können Sie Bilder verschieben, zuschneiden, drehen oder löschen.sowie die Möglichkeit, bei Bedarf neue Bilder in das Dokument einzufügen.
Während Sie arbeiten, ist es wichtig, Ihre Änderungen zu speichern. Sie können dazu Folgendes verwenden: Strg + S zum Speichern in derselben Datei Oder verwenden Sie „Datei > Speichern unter“, um eine neue Kopie zu erstellen, einen anderen Zielordner auszuwählen oder das Dokument zu versionieren, ohne das Original zu verlieren.
So bearbeiten Sie eine gescannte PDF-Datei online mit HiPDF
Wenn Sie es vorziehen, nichts auf Ihrem Computer zu installieren, ist die Verwendung von … eine interessante Option. HiPDF, die Online-Plattform, die mit dem Wondershare-Ökosystem verbunden ist.Diese Website bietet ein spezielles Online-OCR-Tool, mit dem Sie gescannte PDFs direkt in Ihrem Browser verarbeiten können.
Der Vorgang ist einfach: Sie rufen die offizielle HiPDF-Website auf und suchen den Abschnitt über „Online-OCR“ Sie laden Ihre Datei über die Schaltfläche „Datei auswählen“ hoch oder ziehen sie per Drag & Drop in das Browserfenster. Nach dem Hochladen konfigurieren Sie die Dokumentsprache und das Ausgabeformat (z. B. reiner Text oder ein durchsuchbares PDF) und klicken auf „Konvertieren“.
Sobald die Umstellung abgeschlossen ist, werden Sie in der Lage sein, Laden Sie die verarbeitete Datei herunter. auf Ihr Gerät. Diese Lösung bietet mehrere Vorteile: Sie ist online, funktioniert sowohl unter Windows als auch unter Mac und sogar von anderen Systemen aus, und die Übertragung ist durch eine 256-Bit-SSL-Verschlüsselung geschützt.
HiPDF ermöglicht auch die Stapelverarbeitung Die kostenpflichtige Version ist hilfreich, wenn Sie mit großen Mengen gescannter PDFs arbeiten. Die kostenlose Version bietet jedoch einige Einschränkungen hinsichtlich Funktionen und Dateigröße und zeigt zudem Werbung an. Dies sollten Sie berücksichtigen, wenn Sie eine komplett werbefreie Nutzung wünschen.
Bearbeiten Sie gescannte PDFs mit Word, Google Docs und anderen Alternativen.
Obwohl PDFelement und HiPDF ein sehr umfassendes Nutzererlebnis bieten, gibt es auch andere Methoden für Arbeiten Sie mit gescannten PDFs mithilfe von Tools, die Sie möglicherweise bereits besitzen.wie beispielsweise Microsoft Word, Google Docs oder Adobe Acrobat sowie andere Editoren mit integrierter OCR und Hilfslinien für Bearbeiten Sie eine PDF-Datei kostenlos ohne Wasserzeichen.
Bei Microsoft Wordist es möglich Öffnen Sie eine PDF-Datei direkt in Word Über „Datei > Öffnen“ warnt Word Sie, dass die PDF-Datei in ein bearbeitbares Dokument umgewandelt wird. Diese Methode funktioniert bei einfachen, qualitativ hochwertigen PDFs zufriedenstellend, aber beachten Sie, dass Word Es führt keine echte OCR an komplexen Bildern durch.Daher kann es bei einem gescannten PDF mit niedriger Auflösung, unscharfem Text oder vielen Grafiken zu Formatierungsverlusten oder Fehlern bei der Erkennung kommen.
Für seinen Teil, Google Docs integriert seine eigene OCR-Funktion in Google Drive.Nachdem Sie die gescannte PDF-Datei in Ihr Google Drive hochgeladen haben, können Sie mit der rechten Maustaste darauf klicken und „Öffnen mit > Google Docs“ auswählen. Das System versucht dann, die Datei anhand des Bildinhalts in ein bearbeitbares Textdokument umzuwandeln.
Googles OCR-Unterstützung mehr als 200 SprachenEs hat jedoch gewisse Größenbeschränkungen (beispielsweise werden sehr große Dateien nicht unterstützt) und erfordert eine Mindestpixelhöhe des Textes für eine korrekte Erkennung. Darüber hinaus gehen Elemente wie Tabellen, Spalten, Fußnoten oder komplexe Formatierungen häufig verloren oder werden verzerrt dargestellt.
Eine weitere klassische Referenz ist Adobe AcrobatAcrobat verfügt über eine umfassende OCR-Funktion, die in das Werkzeug „Scannen & OCR“ integriert ist. Beim Öffnen einer gescannten PDF-Datei zeigt Acrobat in der Regel eine Benachrichtigung an, um den Erkennungsprozess zu starten. Über das zugehörige Werkzeug können Sie die Textsprache auswählen, die zu verarbeitenden Seiten festlegen und nach der OCR-Verarbeitung die PDF-Datei bearbeiten.
Adobe bietet eine professionelle Benutzeroberfläche, Cloud-Dienste und erweiterte Funktionen zum Signieren und Weiterleiten von Dokumenten.Allerdings ist das Abonnementmodell teurer als andere Alternativen und nicht immer die einfachste Option für Benutzer, die PDFs nur gelegentlich bearbeiten müssen.
Es gibt auch andere Programme wie zum Beispiel Nitro PDF Editor (Nitro Pro)Dieses Tool ermöglicht das Hinzufügen, Löschen und Neuanordnen von Inhalten, die Anwendung von OCR und die Bearbeitung von Seiten (Drehen, Extrahieren, Einfügen usw.) und ist primär für Windows-Nutzer konzipiert. Es ist zwar funktional, aber teuer und kann bei der Verwendung von OCR bei sehr großen Dokumenten abstürzen.
Ein weiteres Werkzeug ist Apower PDF-EditorEs umfasst außerdem Texterkennung, Kopf- und Fußzeilenfunktionen, Formularverwaltung und Seitenbearbeitung. Die Benutzeroberfläche ist zwar nicht die eleganteste und sehr große Dokumente laden etwas langsam, aber es bietet eine kostenlose Lösung zum Bearbeiten gescannter PDFs unter Windows.
Was kann PDFelement mit gescannten PDFs und OCR machen?
Über die bloße Anwendung von OCR im Einzelfall hinaus ist PDFelement als ein Komplette Workstation für gescannte PDFsDie optische Erkennungs-Engine wandelt PDFs nicht nur in bearbeitbare Dokumente um, sondern sorgt auch für ein ausgewogenes Verhältnis zwischen Genauigkeit, Geschwindigkeit und visueller Wiedergabetreue.
Eines seiner herausragenden Merkmale ist die Möglichkeit, Bearbeiten Sie den erkannten Text direkt im PDF-Dokument.Im Gegensatz zu anderen Lösungen, bei denen die OCR lediglich eine separate Datei erzeugt, arbeiten Sie in PDFelement direkt am Dokument und erhalten dabei nach Möglichkeit Schriftarten, Schriftgrößen und Absatzstruktur.
Es ist außerdem in der Lage, sich zu transformieren Bilder (JPG, PNG usw.), die Text in bearbeitbaren Dokumenten enthalten in verschiedenen Microsoft Office-Formaten, wie zum Beispiel Wort, ohne die Formatierung zu verlierenExcel oder PowerPoint. Das ist sehr nützlich, wenn beispielsweise Rechnungen oder Berichte als Bilder eingescannt werden und Sie diese Daten anschließend in einer Tabellenkalkulation verarbeiten möchten.
Eine weitere fortschrittliche Funktion ist die Datenextraktion aus gescannten Formularen. PDFelement kann das. Formularfelder lesen und diese Informationen in eine Excel-Tabelle exportieren perfekt editierbar, was die Digitalisierung von Umfragen, Anträgen oder Papierakten erheblich beschleunigt.
Darüber hinaus ermöglicht das Programm Stapelverarbeitung mehrerer gescannter PDFsFügen Sie einfach alle zu konvertierenden Dateien hinzu, wählen Sie die Sprache, legen Sie den Zielordner fest und starten Sie den Vorgang. Die Software wendet automatisch OCR auf jedes Dokument an und speichert es als lesbare und bearbeitbare Datei, ohne dass Sie jedes Dokument einzeln überwachen müssen.
Tipps zur Verbesserung der OCR-Ergebnisse
Die Qualität der OCR hängt maßgeblich davon ab, wie der ursprüngliche Scan durchgeführt wurde. Daher empfiehlt es sich, einige Richtlinien zu befolgen. Best Practices, um die bestmögliche Anerkennung zu erzielen wenn Sie gescannte PDFs mit PDFelement oder einem ähnlichen Tool verarbeiten möchten.
Vor der Digitalisierung einer großen Anzahl von Dokumenten wird dringend empfohlen Testen Sie mit einer einzelnen Seite unter Verwendung verschiedener Konfigurationen. (Auflösung, Farbe, Kontrast) und führen Sie die OCR-Analyse durch, um die Einstellung mit der höchsten Genauigkeit zu ermitteln. Diese Konfiguration verwenden Sie anschließend für die restlichen Seiten.
Im Allgemeinen scannen mit Auflösung zwischen 300 und 600 dpi Sie liefern deutlich bessere OCR-Ergebnisse. Bei Scans mit niedrigerer Auflösung kann der Text unscharf oder pixelig erscheinen, und die Erkennungssoftware hat größere Schwierigkeiten, ähnliche Zeichen zu unterscheiden.
Es ist außerdem wichtig, auf Kontraste zu achten. Texte, die über dem Text platziert werden, sollten hervorgehoben werden. sehr dunkle oder sehr helle Hintergründe Sie sind möglicherweise nicht leicht zu erkennen, da der Unterschied zwischen Textfarbe und Hintergrund nicht ausreicht. In solchen Fällen empfiehlt es sich, Helligkeit und Kontrast des Scanners anzupassen, um die Lesbarkeit zu verbessern.
Verwenden Sie nach Möglichkeit die Schwarzweißmodus (oder korrekt konfigurierte Graustufen) Für reine Textdokumente. Es liefert in der Regel bessere Ergebnisse als Farbe bei reiner OCR, da es visuelles Rauschen reduziert.
Stellen Sie abschließend sicher, dass das Dokument korrekt auf dem Scannerglas ausgerichtetWenn das Papier schief ist, kann die Verzerrung der Textzeilen die Erkennungs-Engine "verwirren" und zu Fehlern bei der Umwandlung führen.
Konvertieren Sie gescannte PDFs mit PDFelement, online und mit Google in Text.
Eine weitere häufige Aufgabe ist die direkte Konvertierung eines gescannten PDFs in Klartext (.txt), damit er in jedem Editor verarbeitet werden kann.PDFelement vereinfacht diesen Prozess dank seines OCR-Moduls und des Konvertierungsmenüs erheblich.
Wenn Sie eine gescannte PDF-Datei in PDFelement importieren, fragt das Programm, ob Sie dies möchten. Wenden Sie OCR auf das Dokument an.Mit Ihrer Zustimmung können Sie die Sprache des Inhalts und den Ausgabetyp auswählen: bearbeitbarer Text oder einfach nur durchsuchbarer Text innerhalb der PDF-Datei.
Nach der Erkennung können Sie, falls Sie eine .txt-Datei erstellen möchten, einfach das Menü aufrufen. „Konvertieren“ und die Option „In Text“ auswählenDadurch entsteht ein einfaches Textdokument, in dem Sie leicht nach Schlüsselwörtern suchen, den Inhalt bereinigen, ihn in anderen Projekten wiederverwenden oder ihn auf Systemen speichern können, bei denen Sie das PDF-Format nicht beibehalten müssen.
Wenn Sie etwas komplett Online-mäßiges bevorzugen, können Sie sich an HiPDF mit seinem OCR-ToolSie laden die PDF-Datei hoch, geben die Sprache und das Ausgabeformat (z. B. .txt) an, starten die Konvertierung und laden nach deren Abschluss die aus der gescannten PDF-Datei erzeugte Textdatei herunter.
Als kostenlose, cloudbasierte Alternative Google Drive und Google Docs Außerdem können Sie gescannte PDFs in Text umwandeln. Sie laden die PDF-Datei hoch, öffnen sie mit Google Docs, das System führt eine Texterkennung (OCR) durch und Sie erhalten ein Google-Dokument mit dem extrahierten Text. Anschließend können Sie es kopieren, bearbeiten oder in anderen Formaten wie .docx, .odt oder sogar HTML herunterladen.
Trotz dieser Online-Alternativen ist für anspruchsvollere Arbeiten, Dokumente mit sensiblen Daten oder kontinuierliche professionelle Arbeitsabläufe eine Desktop-Umgebung wie PDFelement in der Regel empfehlenswerter, da Datenschutzprobleme lassen sich vermeiden, indem man keine Dateien auf externe Server hochlädt. und Sie haben mehr Kontrolle über den Prozess und das Ergebnis.
Kurz gesagt, wenn Sie häufig mit gescannte PDFs, die Sie bearbeiten, durchsuchen oder konvertieren müssenEine gute OCR-Engine macht einen enormen Unterschied. Tools wie Wondershare PDFelement kombinieren schnelle und präzise Erkennung, direkte PDF-Bearbeitung, Konvertierung in verschiedene Formate und erweiterte Optionen wie OCR-Bereichs- und Stapelverarbeitung. So können Sie mühelos von einfachen Dokumenten-„Schnappschüssen“ zu vollständig bearbeitbaren und wiederverwendbaren Informationen gelangen.
Leidenschaftlicher Autor über die Welt der Bytes und der Technologie im Allgemeinen. Ich liebe es, mein Wissen durch Schreiben zu teilen, und genau das werde ich in diesem Blog tun und Ihnen die interessantesten Dinge über Gadgets, Software, Hardware, technologische Trends und mehr zeigen. Mein Ziel ist es, Ihnen dabei zu helfen, sich auf einfache und unterhaltsame Weise in der digitalen Welt zurechtzufinden.



