Úprava textu z naskenovaného PDF pomocí OCR a PDFelementu

Mundobytes » Vývoj » Jak upravit text naskenovaného PDF (OCR) pomocí Wondershare PDFelement

Naskenovaný PDF soubor je ve skutečnosti obrázek a pro jeho úpravu nebo vyhledávání je nutné OCR.
Wondershare PDFelement nabízí výkonné OCR v režimech s možností úprav, vyhledávání a specifických oblastí.
Existují alternativy jako HiPDF online, Word, Google Docs nebo Adobe, s různými omezeními.
Kvalita skenování (rozlišení, kontrast a zarovnání) je klíčem k dosažení přesného OCR.

Úprava naskenovaných PDF souborů pomocí OCR v PDFelementu

Pokud jste se někdy setkali s a naskenovaný PDF soubor, který je třeba opravit nebo aktualizovatVíte, jak frustrující je, když nemůžete vybrat nebo změnit text. Na první pohled to vypadá jako normální dokument, ale ve skutečnosti máte před sebou obrázek vložený do PDF, zcela uzamčený proti úpravám.

Dobrou zprávou je, že v dnešní době je to velmi snadné Převeďte naskenovaný PDF do upravitelného souboru pomocí technologie OCR (Optické rozpoznávání znaků). Jedním z nejkompletnějších programů pro tento účel, a to jak ve Windows, tak i na Macu, je Wondershare PDFelement, který integruje velmi výkonný OCR engine, dostupný dokonce i ve zkušební verzi Professional, takže si ho můžete vyzkoušet před zakoupením.

Co je OCR a proč nelze upravovat naskenovaný PDF?

Při skenování papírového dokumentu skener vygeneruje Fotografie obsahu (text, grafika, tabulky, podpisy…)Výsledek se uloží jako obrázek nebo jako PDF soubor založený na obrázku. Z praktických důvodů počítač vnímá tento soubor jako pixely, nikoli text, takže slovo nelze zvýraznit, kopírovat ani upravovat.

Proto se mnoho lidí ptá: „Proč nemohu upravovat naskenovaný PDF soubor?“Důvod je jednoduchý: naskenovaný PDF soubor neobsahuje žádné textové znaky, pouze obrázek. Textový editor nedokáže rozpoznat a přímo změnit nic.

Technologie optického rozpoznávání znaků (OCR) slouží přesně tomuto účelu: Analyzuje obrázek, identifikuje každý znak a převádí ho do digitální podoby textu.Jakmile je použito OCR, je možné daný obsah vybrat, upravit a také v něm vyhledávat v dokumentu.

Použití OCR umožňuje transformaci naskenované PDF soubory, fotografie dokumentů nebo ručně psané formuláře v plně upravitelných dokumentech, s maximálním zachováním původního vzhledu. To usnadňuje úkoly, jako jsou opravy, aktualizace dat, digitální archivace nebo extrakce informací do jiných formátů.

Funkce OCR ve Wondershare PDFelement

Úprava textu naskenovaného PDF souboru pomocí Wondershare PDFelement (upravitelný režim)

Wondershare PDFelement je velmi komplexní editor PDF, který obsahuje Profesionální OCR modul kompatibilní s více než 20 jazyky (španělština, angličtina, francouzština, němčina, italština, portugalština, arabština, ruština, čeština, turečtina, korejština, indonéština atd.). Funkce OCR PDF je k dispozici ve zkušební verzi PDFelement Professional, takže si ji můžete zdarma vyzkoušet, než se rozhodnete, zda si ji zakoupíte.

Když otevřete naskenovaný nebo obrazový soubor PDF, PDFelement automaticky detekuje, že se jedná o naskenovaný dokument Poté se v horní části okna zobrazí návrh pro spuštění rozpoznávání OCR. Zde si můžete vybrat nejvhodnější režim v závislosti na tom, co s daným souborem potřebujete udělat.

Pokud je vaším cílem Upravte obsah PDF, upravte fráze, opravte chyby nebo změňte obrázky.Zajímá vás režim „Skenovat do upravitelného textu“. V tomto režimu PDFelement generuje nový PDF soubor, ve kterém lze veškerý rozpoznaný text upravit, jako by se jednalo o dokument původně vytvořený digitálně.

Postup použití upravitelného OCR v PDFelementu je velmi jednoduchý: otevřete naskenovaný dokument, přejděte do nabídky nástrojů OCR, Zvolíte režim převodu upravitelného textu a vyberete správný jazyk. obsahu (to výrazně zvyšuje přesnost) a pokud chcete, můžete definovat rozsah stránek, na kterých chcete rozpoznávání spustit.

Po kliknutí na tlačítko „použít“ program zobrazí ukazatel průběhu a po dokončení procesu... Nový upravitelný PDF se otevře automaticky.Pak stačí kliknout na režim „Upravit“ a začít měnit text, přidávat nové odstavce, mazat nepotřebné části nebo retušovat obrázky a diagramy.

Úprava textu z naskenovaného PDF pomocí OCR

Režim OCR s možností vyhledávání: Umožňuje vyhledávání a výběr naskenovaného PDF

Počínaje verzí 6.3.0 PDFelement Professional byla přidána další velmi zajímavá možnost: Režim vyhledávání OCRTento režim je určen pro ty, kteří nepotřebují přeformátovat ani měnit text, ale chtějí mít možnost vyhledávat, vybírat a kopírovat fragmenty dokumentu.

V tomto případě, když přejdete do nabídky OCR v PDFelementu, vyberete možnost „Skenování pro vyhledávání textu v obrázku“Výsledkem je PDF, které vizuálně zůstává prakticky stejné (původní obrázek je zachován), ale pod ním je vložena neviditelná textová vrstva, která umožňuje vyhledávat slova pomocí klávesových zkratek, jako je Ctrl+F.

Co je soubor MANIFEST? Funkce a jak je otevřít

Jakmile bude vytvořen nový vyhledávací soubor OCR, budete moci Vyberte libovolný blok textu a zkopírujte jej do schránky a vložte jej do dokumentu aplikace Word, e-mailu nebo jakéhokoli jiného nástroje, který preferujete. Je to velmi užitečné řešení, pokud pracujete s manuály, smlouvami nebo dlouhými dokumenty, kde je nalezení konkrétních informací klíčové.

Tento přístup je obzvláště praktický, když chcete zachovat 100 % původního designu dokumentu (pečetě, vodoznaky, podpisy atd.), ale zároveň je potřeba pracovat s textovým obsahem pro rychlé dotazy.

Možnosti OCR v PDFelementu

Oblast OCR v PDFelementu: rozpoznání pouze části dokumentu

Není vždy nutné aplikovat OCR na celý dokument. S funkcí PDFelement „Oblast OCR“ Rozpoznávání můžete omezit pouze na určitou oblast stránky, což šetří čas zpracování a je velmi výhodné, když potřebujete extrahovat data pouze z části PDF.

Funguje to jednoduše: otevřete obrázek nebo naskenovaný PDF, získáte přístup „Nástroj > Oblast OCR“ Pak tažením myši vyberete obdélník obsahující text, který chcete rozpoznat. Je to ideální pro tabulky, konkrétní sloupce, zápatí nebo formuláře na stránce s mnoha grafickými prvky.

Na pravé straně okna se zobrazí panel vlastností, ze kterého můžete vyberte jazyk rozpoznávání pro danou oblast. Pak už jen stačí kliknout na „Rozpoznat“, aby PDFelement zpracoval obsah a převedl ho na upravitelný nebo prohledávatelný text, v závislosti na vybraném režimu.

Tato funkce oblasti OCR je obzvláště užitečná při práci s naskenované formuláře, faktury, dodací listy nebo zprávy z nichž stačí importovat pouze určitá datová pole do tabulky nebo jiného systému správy.

Podrobný návod: jak upravit naskenovaný PDF soubor ve Windows a Macu pomocí PDFelementu

Ačkoliv termín OCR může znít technicky, u PDFelement je proces poměrně řízený a zredukovaný na pouhých několik kroků. Níže je uveden typický pracovní postup pro Úprava naskenovaných PDF dokumentů ve Windows 11 a macOS pomocí tohoto programu.

Prvním krokem je importovat PDF soubor do programu. Po spuštění PDFelementu můžete použít tlačítko „Otevřít“ umístěné v levém dolním rohu úvodního okna, procházet složky, vybrat naskenovaný PDF a nahrát ho.

Jakmile PDFelement zjistí, že dokument je založen na obrázku, zobrazí vyskakovací oznámení s návrhem provést OCRPokud kliknete na tlačítko „Provést OCR“, software vás požádá o výběr jazyka obsahu (pro maximální přesnost je důležité vybrat správný jazyk, zejména pokud obsahuje diakritiku nebo speciální znaky).

Po dokončení skenování bude soubor upravitelný. Z nabídky V části „Upravit“ máte přístup k nástrojům pro úpravu textu a objektů.Tímto způsobem můžete kliknout na libovolný odstavec a přidat nebo smazat slova, změnit formát textu nebo vložit nové bloky pomocí možnosti přidat text.

PDFelement navíc umožňuje manipulovat s obrázky, tvary, grafikou a dalšími prvky. Pomocí možnosti „Upravit objekty“ umožňuje přesouvat, ořezávat, otáčet nebo mazat obrázkya také vkládání nových obrázků do dokumentu, když je to potřeba.

Během práce je důležité ukládat změny. Můžete použít Ctrl + S pro uložení do stejného souboru nebo použijte „Soubor > Uložit jako“ k vytvoření nové kopie, vyberte jinou cílovou složku nebo upravte verzi dokumentu bez ztráty originálu.

Jak upravovat naskenovaný PDF online pomocí HiPDF

Pokud si do počítače nechcete nic instalovat, zajímavou možností je použití HiPDF, online platforma propojená s ekosystémem WondershareTato webová stránka nabízí specifický online nástroj OCR, který umožňuje zpracovávat naskenované PDF soubory přímo z vašeho prohlížeče.

Postup je jednoduchý: otevřete oficiální webové stránky HiPDF, vyhledejte sekci o „Online OCR“ Soubor nahrajete pomocí tlačítka „Vybrat soubor“ nebo jeho přetažením do okna prohlížeče. Po nahrání nakonfigurujete jazyk dokumentu a výstupní formát (například prostý text nebo prohledávatelný PDF) a kliknete na „Převést“.

Po dokončení konverze budete moci stáhnout zpracovaný soubor do vašeho zařízení. Toto řešení má několik výhod: je online, funguje na Windows i Macu, a dokonce i z jiných systémů, a přenos je chráněn 256bitovým SSL šifrováním.

Kompletní průvodce vytvořením zaváděcího USB

HiPDF také umožňuje dávkové zpracování Placená verze je užitečná, pokud pracujete s velkým objemem naskenovaných PDF souborů. Bezplatná verze má však určitá omezení, co se týče funkcí a velikosti souboru, a také zobrazuje reklamy, což je důležité mít na paměti, pokud hledáte zcela čistý zážitek.

Úprava naskenovaného PDF pomocí Wordu, Dokumentů Google a dalších alternativ

Přestože PDFelement a HiPDF nabízejí velmi komplexní zážitek, existují i jiné metody. pracujte se naskenovanými PDF soubory pomocí nástrojů, které již možná mátenapříklad Microsoft Word, Google Docs nebo Adobe Acrobat, a také další editory s integrovaným OCR a průvodci pro Upravte PDF zdarma bez vodoznaku.

V případě Microsoft Wordje možné Otevření PDF přímo ve Wordu V nabídce „Soubor > Otevřít“ vás Word upozorní, že PDF soubor převede do upravitelného dokumentu. Tato metoda může fungovat přijatelně s jednoduchými a kvalitními PDF soubory, ale mějte na paměti, že Word Neprovádí skutečné OCR u složitých obrázků.Naskenovaný PDF s nízkým rozlišením, rozmazaným textem nebo velkým množstvím grafiky proto může ztratit formátování nebo nemusí být správně rozpoznán.

Pro jeho část, Dokumenty Google obsahují vlastní OCR v rámci Disku GooglePo nahrání naskenovaného PDF souboru na disk na něj můžete kliknout pravým tlačítkem myši a vybrat možnost „Otevřít v aplikaci > Dokumenty Google“. Systém se pokusí soubor převést do upravitelného textového dokumentu rozpoznáním obsahu obrázku.

Podpora OCR od Googlu více než 200 jazykůMá však určitá omezení velikosti (například nepodporuje velmi velké soubory) a pro přesnou detekci vyžaduje, aby text měl minimální výšku v pixelech. Navíc se prvky, jako jsou tabulky, sloupce, poznámky pod čarou nebo složité formátování, často ztrácejí nebo zkreslují.

Dalším klasickým odkazem je Adobe AcrobatAcrobat obsahuje komplexní funkci OCR integrovanou do nástroje „Skenovat a OCR“. Po otevření naskenovaného PDF souboru Acrobat obvykle zobrazí oznámení o zahájení procesu rozpoznávání. V příslušném nástroji můžete vybrat jazyk textu, definovat, které stránky se mají zpracovat, a po spuštění OCR pokračovat v úpravě PDF souboru.

Adobe nabízí a profesionální rozhraní, cloudové služby a pokročilé funkce pro podepisování a směrování dokumentůJeho model předplatného je však dražší než jiné alternativy a ne vždy je nejjednodušší volbou pro uživatele, kteří potřebují PDF upravovat jen občas.

Existují i další programy, jako např. Nitro PDF editor (Nitro Pro)Tento nástroj umožňuje přidávat, mazat a měnit uspořádání obsahu, používat OCR a manipulovat se stránkami (otáčet, extrahovat, vkládat atd.) a je primárně určen pro uživatele Windows. Je funkční, ale drahý a při použití OCR může dojít k chybě u velmi velkých dokumentů.

Dalším nástrojem je Editor PDF ApowerZahrnuje také rozpoznávání textu, funkce záhlaví a zápatí, správu formulářů a manipulaci se stránkami. I když jeho rozhraní nemusí být nejpropracovanější a velmi velké dokumenty se načítají poněkud pomalu, nabízí bezplatné řešení pro úpravu naskenovaných PDF souborů ve Windows.

Co umí PDFelement s naskenovanými PDF a OCR?

Kromě pouhého použití OCR v jednotlivých případech je PDFelement navržen jako kompletní pracovní stanice pro skenované PDF souboryJeho optický rozpoznávací engine nejen transformuje PDF soubory do editovatelné podoby, ale také udržuje rovnováhu mezi přesností, rychlostí a vizuální věrností.

Jednou z jeho klíčových vlastností je možnost přímo upravovat rozpoznaný text v samotném PDF.Na rozdíl od jiných řešení, kde OCR generuje pouze samostatný soubor, v PDFelementu pracujete na samotném dokumentu a zachováváte písma, velikosti písma a strukturu odstavců, kdykoli je to možné.

Je také schopen transformace Obrázky (JPG, PNG atd.) obsahující text v upravitelných dokumentech v různých formátech Microsoft Office, jako například Word bez ztráty formátováníExcel nebo PowerPoint. To je velmi užitečné například tehdy, když se faktury nebo reporty skenují jako obrázky a poté chcete tato data zpracovat v tabulce.

Další pokročilou funkcí je extrakce dat z naskenovaných formulářů. PDFelement dokáže Čtení polí formuláře a export těchto informací do tabulky aplikace Excel dokonale upravitelné, což výrazně urychluje práci s digitalizací průzkumů, žádostí nebo papírových záznamů.

Kromě toho program umožňuje dávkové zpracování více naskenovaných PDF souborůJednoduše přidejte všechny soubory, které chcete převést, vyberte jazyk, definujte cílovou složku a spusťte proces. Software automaticky aplikuje OCR na každý dokument a uloží jej jako čitelný a upravitelný soubor, aniž byste museli každý jednotlivě sledovat.

Nejlepší notebooky roku 2022 – Mundobytes

Tipy pro zlepšení výsledků OCR

Kvalita OCR závisí do značné míry na tom, jak byl proveden původní sken. Proto je vhodné dodržovat řadu pokynů. osvědčené postupy pro dosažení co nejlepšího uznání pokud se chystáte zpracovávat naskenované PDF soubory pomocí PDFelementu nebo jiného podobného nástroje.

Před digitalizací velkého množství dokumentů se důrazně doporučuje Otestujte s jednou stránkou s různými konfiguracemi (rozlišení, barva, kontrast) a spusťte OCR, abyste zjistili, které nastavení nabízí největší přesnost. Odtud tuto konfiguraci použijete pro zbývající stránky.

Obecně platí, že skenování s rozlišení mezi 300 a 600 dpi Nabízejí mnohem lepší výsledky OCR. Pokud skenujete s nižším rozlišením, text se může jevit rozmazaný nebo pixelovaný a rozpoznávací modul bude mít větší potíže s rozlišením podobných znaků.

Je také důležité věnovat pozornost kontrastu. Texty umístěné výše velmi tmavé nebo velmi světlé pozadí Nemusí být snadno rozpoznatelné, protože rozdíl mezi barvou textu a pozadím je nedostatečný. V těchto případech je vhodné upravit jas a kontrast na skeneru pro zlepšení čitelnosti.

Kdykoli je to možné, použijte černobílý režim (nebo správně nakonfigurované stupně šedi) Pro dokumenty obsahující pouze text. Obvykle nabízí lepší výsledky než barevné rozpoznávání znaků (OCR), protože snižuje vizuální šum.

Nakonec se ujistěte, že je dokument správně zarovnané na skle skeneruPokud je papír nakřivo, zkreslení řádků textu může „zmást“ rozpoznávací modul a způsobit chyby při převodu.

Převeďte naskenovaný PDF do textu pomocí PDFelement, online a pomocí Googlu

Dalším běžným úkolem je převod naskenovaného PDF přímo do prostý text (.txt), aby jej bylo možné zpracovat v libovolném editoruPDFelement tento proces výrazně usnadňuje díky modulu OCR a nabídce konverze.

Při importu naskenovaného PDF souboru do PDFelement se vás program zeptá, zda chcete Použití OCR na dokumentPřijetím si budete moci zvolit jazyk obsahu a typ výstupu: upravitelný text nebo jednoduše prohledátelný text v PDF.

Po rozpoznání, pokud chcete vygenerovat soubor .txt, stačí přejít do nabídky „Převést“ a vyberte možnost „Na text“Tím se vytvoří dokument v prostém textu, ve kterém můžete snadno vyhledávat klíčová slova, čistit obsah, znovu jej použít v jiných projektech nebo jej uložit na systémy, kde nepotřebujete udržovat formát PDF.

Pokud dáváte přednost něčemu zcela online, můžete se obrátit na HiPDF s nástrojem OCRNahrajete PDF, zadáte jazyk a výstupní formát (např. .txt), spustíte převod a po dokončení stáhnete textový soubor vygenerovaný z naskenovaného PDF.

Jako bezplatná cloudová alternativa, Disk Google a Dokumenty Google Umožňují také převádět naskenované PDF soubory do textu. Nahrajete PDF soubor, otevřete ho v Google Docs, systém spustí vlastní OCR a vy získáte dokument Google s extrahovaným textem. Odtud jej můžete kopírovat, upravovat nebo stahovat v jiných formátech, jako je .docx, .odt nebo dokonce HTML.

Navzdory těmto online alternativám je pro jemnější práci, dokumenty s citlivými daty nebo nepřetržité profesionální pracovní postupy obvykle vhodnější desktopové prostředí, jako je PDFelement, protože Problémům s ochranou soukromí se vyhnete tím, že nebudete nahrávat soubory na externí servery. a máte větší kontrolu nad procesem a výsledkem.

Stručně řečeno, pokud často pracujete s naskenované PDF soubory, které potřebujete upravit, prohledat nebo převéstDobrý OCR engine má obrovský význam. Nástroje jako Wondershare PDFelement kombinují rychlé a přesné rozpoznávání, přímou úpravu PDF, převod do více formátů a pokročilé možnosti, jako je OCR oblast a dávkové zpracování, což vám umožňuje přejít od jednoduchých „snímků“ dokumentů ke správě plně upravitelných a opakovaně použitelných informací bez jakýchkoli potíží.

Související článek:

Převod PDF do Wordu pro úpravy: online metody, Word a OCR

Isaac

Vášnivý spisovatel o světě bytů a technologií obecně. Rád sdílím své znalosti prostřednictvím psaní, a to je to, co budu dělat v tomto blogu, ukážu vám všechny nejzajímavější věci o gadgetech, softwaru, hardwaru, technologických trendech a dalších. Mým cílem je pomoci vám orientovat se v digitálním světě jednoduchým a zábavným způsobem.