- Egy beolvasott PDF valójában egy kép, és OCR-re van szükség ahhoz, hogy szerkeszthető vagy kereshető legyen.
- A Wondershare PDFelement hatékony OCR-t kínál szerkeszthető, kereshető és területspecifikus módokban.
- Vannak alternatívák, mint például a HiPDF online, a Word, a Google Docs vagy az Adobe, eltérő korlátozásokkal.
- A szkennelés minősége (felbontás, kontraszt és igazítás) kulcsfontosságú a pontos OCR eléréséhez.
Ha valaha találkozott a szkennelt PDF, amelyet javítani vagy frissíteni kellTudod, milyen bosszantó, hogy nem lehet kijelölni vagy módosítani a szöveget. Első pillantásra egy normál dokumentumnak tűnik, de valójában egy PDF-be ágyazott kép van előtted, teljesen szerkesztésre zárva.
A jó hír az, hogy manapság nagyon könnyű Alakítsa át a beolvasott PDF-et szerkeszthető fájllá OCR technológia segítségével (Optikai karakterfelismerés). És az egyik legteljesebb program erre, mind Windows, mind Mac rendszeren, a Wondershare PDFelement, amely egy nagyon hatékony OCR motort integrál, sőt, Professional próbaverzióban is elérhető, így kipróbálhatja vásárlás előtt.
Mi az OCR, és miért nem lehet szerkeszteni egy beolvasott PDF-et?
Papírdokumentum beolvasásakor a szkenner létrehoz egy A tartalom fényképe (szöveg, grafika, táblázatok, aláírások…)Az eredményt képként vagy képalapú PDF-ként menti a rendszer. A számítógép számára ez gyakorlatilag nem szöveg, hanem képpontok, így nem lehet kiemelni, másolni vagy módosítani egy szót.
Ezért sokan kérdezik maguktól: „Miért nem tudok szerkeszteni egy beolvasott PDF-et?”Az ok egyszerű: a beolvasott PDF nem tartalmaz szöveges karaktereket, csak egy képet. Nincs semmi, amit egy szövegszerkesztő felismerne és közvetlenül módosítana.
Az optikai karakterfelismerő (OCR) technológia pontosan ezt a célt szolgálja: Elemzi a képet, azonosítja az egyes karaktereket, és digitális szöveggé alakítja azokat.Az OCR alkalmazása után a tartalom kiválaszthatóvá, szerkeszthetővé és kereshetővé válik a dokumentumon belül.
Az OCR alkalmazása lehetővé teszi az átalakítást szkennelt PDF-ek, dokumentumok fényképei vagy kézzel írott űrlapok teljesen szerkeszthető dokumentumokban, a lehető legnagyobb mértékben megőrizve az eredeti megjelenést. Ez megkönnyíti az olyan feladatokat, mint a javítások, az adatfrissítések, a digitális archiválás vagy az információk más formátumokba kinyerése.

Szkennelt PDF szövegének szerkesztése a Wondershare PDFelement segítségével (szerkeszthető mód)
A Wondershare PDFelement egy nagyon komplett PDF-szerkesztő, amely tartalmaz egy Professzionális OCR modul, amely több mint 20 nyelvvel kompatibilis (Spanyol, angol, francia, német, olasz, portugál, arab, orosz, cseh, török, koreai, indonéz stb.). Az OCR PDF funkció elérhető a PDFelement Professional próbaverziójában, így ingyenesen kipróbálhatja, mielőtt eldönti, hogy megvásárolja-e.
Amikor megnyit egy beolvasott vagy képalapú PDF fájlt, A PDFelement automatikusan felismeri, hogy szkennelt dokumentumról van szó Ezután az ablak tetején megjelenik egy javaslat az OCR-felismerés elindítására. Innen kiválaszthatja a legmegfelelőbb módot attól függően, hogy mit kell tennie a fájllal.
Ha a cél az Szerkessze a PDF tartalmát, módosítsa a kifejezéseket, javítsa ki a hibákat, vagy módosítsa a képeket.Ami igazán érdekel, az a „Szkennelés szerkeszthető szöveggé” mód. Ebben a módban a PDFelement egy új PDF-et generál, amelyben az összes felismert szöveg módosítható, mintha eredetileg digitálisan létrehozott dokumentum lenne.
A szerkeszthető OCR PDFelementben történő alkalmazásához a folyamat nagyon egyszerű: nyissa meg a beolvasott dokumentumot, lépjen az OCR eszközök menübe, Kiválasztja a szerkeszthető szövegkonverziós módot, és kiválasztja a megfelelő nyelvet. a tartalomból (ez nagymértékben növeli a pontosságot), és ha szeretné, meghatározhatja az oldalak azon tartományát, amelyeken futtatni szeretné a felismerést.
Amikor az „alkalmaz” gombra kattint, a program egy folyamatjelző sávot jelenít meg, és a folyamat befejezésekor Az új szerkeszthető PDF automatikusan megnyílik.Ezután egyszerűen kattintson a „Szerkesztés” módra a szöveg módosításának, új bekezdések hozzáadásának, a nem kívánt részek törlésének, illetve a képek és diagramok retusálásának megkezdéséhez.

Kereshető OCR mód: A beolvasott PDF kereshetővé és kiválaszthatóvá tétele
A PDFelement Professional 6.3.0-s verziójától kezdődően egy másik nagyon érdekes opció került hozzáadásra: OCR keresési módEz a mód azoknak készült, akiknek nincs szükségük a szöveg újraformázására vagy módosítására, de szeretnének a dokumentum egyes részeit keresni, kijelölni és másolni.
Ebben az esetben, amikor a PDFelement OCR menüjébe lép, a következő lehetőséget választja: „Szöveg keresése képen”Az eredmény egy olyan PDF, amely vizuálisan gyakorlatilag ugyanaz marad (az eredeti kép megmarad), de alatta egy láthatatlan szövegréteg található, amely lehetővé teszi a szavak megkeresését olyan gyorsbillentyűkkel, mint a Ctrl+F.
Miután létrehozta az új OCR keresési fájlt, képes lesz a következőkre: Jelöljön ki egy tetszőleges szövegblokkot, másolja a vágólapra és illeszd be egy Word-dokumentumba, e-mailbe vagy bármilyen más eszközbe. Ez egy nagyon hasznos megoldás, ha kézikönyvekkel, szerződésekkel vagy hosszú dokumentumokkal dolgozol, ahol a konkrét információk megtalálása kulcsfontosságú.
Ez a módszer különösen praktikus, ha azt szeretnéd, hogy az eredeti dokumentumterv 100%-os megőrzése (pecsétek, vízjelek, aláírások stb.), de ugyanakkor a szöveges tartalommal is dolgozni kell a gyors lekérdezések érdekében.

OCR terület a PDFelementben: csak a dokumentum egy részének felismerése
Nem mindig szükséges az OCR-t egy teljes dokumentumra alkalmazni. A függvénnyel PDFelement „OCR terület” A felismerést csak az oldal egy adott területére korlátozhatja, ami feldolgozási időt takarít meg, és nagyon kényelmes, ha csak a PDF egy részéből kell adatokat kinyernie.
Egyszerűen működik: megnyitod a képet vagy a beolvasott PDF-et, hozzáférsz „Eszköz > OCR terület” Ezután az egérrel húzva kijelölheti a felismerni kívánt szöveget tartalmazó téglalapot. Ideális táblázatokhoz, adott oszlopokhoz, láblécekhez vagy űrlapokhoz egy oldalon belül, amely sok grafikus elemet tartalmaz.
Az ablak jobb oldalán látható a tulajdonságok panel, ahonnan a következőket teheti: válassza ki a felismerési nyelvet az adott területre vonatkozóan. Ezután már csak a „Felismerés” gombra kell kattintania a PDFelement számára a tartalom feldolgozásához és szerkeszthető vagy kereshető szöveggé alakításához, a kiválasztott módtól függően.
Ez az OCR terület funkció különösen hasznos, ha szkennelt űrlapok, számlák, szállítólevelek vagy jelentések amelyből csak bizonyos adatmezőket kell importálnia egy táblázatba vagy más adatkezelő rendszerbe.
Lépésről lépésre útmutató: hogyan szerkeszthet beolvasott PDF-et Windows és Mac rendszeren a PDFelement segítségével
Bár az OCR kifejezés technikainak tűnhet, a PDFelementnél a folyamat meglehetősen irányított és mindössze néhány lépésre redukált. Az alábbiakban a tipikus munkafolyamatot láthatja: Szkennelt PDF dokumentumok szerkesztése Windows 11 rendszerben és macOS ennek a programnak a használatával.
Az első lépés az, hogy importálja a PDF fájlt a programhoz. A PDFelement indításakor a kezdeti ablak bal alsó sarkában található „Megnyitás” gombbal navigálhat a mappák között, kiválaszthatja a beolvasott PDF-et, és feltöltheti.
Amint a PDFelement érzékeli, hogy a dokumentum képalapú, egy felugró ablakban értesítést jelenít meg, amely a következőket javasolja: OCR végrehajtásaHa az „OCR végrehajtása” gombra kattint, a szoftver megkéri, hogy válassza ki a tartalom nyelvét (a pontosság maximalizálása érdekében elengedhetetlen a helyes nyelv megadása, különösen ékezetek vagy speciális karakterek esetén).
A szkennelés befejezése után a fájl szerkeszthetővé válik. A menüből A „Szerkesztés” alatt elérheti a szöveg- és objektumszerkesztő eszközöket.Így bármelyik bekezdésre kattintva szavakat adhatsz hozzá vagy törölhetsz, módosíthatod a szövegformátumot, vagy új blokkokat szúrhatsz be a szöveg hozzáadása opcióval.
Ezenkívül a PDFelement lehetővé teszi képek, alakzatok, grafikák és egyéb elemek manipulálását. A lehetőség használatával Az „Objektumok szerkesztése” lehetővé teszi a képek mozgatását, vágását, forgatását vagy törlésétvalamint új képek beszúrását a dokumentumba, amikor szükséges.
Munka közben fontos menteni a módosításokat. Használhatod Ctrl + S ugyanabba a fájlba mentéshez vagy a „Fájl > Mentés másként” paranccsal új másolatot hozhat létre, másik célmappát választhat, vagy verziót készíthet a dokumentumról az eredeti elvesztése nélkül.
Hogyan szerkeszthetsz beolvasott PDF-et online a HiPDF segítségével
Ha nem szeretne semmit telepíteni a számítógépére, érdekes lehetőség a használata HiPDF, a Wondershare ökoszisztémához kapcsolódó online platformEz a weboldal egy speciális online OCR eszközt kínál, amely lehetővé teszi a beolvasott PDF-ek közvetlen feldolgozását a böngészőből.
A folyamat egyszerű: felkeresed a hivatalos HiPDF weboldalt, megkeresed a következő részt: „Online OCR” A fájlt a „Fájl kiválasztása” gombbal töltheti fel, vagy áthúzhatja a böngészőablakba. A feltöltés után konfigurálja a dokumentum nyelvét és kimeneti formátumát (például sima szöveg vagy kereshető PDF), majd kattintson a „Konvertálás” gombra.
Amikor a konverzió befejeződött, képes leszel a következőkre: töltse le a feldolgozott fájlt az eszközödre. Ennek a megoldásnak számos előnye van: online módon működik Windows és Mac rendszereken, sőt más rendszerekről is, és az átvitelt 256 bites SSL titkosítás védi.
A HiPDF lehetővé teszi a kötegelt feldolgozás A fizetős verzió hasznos, ha nagy mennyiségű szkennelt PDF-fel dolgozik. Az ingyenes verziónak azonban vannak bizonyos korlátai a funkciók és a fájlméret tekintetében, és hirdetéseket is megjelenít, amit érdemes szem előtt tartani, ha teljesen letisztult élményt keres.
Szkennelt PDF szerkesztése Worddel, Google Dokumentumokkal és más alternatívákkal
Bár a PDFelement és a HiPDF nagyon teljes élményt nyújt, vannak más módszerek is dolgozzon beolvasott PDF-ekkel a már meglévő eszközökkelpéldául a Microsoft Word, a Google Docs vagy az Adobe Acrobat, valamint más, integrált OCR-rel és útmutatókkal rendelkező szerkesztők PDF szerkesztése ingyenesen vízjel nélkül.
Abban az esetben, Microsoft Wordlehetséges PDF megnyitása közvetlenül a Wordben A „Fájl > Megnyitás” menüpontban a Word figyelmezteti, hogy szerkeszthető dokumentummá fogja konvertálni a PDF-et. Ez a módszer elfogadhatóan működhet egyszerű, jó minőségű PDF-ekkel, de ne feledje, hogy a Word... Nem végez valódi OCR-t összetett képekenEzért az alacsony felbontású, elmosódott szöveget vagy sok grafikát tartalmazó beolvasott PDF elveszítheti a formázást, vagy a program nem ismeri fel megfelelően.
A maga részéről A Google Docs saját OCR-t (optikai karakterfelismerést) tartalmaz a Google Drive-banMiután feltöltötte a beolvasott PDF-et a meghajtóra, kattintson rá jobb gombbal, és válassza a „Megnyitás > Google Dokumentumok” lehetőséget. A rendszer megpróbálja szerkeszthető szöveges dokumentummá konvertálni a fájlt a kép tartalmának felismerésével.
A Google OCR támogatja több mint 200 nyelvAzonban vannak bizonyos méretkorlátai (például nem támogatja a nagyon nagy fájlokat), és a szövegnek minimális képpontmagassággal kell rendelkeznie a pontos felismeréshez. Továbbá az olyan elemek, mint a táblázatok, oszlopok, lábjegyzetek vagy az összetett formázások gyakran elvesznek vagy torzulnak.
Egy másik klasszikus utalás az Adobe AcrobatAz Acrobat átfogó OCR funkciót tartalmaz a „Szkennelés és OCR” eszközébe integrálva. Amikor megnyit egy beolvasott PDF-et, az Acrobat általában egy értesítést jelenít meg a felismerési folyamat megkezdéséhez. A megfelelő eszközből kiválaszthatja a szöveg nyelvét, meghatározhatja, hogy mely oldalakat dolgozza fel, és az OCR futtatása után folytathatja a PDF szerkesztését.
Az Adobe kínál a professzionális felület, felhőszolgáltatások, valamint fejlett dokumentum-aláírási és -útvonal-funkciókAz előfizetéses modellje azonban drágább, mint más alternatívák, és nem mindig a legegyszerűbb megoldás azoknak a felhasználóknak, akiknek csak alkalmanként kell PDF-eket szerkeszteniük.
Vannak más programok is, mint pl. Nitro PDF Szerkesztő (Nitro Pro)Ez az eszköz lehetővé teszi tartalom hozzáadását, törlését és átrendezését, OCR alkalmazását, valamint oldalak manipulálását (forgatás, kinyerés, beszúrás stb.), és elsősorban Windows-felhasználók számára készült. Funkcionális, de drága, és OCR használatakor nagyon nagy dokumentumok esetén összeomolhat.
Egy másik eszköz az Apower PDF-szerkesztőTartalmaz továbbá szövegfelismerést, fejléc- és lábléc funkciókat, űrlapkezelést és oldalmanipulációt. Bár a kezelőfelülete talán nem a legkifinomultabb, és a nagyon nagy dokumentumok kissé lassan töltődnek be, ingyenes megoldást kínál a beolvasott PDF-ek szerkesztésére Windows rendszeren.
Mit tehet a PDFelement a beolvasott PDF-ekkel és az OCR-rel?
Az OCR eseti alkalmazásán túl a PDFelement egy teljes munkaállomás a beolvasott PDF-ekhezOptikai felismerő motorja nemcsak szerkeszthetővé alakítja a PDF-eket, hanem egyensúlyt teremt a pontosság, a sebesség és a vizuális hűség között.
Az egyik fő jellemzője a lehetősége, hogy közvetlenül szerkesztheti a felismert szöveget magában a PDF-ben.Más megoldásokkal ellentétben, ahol az OCR csak külön fájlt generál, a PDFelementben magán a dokumentumon dolgozunk, a betűtípusokat, betűméreteket és bekezdésszerkezetet lehetőség szerint megőrizve.
Átalakításra is képes Szerkeszthető dokumentumokban található szöveget tartalmazó képek (JPG, PNG stb.) különböző Microsoft Office formátumokban, például Word formázás elvesztése nélkülExcel vagy PowerPoint. Ez nagyon hasznos például akkor, ha számlákat vagy jelentéseket képként szkennel, majd ezeket az adatokat egy táblázatban szeretné feldolgozni.
Egy másik fejlett funkció az adatok kinyerése a beolvasott űrlapokból. A PDFelement képes Űrlapmezők beolvasása és az információk exportálása Excel-táblázatba tökéletesen szerkeszthető, ami jelentősen felgyorsítja a felmérések, kérelmek vagy papír alapú nyilvántartások digitalizálását.
Ezenkívül a program lehetővé teszi több beolvasott PDF kötegelt feldolgozásaEgyszerűen add hozzá az összes konvertálni kívánt fájlt, válaszd ki a nyelvet, add meg a célmappát, és indítsd el a folyamatot. A szoftver automatikusan alkalmazza az OCR-t minden dokumentumra, és olvasható és szerkeszthető fájlként menti el azokat anélkül, hogy külön kellene figyelned őket.
Tippek az OCR-eredmények javításához
Az OCR minősége nagymértékben függ az eredeti szkennelés módjától. Ezért ajánlott néhány irányelvet betartani. legjobb gyakorlatok a lehető legjobb elismerés megszerzéséhez amikor a PDFelementtel vagy más hasonló eszközzel szkennelt PDF fájlokat fog feldolgozni.
Nagyobb mennyiségű dokumentum digitalizálása előtt erősen ajánlott Tesztelés egyetlen oldallal különböző konfigurációk használatával (felbontás, szín, kontraszt), és futtasd az OCR-t, hogy lásd, melyik beállítás biztosítja a legnagyobb pontosságot. Innentől kezdve ezt a konfigurációt használd a többi oldalhoz.
Általánosságban elmondható, hogy a szkennelés a következővel történik: felbontás 300 és 600 dpi között Sokkal jobb OCR-eredményeket kínálnak. Ha alacsonyabb felbontással szkennel, a szöveg elmosódottnak vagy pixelesnek tűnhet, és a felismerő motor nehezebben fogja megkülönböztetni a hasonló karaktereket.
Fontos figyelni a kontrasztra is. A fenti szövegek nagyon sötét vagy nagyon világos háttér Előfordulhat, hogy a szöveg színe és a háttér közötti különbség nem elegendő, így a felismerésük nem könnyű. Ilyen esetekben ajánlott a szkenner fényerejét és kontrasztját beállítani az olvashatóság javítása érdekében.
Amikor csak lehetséges, használja a fekete-fehér mód (vagy megfelelően konfigurált szürkeárnyalatos) Csak szöveges dokumentumokhoz. Általában jobb eredményt kínál, mint a színes szövegek tisztán OCR esetén, mivel csökkenti a vizuális zajt.
Végül győződjön meg arról, hogy a dokumentum megfelelően igazítva a szkenner üveglapjánHa a papír ferde, a szövegsorok torzulása „összezavarhatja” a felismerő motort, és hibákat okozhat a konverzió során.
Szkennelt PDF szöveggé konvertálása a PDFelement segítségével, online és a Google segítségével
Egy másik gyakori feladat a beolvasott PDF közvetlen konvertálása sima szöveg (.txt), hogy bármilyen szerkesztőben feldolgozható legyenA PDFelement OCR moduljának és konverziós menüjének köszönhetően sokkal könnyebbé teszi ezt a folyamatot.
Amikor importálsz egy beolvasott PDF-et a PDFelementbe, a program megkérdezi, hogy szeretnéd-e OCR alkalmazása a dokumentumraAz elfogadással kiválaszthatja a tartalom nyelvét és a kimeneti típust: szerkeszthető szöveg vagy egyszerűen kereshető szöveg a PDF-en belül.
A felismerés után, ha .txt fájlt szeretne létrehozni, csak menjen a menübe „Konvertálás” és válassza a „Szöveggé alakítás” lehetőségetEz egy egyszerű szöveges dokumentumot hoz létre, amelyben könnyen kereshet kulcsszavakra, tisztíthatja a tartalmat, újra felhasználhatja más projektekben, vagy olyan rendszereken tárolhatja, ahol nem kell karbantartania a PDF formátumot.
Ha valami teljesen online dolgot szeretnél, akkor fordulj a következőhöz: HiPDF az OCR eszközévelFeltöltöd a PDF fájlt, megadod a nyelvet és a kimeneti formátumot (pl. .txt), elindítod a konvertálást, és ha kész, letöltöd a beolvasott PDF-ből generált szövegfájlt.
Ingyenes, felhőalapú alternatívaként, Google Drive és Google Dokumentumok Lehetővé teszik a beolvasott PDF-ek szöveggé konvertálását is. Feltöltöd a PDF-et, megnyitod a Google Dokumentumokkal, a rendszer lefuttatja a saját OCR-jét, és kapsz egy Google-dokumentumot a kinyert szöveggel. Innen másolhatod, szerkesztheted vagy letöltheted más formátumokban, például .docx, .odt vagy akár HTML formátumban.
Ezen online alternatívák ellenére a kényesebb munkákhoz, érzékeny adatokat tartalmazó dokumentumokhoz vagy folyamatos szakmai munkafolyamatokhoz általában egy olyan asztali környezet, mint a PDFelement, ajánlottabb, mivel Az adatvédelmi problémákat azzal kerülöd el, hogy nem töltesz fel fájlokat külső szerverekre. és nagyobb kontrollal rendelkezik a folyamat és az eredmény felett.
Röviden, ha gyakran dolgozol beolvasott PDF-ek, amelyeket szerkeszteni, keresni vagy konvertálni kellEgy jó OCR motor óriási különbséget jelent. Az olyan eszközök, mint a Wondershare PDFelement, gyors és pontos felismerést, közvetlen PDF-szerkesztést, több formátumba konvertálást, valamint olyan fejlett opciókat ötvöznek, mint az OCR terület és a kötegelt feldolgozás, lehetővé téve, hogy a dokumentumok egyszerű „pillanatképeiről” gond nélkül kezelhesd a teljesen szerkeszthető és újrafelhasználható információkat.
Szenvedélyes író a bájtok és általában a technológia világáról. Szeretem megosztani tudásomat írásban, és ezt fogom tenni ebben a blogban, megmutatom a legérdekesebb dolgokat a kütyükről, szoftverekről, hardverekről, technológiai trendekről stb. Célom, hogy egyszerű és szórakoztató módon segítsek eligazodni a digitális világban.