Urejanje besedila iz skeniranega PDF-ja z uporabo OCR in PDFelement

Mundobajti » Software » Kako urediti besedilo skeniranega PDF-ja (OCR) z Wondershare PDFelement

Skenirana datoteka PDF je v resnici slika in jo je treba preoblikovati v optično prepoznavanje znakov (OCR), da jo je mogoče urejati ali iskati.
Wondershare PDFelement ponuja zmogljivo optično prepoznavanje znakov (OCR) v načinih urejanja, iskanja in območnih načinih.
Obstajajo alternative, kot so HiPDF online, Word, Google Docs ali Adobe, z različnimi omejitvami.
Kakovost skeniranja (ločljivost, kontrast in poravnava) je ključna za natančno optično prepoznavanje znakov (OCR).

Urejanje skeniranih PDF-jev z OCR v PDFelementu

Če ste kdaj naleteli na a skeniran PDF, ki ga morate popraviti ali posodobitiVeste, kako frustrirajoče je, če ne morete izbrati ali spremeniti besedila. Na prvi pogled je videti kot navaden dokument, v resnici pa imate pred seboj sliko, vdelano v PDF, ki je popolnoma zaklenjena pred urejanjem.

Dobra novica je, da je danes zelo enostavno Pretvorite skenirani PDF v datoteko, ki jo je mogoče urejati, z uporabo tehnologije OCR (Optično prepoznavanje znakov). Eden najpopolnejših programov za to, tako v sistemu Windows kot Mac, je Wondershare PDFelement, ki ima vgrajen zelo zmogljiv mehanizem za optično prepoznavanje znakov (OCR), ki je na voljo celo v poskusni različici Professional, tako da ga lahko preizkusite pred nakupom.

Kaj je OCR in zakaj ne morete urejati skeniranega PDF-ja?

Ko skenirate papirni dokument, skener ustvari Fotografija vsebine (besedilo, grafika, tabele, podpisi…)Ta rezultat se shrani kot slika ali kot PDF na osnovi slike. Iz praktičnih razlogov računalnik to vidi kot slikovne pike in ne kot besedilo, zato besede ne morete označiti, kopirati ali spremeniti.

Zato se mnogi ljudje sprašujejo: »Zakaj ne morem urejati skeniranega PDF-ja?«Razlog je preprost: skenirani PDF ne vsebuje besedilnih znakov, ampak samo sliko. Urejevalnik besedil ne more prepoznati in neposredno spremeniti ničesar.

Tehnologija optičnega prepoznavanja znakov (OCR) služi prav temu namenu: Analizira sliko, prepozna vsak znak in ga pretvori v digitalno besedilo.Ko je uporabljeno optično prepoznavanje znakov (OCR), je ta vsebina izberljiva, urejana in jo je mogoče tudi iskati v dokumentu.

Uporaba optičnega prepoznavanja znakov (OCR) omogoča transformacijo skenirane datoteke PDF, fotografije dokumentov ali ročno napisani obrazci v popolnoma urejljivih dokumentih, pri čemer se čim bolj ohrani prvotni videz. To olajša naloge, kot so popravki, posodobitve podatkov, digitalno arhiviranje ali ekstrahiranje informacij v druge formate.

Funkcija OCR v Wondershare PDFelement

Urejanje besedila skeniranega PDF-ja z Wondershare PDFelement (način urejanja)

Wondershare PDFelement je zelo celovit urejevalnik PDF-jev, ki vključuje Profesionalni OCR modul, združljiv z več kot 20 jeziki (španščina, angleščina, francoščina, nemščina, italijanščina, portugalščina, arabščina, ruščina, češčina, turščina, korejščina, indonezijščina itd.). Funkcija OCR PDF je na voljo v poskusni različici programa PDFelement Professional, zato jo lahko brezplačno preizkusite, preden se odločite za nakup.

Ko odprete skenirano ali slikovno datoteko PDF, PDFelement samodejno zazna, da gre za skeniran dokument Nato se na vrhu okna prikaže predlog za začetek prepoznavanja OCR. Tam lahko izberete najprimernejši način, odvisno od tega, kaj želite storiti z datoteko.

Če je vaš cilj Uredite vsebino PDF-ja, spremenite besedne zveze, popravite napake ali spremenite slike.Zanima vas način »Skeniraj v urejeno besedilo«. V tem načinu PDFelement ustvari nov PDF, v katerem je mogoče spremeniti vse prepoznano besedilo, kot da bi bil dokument prvotno ustvarjen digitalno.

Postopek uporabe urejanja optičnega prepoznavanja znakov (OCR) v PDFelementu je zelo preprost: odprite skenirani dokument, pojdite v meni orodij OCR, Izberete način pretvorbe besedila za urejanje in izberete pravilen jezik. vsebine (to močno poveča natančnost) in po želji lahko določite obseg strani, na katerih želite izvesti prepoznavanje.

Ko kliknete »uporabi«, program prikaže vrstico napredka in po zaključku postopka ... Nova datoteka PDF, ki jo je mogoče urejati, se odpre samodejno.Nato preprosto kliknite na način »Uredi«, da začnete spreminjati besedilo, dodajati nove odstavke, brisati nepotrebne dele ali retuširati slike in diagrame.

Urejanje besedila iz skeniranega PDF-ja z uporabo OCR

Način iskanja po optičnem prepoznavanju znakov: Omogočite iskanje in izbiro skeniranega PDF-ja

Z različico 6.3.0 programa PDFelement Professional je bila dodana še ena zelo zanimiva možnost: Način iskanja OCRTa način je zasnovan za tiste, ki jim ni treba preoblikovati ali spreminjati besedila, vendar želijo imeti možnost iskanja, izbiranja in kopiranja fragmentov dokumenta.

V tem primeru, ko odprete meni OCR znotraj PDFelementa, izberete možnost »Skeniraj za iskanje besedila na sliki«Rezultat je PDF, ki vizualno ostane praktično enak (izvirna slika se ohrani), vendar je pod njim vdelana nevidna plast besedila, ki omogoča iskanje besed s bližnjicami, kot je Ctrl+F.

Kaj je datoteka MANIFEST? Funkcije in kako jih odpreti

Ko je nova iskalna datoteka OCR ustvarjena, boste lahko Izberite kateri koli blok besedila in ga kopirajte v odložišče in ga prilepite v Wordov dokument, e-pošto ali katero koli orodje, ki vam je ljubše. To je zelo uporabna rešitev, če delate s priročniki, pogodbami ali dolgimi dokumenti, kjer je iskanje določenih informacij ključnega pomena.

Ta pristop je še posebej praktičen, kadar želite ohrani 100 % originalne zasnove dokumenta (pečati, vodni žigi, podpisi itd.), hkrati pa morate za hitre poizvedbe delati z besedilno vsebino.

Možnosti optičnega prepoznavanja znakov (OCR) v PDFelementu

Območje OCR v PDFelementu: prepoznaj le del dokumenta

Ni vedno treba uporabiti OCR za celoten dokument. S funkcijo PDFelement »Območje OCR« Prepoznavanje lahko omejite le na določeno območje strani, kar prihrani čas obdelave in je zelo priročno, ko morate podatke izluščiti le iz dela PDF-ja.

Deluje preprosto: odprete sliko ali skenirani PDF, dostopate »Orodje > Območje OCR« Nato z miško povlečete, da izberete pravokotnik z besedilom, ki ga želite prepoznati. To je idealno za tabele, določene stolpce, noge ali obrazce na strani z veliko grafičnimi elementi.

Na desni strani okna boste videli ploščo z lastnostmi, kjer lahko izberite jezik za prepoznavanje za to specifično območje. Nato morate le klikniti »Prepoznaj«, da PDFelement obdela vsebino in jo pretvori v besedilo, ki ga je mogoče urejati ali iskati, odvisno od izbranega načina.

Ta funkcija območja OCR je še posebej uporabna pri delu z skenirani obrazci, računi, dobavnice ali poročila od katerih morate le uvoziti določena podatkovna polja v preglednico ali drug sistem za upravljanje.

Vodnik po korakih: kako urediti skeniran PDF v sistemu Windows in Mac s programom PDFelement

Čeprav se izraz OCR morda sliši tehnično, je postopek pri PDFelementu precej voden in zreduciran na le nekaj korakov. Spodaj je tipičen potek dela za Urejanje skeniranih dokumentov PDF v sistemu Windows 11 in macOS z uporabo tega programa.

Prvi korak je, da uvozite datoteko PDF v program. Ko zaženete PDFelement, lahko s klikom na gumb »Odpri« v spodnjem levem kotu začetnega okna krmarite po mapah, izberete skenirano datoteko PDF in jo naložite.

Takoj ko zazna, da dokument temelji na sliki, PDFelement prikaže pojavno obvestilo s predlogom izvesti optično prepoznavanje znakov (OCR)Če kliknete »Izvedi optično prepoznavanje znakov«, vas bo programska oprema pozvala, da izberete jezik vsebine (za čim večjo natančnost je ključnega pomena, da izberete pravilnega, še posebej, če so prisotni naglasi ali posebni znaki).

Ko je skeniranje končano, je datoteka na voljo za urejanje. V meniju V razdelku »Uredi« lahko dostopate do orodij za urejanje besedila in predmetovNa ta način lahko kliknete kateri koli odstavek, da dodate ali izbrišete besede, spremenite obliko besedila ali vstavite nove bloke z možnostjo dodajanja besedila.

Poleg tega vam PDFelement omogoča manipulacijo slik, oblik, grafike in drugih elementov. Z uporabo možnosti za »Urejanje predmetov« vam omogoča premikanje, obrezovanje, vrtenje ali brisanje slikkot tudi vstavljanje novih slik v dokument, ko je to potrebno.

Med delom je pomembno, da shranite spremembe. Uporabite lahko Ctrl + S za shranjevanje v isto datoteko ali pa uporabite »Datoteka > Shrani kot«, da ustvarite novo kopijo, izberete drugo ciljno mapo ali spremenite različico dokumenta, ne da bi izgubili izvirnik.

Kako urediti skeniran PDF na spletu s HiPDF

Če ne želite ničesar namestiti na računalnik, je zanimiva možnost uporaba HiPDF, spletna platforma, povezana z ekosistemom WondershareTo spletno mesto ponuja posebno spletno orodje OCR, ki vam omogoča obdelavo skeniranih PDF-jev neposredno iz brskalnika.

Postopek je preprost: dostopate do uradne spletne strani HiPDF, poiščete razdelek o »Spletno optično prepoznavanje znakov« Datoteko naložite z gumbom »Izberi datoteko« ali tako, da jo povlečete v okno brskalnika. Ko je naložena, konfigurirate jezik dokumenta in izhodno obliko (na primer navadno besedilo ali PDF z možnostjo iskanja) ter kliknete »Pretvori«.

Ko je pretvorba končana, boste lahko prenesite obdelano datoteko v vašo napravo. Ta rešitev ima več prednosti: ker je na spletu, deluje tako v sistemih Windows kot Mac in celo iz drugih sistemov, prenos pa je zaščiten z 256-bitnim SSL šifriranjem.

Popoln vodnik za ustvarjanje zagonskega USB-ja

HiPDF omogoča tudi serijska obdelava Plačljiva različica je uporabna, če delate z velikimi količinami skeniranih PDF-jev. Vendar pa ima brezplačna različica nekaj omejitev glede funkcij in velikosti datoteke, poleg tega pa prikazuje tudi oglase, kar je treba upoštevati, če iščete popolnoma čisto izkušnjo.

Urejanje skeniranega PDF-ja z Wordom, Google Dokumenti in drugimi alternativami

Čeprav PDFelement in HiPDF ponujata zelo celovito izkušnjo, obstajajo tudi druge metode za delo s skeniranimi datotekami PDF z orodji, ki jih morda že imatekot so Microsoft Word, Google Docs ali Adobe Acrobat, pa tudi drugi urejevalniki z vgrajenim optičnim prepoznavanjem znakov in vodniki za Brezplačno urejajte PDF brez vodnega žiga.

V primeru Microsoft Wordje možno Odprite PDF neposredno v Wordu V meniju »Datoteka > Odpri« vas bo Word opozoril, da bo PDF pretvoril v dokument, ki ga je mogoče urejati. Ta metoda lahko deluje sprejemljivo s preprostimi, kakovostnimi PDF-ji, vendar ne pozabite, da Word Ne izvaja pravega optičnega prepoznavanja znakov (OCR) na kompleksnih slikahZato lahko skenirana datoteka PDF z nizko ločljivostjo, zamegljenim besedilom ali veliko grafiko izgubi oblikovanje ali pa ne bo pravilno prepoznana.

Na svoji strani Google Dokumenti imajo v Google Drive vgrajeno lastno optično prepoznavanje znakov (OCR).Ko naložite skenirano datoteko PDF na pogon, jo lahko kliknete z desno miškino tipko in izberete »Odpri z > Google Dokumenti«. Sistem bo poskušal datoteko pretvoriti v dokument z besedilom, ki ga je mogoče urejati, tako da bo prepoznal vsebino slike.

Googlova podpora za OCR več kot 200 jezikovVendar ima določene omejitve velikosti (na primer ne podpira zelo velikih datotek) in zahteva, da ima besedilo minimalno višino v slikovnih pikah, da ga je mogoče natančno zaznati. Poleg tega se elementi, kot so tabele, stolpci, opombe ali zapleteno oblikovanje, pogosto izgubijo ali popačijo.

Druga klasična referenca je Adobe AcrobatAcrobat vključuje obsežno funkcijo optičnega prepoznavanja znakov (OCR), ki je integrirana v orodje »Skeniraj in OCR«. Ko odprete skenirani PDF, Acrobat običajno prikaže obvestilo za začetek postopka prepoznavanja. V ustreznem orodju lahko izberete jezik besedila, določite, katere strani želite obdelati, in po zagonu OCR nadaljujete z urejanjem PDF-ja.

Adobe ponuja a profesionalni vmesnik, storitve v oblaku in napredne funkcije podpisovanja in usmerjanja dokumentovVendar je njegov naročniški model dražji od drugih alternativ in ni vedno najpreprostejša možnost za uporabnike, ki morajo PDF-je urejati le občasno.

Obstajajo tudi drugi programi, kot npr. Urejevalnik PDF-jev Nitro (Nitro Pro)To orodje omogoča dodajanje, brisanje in prerazporejanje vsebine, uporabo optičnega prepoznavanja znakov (OCR) in upravljanje strani (sukanje, izvlečenje, vstavljanje itd.) ter je namenjeno predvsem uporabnikom sistema Windows. Je funkcionalno, vendar drago in se lahko pri uporabi OCR sesuje pri zelo velikih dokumentih.

Drugo orodje je Urejevalnik PDF-jev ApowerVključuje tudi prepoznavanje besedila, funkcije glave in noge, upravljanje obrazcev in manipulacijo strani. Čeprav njegov vmesnik morda ni najbolj izpopolnjen in se zelo veliki dokumenti nalagajo nekoliko počasi, ponuja brezplačno rešitev za urejanje skeniranih PDF-jev v sistemu Windows.

Kaj lahko PDFelement naredi s skeniranimi PDF-ji in OCR-jem

Poleg preproste uporabe optičnega prepoznavanja znakov (OCR) za vsak primer posebej je PDFelement zasnovan kot popolna delovna postaja za skenirane PDF-jeNjegov optični mehanizem za prepoznavanje ne le pretvori PDF-je v urejevalne, temveč tudi ohranja ravnovesje med natančnostjo, hitrostjo in vizualno zvestobo.

Ena od njegovih glavnih značilnosti je možnost neposredno urejajte prepoznano besedilo v samem PDF-ju.Za razliko od drugih rešitev, kjer OCR ustvari le ločeno datoteko, v PDFelementu delate na samem dokumentu in pri tem ohranite pisave, velikosti pisav in strukturo odstavkov, kadar koli je to mogoče.

Prav tako je sposoben preoblikovanja Slike (JPG, PNG itd.), ki vsebujejo besedilo v dokumentih, ki jih je mogoče urejati v različnih formatih Microsoft Officea, kot so Word brez izgube oblikovanjaExcel ali PowerPoint. To je zelo uporabno, kadar so na primer računi ali poročila skenirani kot slike in nato želite te podatke obdelati v preglednici.

Druga napredna funkcija je pridobivanje podatkov iz skeniranih obrazcev. PDFelement lahko Branje polj obrazca in izvoz teh podatkov v Excelovo preglednico popolnoma urejeno, kar močno pospeši delo digitalizacije anket, vlog ali papirnih zapisov.

Poleg tega program omogoča paketna obdelava več skeniranih PDF-jevPreprosto dodajte vse datoteke, ki jih želite pretvoriti, izberite jezik, določite ciljno mapo in začnite postopek. Programska oprema bo samodejno uporabila optično prepoznavanje znakov (OCR) za vsak dokument in ga shranila kot berljivo in urejljivo datoteko, ne da bi vam bilo treba spremljati vsako posebej.

Najboljši prenosniki v letu 2022 - Mundobytes

Nasveti za izboljšanje rezultatov optičnega prepoznavanja znakov

Kakovost optičnega prepoznavanja znakov (OCR) je v veliki meri odvisna od tega, kako je bilo izvedeno izvirno skeniranje. Zato je priporočljivo upoštevati vrsto smernic. najboljše prakse za doseganje najboljšega možnega priznanja ko boste skenirane PDF-je obdelali s PDFelementom ali drugim podobnim orodjem.

Pred digitalizacijo velikega nabora dokumentov je zelo priporočljivo Preizkusite z eno samo stranjo in različnimi konfiguracijami (ločljivost, barva, kontrast) in zaženite optično prepoznavanje znakov (OCR), da vidite, katera nastavitev ponuja največjo natančnost. Od tam naprej uporabite to konfiguracijo za preostale strani.

Na splošno skeniranje z ločljivost med 300 in 600 dpi Ponujajo veliko boljše rezultate optičnega prepoznavanja znakov (OCR). Če skenirate z nižjo ločljivostjo, je besedilo lahko zamegljeno ali piksirano, prepoznavalni mehanizem pa bo imel več težav z razlikovanjem podobnih znakov.

Pomembno je biti pozoren tudi na kontrast. Besedila, postavljena zgoraj zelo temna ali zelo svetla ozadja Morda jih ni enostavno prepoznati, ker je razlika med barvo besedila in ozadjem nezadostna. V teh primerih je priporočljivo prilagoditi svetlost in kontrast na optičnem bralniku, da se izboljša berljivost.

Kadar koli je mogoče, uporabite črno-beli način (ali pravilno konfigurirana sivina) Za dokumente, ki vsebujejo samo besedilo. Običajno ponuja boljše rezultate kot barvno prepoznavanje znakov za čisti OCR, saj zmanjša vizualni šum.

Na koncu se prepričajte, da je dokument pravilno poravnane na steklu skenerjaČe je papir ukrivljen, lahko popačenje vrstic besedila »zmede« mehanizem za prepoznavanje in povzroči napake pri pretvorbi.

Pretvorite skenirani PDF v besedilo s PDFelementom, prek spleta in z Googlom

Druga pogosta naloga je pretvorba skeniranega PDF-ja neposredno v navadno besedilo (.txt), da ga je mogoče obdelati v katerem koli urejevalnikuPDFelement ta postopek precej olajša zaradi modula OCR in menija za pretvorbo.

Ko uvozite skenirano datoteko PDF v PDFelement, vas bo program vprašal, ali želite Uporaba optičnega prepoznavanja znakov (OCR) v dokumentuS potrditvijo boste lahko izbrali jezik vsebine in vrsto izhoda: besedilo, ki ga je mogoče urejati, ali preprosto besedilo, ki ga je mogoče iskati v PDF-ju.

Po prepoznavanju, če želite ustvariti datoteko .txt, preprosto pojdite v meni »Pretvori« in izberite možnost »V besedilo«S tem ustvarite dokument z navadnim besedilom, v katerem lahko preprosto iščete po ključnih besedah, čistite vsebino, jo ponovno uporabite v drugih projektih ali shranite v sisteme, kjer vam ni treba vzdrževati oblike PDF.

Če imate raje nekaj povsem na spletu, se lahko obrnete na HiPDF z orodjem za optično prepoznavanje znakov (OCR)Naložite PDF, določite jezik in izhodno obliko (npr. .txt), zaženete pretvorbo in ko končate, prenesete besedilno datoteko, ustvarjeno iz skeniranega PDF-ja.

Kot brezplačna alternativa v oblaku, Google Drive in Google Dokumenti Omogočajo tudi pretvorbo skeniranih PDF-jev v besedilo. Naložite PDF, ga odprete z Google Dokumenti, sistem zažene lastno optično prepoznavanje znakov (OCR) in dobite Google dokument z izvlečenim besedilom. Od tam ga lahko kopirate, urejate ali prenašate v drugih oblikah, kot so .docx, .odt ali celo HTML.

Kljub tem spletnim alternativam je za bolj občutljivo delo, dokumente z občutljivimi podatki ali neprekinjene profesionalne delovne procese običajno bolj priporočljivo namizno okolje, kot je PDFelement, saj Težavam z zasebnostjo se izognete tako, da datotek ne nalagate na zunanje strežnike. in imate večji nadzor nad procesom in rezultatom.

Skratka, če pogosto delate z skenirane PDF-je, ki jih morate urejati, iskati ali pretvoritiDober OCR mehanizem naredi veliko razliko. Orodja, kot je Wondershare PDFelement, združujejo hitro in natančno prepoznavanje, neposredno urejanje PDF-jev, pretvorbo v več formatov in napredne možnosti, kot sta OCR območje in paketna obdelava, kar vam omogoča, da preklopite od preprostih "posnetkov" dokumentov do upravljanja popolnoma urejljivih in ponovno uporabnih informacij brez težav.

Povezani članek:

Pretvorba PDF-ja v Word za urejanje: spletne metode, Word in OCR

Isaac

Strasten pisec o svetu bajtov in tehnologije nasploh. Rad delim svoje znanje s pisanjem in to je tisto, kar bom počel v tem blogu, saj vam bom pokazal vse najbolj zanimive stvari o pripomočkih, programski opremi, strojni opremi, tehnoloških trendih in še več. Moj cilj je, da vam pomagam krmariti po digitalnem svetu na preprost in zabaven način.