- Nuskaitytas PDF failas iš tikrųjų yra vaizdas ir jam reikalinga optinio optinio žymėjimo (OCR) funkcija, kad jį būtų galima redaguoti arba ieškoti.
- „Wondershare PDFelement“ siūlo galingą OCR redaguojamu, paieškos ir konkrečioms sritims skirtuose režimuose.
- Yra alternatyvų, tokių kaip „HiPDF online“, „Word“, „Google Docs“ arba „Adobe“, su skirtingais apribojimais.
- Nuskaitymo kokybė (skiriamoji geba, kontrastas ir lygiavimas) yra labai svarbi norint gauti tikslų OCR.
Jei kada nors susidūrėte su a nuskaitytas PDF failas, kurį reikia pataisyti arba atnaujintiŽinote, kaip erzina negalėjimas pasirinkti ar pakeisti teksto. Iš pirmo žvilgsnio tai atrodo kaip įprastas dokumentas, bet iš tikrųjų priešais jus yra PDF faile įterptas vaizdas, visiškai užrakintas nuo redagavimo.
Geros naujienos yra tai, kad šiais laikais tai labai lengva Konvertuokite nuskaitytą PDF failą į redaguojamą naudodami OCR technologiją (Optinis simbolių atpažinimas). Viena iš išsamiausių programų, skirtų tai padaryti, tiek „Windows“, tiek „Mac“ sistemose, yra „Wondershare PDFelement“, kurioje integruotas labai galingas OCR variklis, netgi galima įsigyti bandomąją „Professional“ versiją, kad galėtumėte ją išbandyti prieš pirkdami.
Kas yra OCR ir kodėl negalima redaguoti nuskaityto PDF failo?
Nuskaitant popierinį dokumentą, skaitytuvas sukuria Turinio nuotrauka (tekstas, grafika, lentelės, parašai...)Šis rezultatas išsaugomas kaip vaizdas arba kaip paveikslėliu pagrįstas PDF failas. Praktiškai kompiuteriui tai nėra tekstas, o pikseliai, todėl negalima paryškinti, kopijuoti ar modifikuoti žodžio.
Štai kodėl daugelis žmonių savęs klausia: „Kodėl negaliu redaguoti nuskaityto PDF failo?“Priežastis paprasta: nuskaitytame PDF faile nėra teksto simbolių, tik vaizdas. Teksto redaktorius negali atpažinti ir tiesiogiai pakeisti nieko.
Optinio simbolių atpažinimo (OCR) technologija skirta būtent šiam tikslui: Jis analizuoja vaizdą, identifikuoja kiekvieną simbolį ir paverčia jį skaitmeniniu tekstu.Pritaikius OCR, tą turinį galima pasirinkti, redaguoti ir jo galima ieškoti dokumente.
OCR taikymas leidžia transformuoti nuskaityti PDF failai, dokumentų nuotraukos arba ranka rašytos formos visiškai redaguojamuose dokumentuose, kiek įmanoma išsaugant originalią išvaizdą. Tai palengvina tokias užduotis kaip taisymas, duomenų atnaujinimas, skaitmeninis archyvavimas arba informacijos išgavimas į kitus formatus.
Nuskaityto PDF teksto redagavimas naudojant „Wondershare PDFelement“ (redagavimo režimas)
„Wondershare PDFelement“ yra labai išsamus PDF redaktorius, kuriame yra Profesionalus OCR modulis, suderinamas su daugiau nei 20 kalbų (Ispanų, anglų, prancūzų, vokiečių, italų, portugalų, arabų, rusų, čekų, turkų, korėjiečių, indoneziečių ir kt.). OCR PDF funkcija prieinama bandomojoje „PDFelement Professional“ versijoje, todėl galite ją išbandyti nemokamai prieš nuspręsdami, ar ją įsigyti.
Atidarius nuskaitytą arba paveikslėlyje esantį PDF failą, „PDFelement“ automatiškai aptinka, kad tai nuskaitytas dokumentas Tada lango viršuje rodomas pasiūlymas pradėti OCR atpažinimą. Iš ten galite pasirinkti tinkamiausią režimą, atsižvelgdami į tai, ką reikia daryti su failu.
Jei jūsų tikslas yra Redaguokite PDF turinį, modifikuokite frazes, ištaisykite klaidas arba pakeiskite vaizdus.Jus domina režimas „Nuskaityti į redaguojamą tekstą“. Šiuo režimu „PDFelement“ sukuria naują PDF failą, kuriame visą atpažintą tekstą galima modifikuoti taip, lyg tai būtų iš pradžių skaitmeniniu būdu sukurtas dokumentas.
Norint pritaikyti redaguojamą OCR PDFelement programoje, procesas labai paprastas: atidarykite nuskaitytą dokumentą, eikite į OCR įrankių meniu, Jūs pasirenkate redaguojamo teksto konvertavimo režimą ir pasirenkate tinkamą kalbą. turinio (tai labai padidina tikslumą) ir, jei norite, galite apibrėžti puslapių diapazoną, kuriame norite vykdyti atpažinimą.
Paspaudus „Taikyti“, programa rodo progreso juostą, o procesui pasibaigus, Naujas redaguojamas PDF failas atsidarys automatiškai.Tada tiesiog spustelėkite režimą „Redaguoti“, kad pradėtumėte keisti tekstą, pridėti naujų pastraipų, ištrinti nereikalingas dalis arba retušuoti vaizdus ir diagramas.
Ieškomo OCR režimas: nuskaitytą PDF failą paverskite paieškos ir pasirinkimo funkcija
Nuo „PDFelement Professional“ 6.3.0 versijos buvo pridėta dar viena labai įdomi parinktis: OCR paieškos režimasŠis režimas skirtas tiems, kuriems nereikia performatuoti ar keisti teksto, bet nori turėti galimybę ieškoti, pasirinkti ir kopijuoti dokumento fragmentus.
Šiuo atveju, kai einate į OCR meniu PDFelement programoje, pasirenkate parinktį „Nuskaityti, norint ieškoti teksto paveikslėlyje“Rezultatas – PDF failas, kuris vizualiai išlieka praktiškai toks pat (išlaikomas originalus vaizdas), tačiau po juo yra įterptas nematomas teksto sluoksnis, leidžiantis rasti žodžius naudojant sparčiuosius klavišus, tokius kaip Ctrl+F.
Sukūrus naują OCR paieškos failą, galėsite Pasirinkite bet kurį teksto bloką, nukopijuokite jį į iškarpinę ir įklijuokite jį į „Word“ dokumentą, el. laišką ar bet kurį kitą jums patinkantį įrankį. Tai labai naudingas sprendimas, jei dirbate su vadovais, sutartimis ar ilgais dokumentais, kur labai svarbu rasti konkrečią informaciją.
Šis metodas yra ypač praktiškas, kai norite išsaugoti 100 % originalaus dokumento dizaino (antspaudai, vandens ženklai, parašai ir kt.), tačiau tuo pačiu metu reikia dirbti su tekstiniu turiniu, kad būtų galima greitai atsakyti į užklausas.
OCR sritis PDFelemente: atpažinti tik dalį dokumento
Ne visada būtina taikyti OCR visam dokumentui. Naudojant funkciją PDFelement „OCR sritis“ Galite apriboti atpažinimą tik tam tikroje puslapio srityje, o tai taupo apdorojimo laiką ir yra labai patogu, kai reikia išgauti duomenis tik iš dalies PDF failo.
Tai veikia paprastai: atidarote vaizdą arba nuskaitytą PDF failą, galite pasiekti „Įrankis > OCR sritis“ Tada braukite pele, kad pasirinktumėte stačiakampį, kuriame yra norimas atpažinti tekstas. Tai idealiai tinka lentelėms, konkretiems stulpeliams, poraštėms arba formoms puslapyje su daugybe grafinių elementų.
Dešinėje lango pusėje matysite savybių skydelį, kuriame galėsite pasirinkti atpažinimo kalbą tai konkrečiai sričiai. Tada tereikia spustelėti „Atpažinti“, kad „PDFelement“ apdorotų turinį ir konvertuotų jį į redaguojamą arba ieškomą tekstą, atsižvelgiant į pasirinktą režimą.
Ši OCR srities funkcija yra ypač naudinga dirbant su nuskaitytos formos, sąskaitos faktūros, važtaraščiai ar ataskaitos iš kurių jums tereikia importuoti tam tikrus duomenų laukus į skaičiuoklę ar kitą valdymo sistemą.
Žingsnis po žingsnio vadovas: kaip redaguoti nuskaitytą PDF failą „Windows“ ir „Mac“ sistemose naudojant „PDFelement“
Nors terminas „OCR“ gali skambėti techniškai, „PDFelement“ sistemoje procesas yra gana glaustas ir sutrumpintas iki kelių žingsnių. Žemiau pateikiamas tipinis darbo eiga: Redaguokite nuskaitytus PDF dokumentus sistemoje „Windows 11“ ir macOS naudojant šią programą.
Pirmasis žingsnis yra importuoti PDF failą prie programos. Paleidę „PDFelement“, galite naudoti mygtuką „Atidaryti“, esantį pradinio lango apačioje kairėje, naršyti po aplankus, pasirinkti nuskaitytą PDF failą ir jį įkelti.
Kai tik PDFelement aptinka, kad dokumentas yra paveikslėlio pagrindu, jis parodo iššokantįjį pranešimą, kuriame siūloma atlikti OCRJei spustelėsite „Atlikti OCR“, programinė įranga paprašys pasirinkti turinio kalbą (labai svarbu nurodyti teisingą kalbą, kad būtų užtikrintas tikslumas, ypač jei yra diakritinių ženklų ar specialiųjų simbolių).
Baigus nuskaityti, failą galima redaguoti. Iš meniu Skiltyje „Redaguoti“ galite pasiekti teksto ir objektų redagavimo įrankius.Tokiu būdu galite spustelėti bet kurią pastraipą, kad pridėtumėte arba ištrintumėte žodžius, pakeistumėte teksto formatą arba įterptumėte naujus blokus naudodami parinktį „Pridėti tekstą“.
Be to, „PDFelement“ leidžia manipuliuoti vaizdais, formomis, grafika ir kitais elementais. Naudojant parinktį „Redaguoti objektus“ leidžia perkelti, apkarpyti, pasukti arba ištrinti vaizdustaip pat įterpti naujus vaizdus į dokumentą, kai to reikia.
Dirbant svarbu išsaugoti pakeitimus. Galite naudoti Ctrl + S, kad įrašytumėte į tą patį failą arba naudokite „Failas > Įrašyti kaip“, kad sukurtumėte naują kopiją, pasirinktumėte kitą paskirties aplanką arba pakeistumėte dokumento versiją neprarasdami originalo.
Kaip redaguoti nuskaitytą PDF failą internete naudojant „HiPDF“
Jei nenorite nieko diegti savo kompiuteryje, įdomus variantas yra naudoti „HiPDF“ – internetinė platforma, susieta su „Wondershare“ ekosistemaŠioje svetainėje siūloma speciali internetinė OCR priemonė, leidžianti apdoroti nuskaitytus PDF failus tiesiai iš naršyklės.
Procesas paprastas: apsilankote oficialioje HiPDF svetainėje, ieškote skyriaus apie „Internetinis optinis optinis žymėjimas“ Failą įkeliate naudodami mygtuką „Pasirinkti failą“ arba nuvilkdami jį į naršyklės langą. Įkėlę galite konfigūruoti dokumento kalbą ir išvesties formatą (pavyzdžiui, paprastas tekstas arba PDF su paieškos funkcija) ir spustelėti „Konvertuoti“.
Kai konvertavimas bus baigtas, galėsite Atsisiųskite apdorotą failą į jūsų įrenginį. Šis sprendimas turi keletą privalumų: būdamas prisijungęs prie interneto, jis veikia tiek „Windows“, tiek „Mac“ sistemose ir net iš kitų sistemų, o perdavimas yra apsaugotas 256 bitų SSL šifravimu.
HiPDF taip pat leidžia partijos apdorojimas Mokama versija naudinga, jei dirbate su dideliais nuskaitytų PDF failų kiekiais. Tačiau nemokama versija turi tam tikrų apribojimų, susijusių su funkcijomis ir failo dydžiu, be to, joje rodomi skelbimai, į ką reikėtų atsižvelgti, jei ieškote visiškai švarios patirties.
Redaguokite nuskaitytą PDF failą naudodami „Word“, „Google“ dokumentus ir kitas alternatyvas
Nors „PDFelement“ ir „HiPDF“ siūlo labai išsamią patirtį, yra ir kitų būdų dirbti su nuskaitytais PDF failais naudojant jau turimus įrankiuspvz., „Microsoft Word“, „Google Docs“ arba „Adobe Acrobat“, taip pat kiti redaktoriai su integruotu OCR ir vadovais Redaguokite PDF failą nemokamai be vandenženklio.
Tuo atveju, kai Microsoft Wordyra įmanoma Atidarykite PDF failą tiesiogiai programoje „Word“ Iš „Failas > Atidaryti“. „Word“ įspės, kad PDF konvertuos į redaguojamą dokumentą. Šis metodas gali veikti su paprastais, geros kokybės PDF failais, tačiau atminkite, kad „Word“ Neatlieka tikrojo OCR sudėtingiems vaizdamsTodėl nuskaitytas PDF failas su maža raiška, neryškiu tekstu arba daugybe grafikos gali prarasti formatavimą arba būti neatpažintas teisingai.
Savo ruožtu, „Google“ dokumentai integruoja savo OCR į „Google“ diskąĮkėlę nuskaitytą PDF failą į savo diską, galite jį dešiniuoju pelės mygtuku spustelėti ir pasirinkti „Atidaryti naudojant > „Google“ dokumentai“. Sistema bandys konvertuoti failą į redaguojamą tekstinį dokumentą, atpažindama vaizdo turinį.
„Google“ OCR palaiko daugiau nei 200 kalbųTačiau jis turi tam tikrų dydžio apribojimų (pavyzdžiui, nepalaiko labai didelių failų) ir reikalauja, kad tekstas turėtų minimalų pikselių aukštį, kad būtų tiksliai aptiktas. Be to, tokie elementai kaip lentelės, stulpeliai, išnašos ar sudėtingas formatavimas dažnai prarandami arba iškraipomi.
Kita klasikinė nuoroda yra Adobe Acrobat„Acrobat“ programoje yra išsami OCR funkcija, integruota į jos įrankį „Scan & OCR“. Atidarius nuskaitytą PDF failą, „Acrobat“ paprastai rodo pranešimą, kad būtų pradėtas atpažinimo procesas. Atitinkamame įrankyje galite pasirinkti teksto kalbą, apibrėžti, kuriuos puslapius apdoroti, ir, paleidę OCR, redaguoti PDF failą.
„Adobe“ siūlo a profesionali sąsaja, debesijos paslaugos ir pažangios dokumentų pasirašymo bei nukreipimo funkcijosTačiau jo prenumeratos modelis yra brangesnis nei kitos alternatyvos ir ne visada yra paprasčiausias pasirinkimas vartotojams, kuriems PDF failus reikia redaguoti tik retkarčiais.
Taip pat yra ir kitų programų, pvz. Nitro PDF redaktorius (Nitro Pro)Šis įrankis leidžia pridėti, ištrinti ir pertvarkyti turinį, taikyti OCR ir manipuliuoti puslapiais (pasukti, išskleisti, įterpti ir kt.). Jis pirmiausia skirtas „Windows“ vartotojams. Jis funkcionalus, bet brangus ir gali sugesti dirbant su labai dideliais dokumentais naudojant OCR.
Kitas įrankis yra Apower PDF redaktoriusTaip pat yra teksto atpažinimo, antraštės ir poraštės funkcijos, formų valdymas ir puslapių manipuliavimas. Nors sąsaja gali būti ne pati išbaigtiausia, o labai dideli dokumentai įkeliami gana lėtai, programa siūlo nemokamą nuskaitytų PDF failų redagavimo „Windows“ sistemoje sprendimą.
Ką „PDFelement“ gali padaryti su nuskaitytais PDF failais ir OCR?
„PDFelement“ yra sukurtas ne tik kaip OCR taikymas kiekvienu atveju atskirai, bet ir kaip pilna darbo stotis nuskaitytiems PDF failamsJo optinio atpažinimo variklis ne tik transformuoja PDF failus į redaguojamus, bet ir palaiko tikslumo, greičio ir vizualinio tikslumo pusiausvyrą.
Vienas iš pagrindinių jo bruožų yra galimybė tiesiogiai redaguoti atpažintą tekstą pačiame PDF faile.Kitaip nei kituose sprendimuose, kur OCR sukuria tik atskirą failą, „PDFelement“ programoje dirbate su pačiu dokumentu, kiek įmanoma išsaugodami šriftus, šriftų dydžius ir pastraipų struktūrą.
Taip pat geba transformuotis Vaizdai (JPG, PNG ir kt.) su tekstu redaguojamuose dokumentuose įvairiuose „Microsoft Office“ formatuose, pvz. „Word“ neprarandant formatavimo„Excel“ arba „PowerPoint“. Tai labai naudinga, kai, pavyzdžiui, sąskaitos faktūros arba ataskaitos nuskaitomos kaip vaizdai, o tada norite apdoroti šiuos duomenis skaičiuoklėje.
Kita išplėstinė funkcija – duomenų išgavimas iš nuskaitytų formų. „PDFelement“ gali Skaitykite formos laukus ir eksportuokite šią informaciją į „Excel“ skaičiuoklę puikiai redaguojamas, labai pagreitina apklausų, paraiškų ar popierinių įrašų skaitmeninimo darbą.
Be to, programa leidžia paketiniu būdu apdoroti kelis nuskaitytus PDF failusTiesiog pridėkite visus norimus konvertuoti failus, pasirinkite kalbą, apibrėžkite paskirties aplanką ir pradėkite procesą. Programinė įranga automatiškai pritaikys OCR kiekvienam dokumentui ir išsaugos jį kaip skaitomą ir redaguojamą failą, jums nereikės stebėti kiekvieno atskirai.
Patarimai, kaip pagerinti OCR rezultatus
OCR kokybė labai priklauso nuo to, kaip buvo atliktas originalus nuskaitymas. Todėl patartina laikytis tam tikrų gairių. geriausia praktika, siekiant kuo geresnio pripažinimo kai ketinate apdoroti nuskaitytus PDF failus naudodami „PDFelement“ arba kitą panašią priemonę.
Prieš skaitmeninant didelį dokumentų rinkinį, labai rekomenduojama Testavimas su vienu puslapiu naudojant skirtingas konfigūracijas (skiriamoji geba, spalva, kontrastas) ir paleiskite OCR, kad pamatytumėte, kuris nustatymas užtikrina didžiausią tikslumą. Tada tą konfigūraciją naudojate likusiems puslapiams.
Apskritai, nuskaitymai su skiriamoji geba nuo 300 iki 600 dpi Jie siūlo daug geresnius OCR rezultatus. Jei nuskaitysite mažesne raiška, tekstas gali atrodyti neryškus arba pikseliuotas, o atpažinimo varikliui bus sunkiau atskirti panašius simbolius.
Taip pat svarbu atkreipti dėmesį į kontrastą. Viršuje esantys tekstai labai tamsus arba labai ryškus fonas Jų gali būti nelengva atpažinti, nes teksto spalvos ir fono skirtumas yra nepakankamas. Tokiais atvejais patartina reguliuoti skaitytuvo ryškumą ir kontrastą, kad būtų lengviau skaityti.
Kai tik įmanoma, naudokite nespalvotas režimas (arba tinkamai sukonfigūruotas pilkos spalvos tonas) Tik tekstiniams dokumentams. Paprastai jis duoda geresnius rezultatus nei spalvotas, naudojant gryną OCR, nes sumažina vaizdinį triukšmą.
Galiausiai įsitikinkite, kad dokumentas yra teisingai sulygiuotas ant skaitytuvo stikloJei popierius kreivas, teksto eilučių iškraipymas gali „supainioti“ atpažinimo variklį ir sukelti konvertavimo klaidų.
Konvertuokite nuskaitytą PDF failą į tekstą naudodami „PDFelement“, internetu ir „Google“
Kita dažna užduotis – nuskaitytą PDF failą tiesiogiai konvertuoti į paprastas tekstas (.txt), kad jį būtų galima apdoroti bet kuriame redaktoriuje„PDFelement“ šį procesą labai palengvina dėl savo OCR modulio ir konvertavimo meniu.
Kai importuosite nuskaitytą PDF failą į „PDFelement“, programa paklaus, ar norite Taikyti OCR dokumentuiSutikdami galėsite pasirinkti turinio kalbą ir išvesties tipą: redaguojamą tekstą arba tiesiog ieškomą tekstą PDF faile.
Po atpažinimo, jei norite sugeneruoti .txt failą, tiesiog eikite į meniu „Konvertuoti“ ir pasirinkite parinktį „Į tekstą“Tai sukuria paprasto teksto dokumentą, kuriame galite lengvai ieškoti pagal raktinius žodžius, išvalyti turinį, pakartotinai jį naudoti kituose projektuose arba saugoti sistemose, kuriose nereikia tvarkyti PDF formato.
Jei pageidaujate kažko visiškai internetinio, galite kreiptis į HiPDF su OCR įrankiuĮkeliate PDF failą, nurodote kalbą ir išvesties formatą (pvz., .txt), pradedate konvertavimą ir, baigę, atsisiunčiate iš nuskaityto PDF failo sugeneruotą tekstinį failą.
Kaip nemokama, debesijos pagrindu veikianti alternatyva, „Google“ diskas ir „Google“ dokumentai Jie taip pat leidžia konvertuoti nuskaitytus PDF failus į tekstą. Įkeliate PDF failą, atidarote jį naudodami „Google“ dokumentus, sistema paleidžia savo OCR ir gaunate „Google“ dokumentą su ištrauktu tekstu. Iš ten galite jį nukopijuoti, redaguoti arba atsisiųsti kitais formatais, pvz., .docx, .odt ar net HTML.
Nepaisant šių internetinių alternatyvų, subtilesniam darbui, dokumentams su jautriais duomenimis arba nuolatiniams profesiniams darbo eigoms paprastai labiau tinka darbalaukio aplinka, pvz., „PDFelement“, nes Nekeldami failų į išorinius serverius išvengsite privatumo problemų. ir jūs turite didesnę proceso ir rezultato kontrolę.
Trumpai tariant, jei dažnai dirbate su nuskaityti PDF failai, kuriuos reikia redaguoti, ieškoti arba konvertuotiGeras OCR modulis daro didžiulį skirtumą. Tokios priemonės kaip „Wondershare PDFelement“ sujungia greitą ir tikslų atpažinimą, tiesioginį PDF redagavimą, konvertavimą į kelis formatus ir išplėstines parinktis, tokias kaip OCR sritis ir paketinis apdorojimas, leisdamos pereiti nuo paprastų dokumentų „momentinių kopijų“ prie visiškai redaguojamos ir pakartotinai naudojamos informacijos valdymo be jokio vargo.
Aistringas rašytojas apie baitų pasaulį ir technologijas apskritai. Man patinka dalytis savo žiniomis rašydamas, būtent tai ir darysiu šiame tinklaraštyje, parodysiu jums įdomiausius dalykus apie programėles, programinę įrangą, techninę įrangą, technologijų tendencijas ir kt. Mano tikslas – padėti jums paprastai ir smagiai naršyti skaitmeniniame pasaulyje.



