- Një PDF i skanuar është në të vërtetë një imazh dhe ka nevojë për OCR që të bëhet i modifikueshëm ose i kërkueshëm.
- Wondershare PDFelement ofron OCR të fuqishëm në modalitete të modifikueshme, të kërkueshme dhe specifike për zonën.
- Ekzistojnë alternativa të tilla si HiPDF online, Word, Google Docs ose Adobe, me kufizime të ndryshme.
- Cilësia e skanimit (rezolucioni, kontrasti dhe shtrirja) është thelbësore për të marrë një OCR të saktë.
Nëse keni hasur ndonjëherë një PDF e skanuar që duhet të korrigjoni ose përditësoniE dini sa frustruese është të mos jesh në gjendje të zgjedhësh ose ndryshosh tekstin. Në shikim të parë, duket si një dokument normal, por ajo që keni në të vërtetë para jush është një imazh i integruar brenda një PDF-je, plotësisht i bllokuar nga redaktimi.
Lajmi i mirë është se sot është shumë e lehtë Konvertoni atë PDF të skanuar në një skedar të modifikueshëm duke përdorur teknologjinë OCR (Njohja Optike e Karaktereve). Dhe një nga programet më të plota për ta bërë këtë, si në Windows ashtu edhe në Mac, është Wondershare PDFelement, i cili integron një motor OCR shumë të fuqishëm, madje i disponueshëm në versionin e tij provë Professional, kështu që mund ta provoni para se ta blini.
Çfarë është OCR dhe pse nuk mund të modifikoj një PDF të skanuar?
Kur skanoni një dokument në letër, skaneri gjeneron një Fotografi e përmbajtjes (tekst, grafikë, tabela, nënshkrime…)Ky rezultat ruhet si imazh ose si PDF i bazuar në imazhe. Për qëllime praktike, kompjuteri e sheh këtë si piksel, jo tekst, kështu që nuk mund të theksoni, kopjoni ose modifikoni një fjalë.
Kjo është arsyeja pse shumë njerëz pyesin veten: "Pse nuk mund ta modifikoj një PDF të skanuar?"Arsyeja është e thjeshtë: PDF-ja e skanuar nuk përmban karaktere teksti, vetëm një imazh. Nuk ka asgjë që një redaktues teksti mund ta njohë dhe ndryshojë drejtpërdrejt.
Teknologjia e Njohjes Optike të Karaktereve (OCR) shërben pikërisht për këtë qëllim: Analizon imazhin, identifikon çdo karakter dhe e konverton atë në tekst dixhital.Pasi të aplikohet OCR, përmbajtja bëhet e selektueshme, e modifikueshme dhe gjithashtu mund të kërkohet brenda dokumentit.
Zbatimi i OCR lejon transformimin PDF të skanuara, fotografi të dokumenteve ose formularë të shkruar me dorë në dokumente plotësisht të modifikueshme, duke ruajtur pamjen origjinale sa më shumë që të jetë e mundur. Kjo lehtëson detyra të tilla si korrigjimet, përditësimet e të dhënave, arkivimin dixhital ose nxjerrjen e informacionit në formate të tjera.
Redaktimi i tekstit të një PDF-je të skanuar me Wondershare PDFelement (modaliteti i redaktueshëm)
Wondershare PDFelement është një redaktues PDF shumë i plotë që përfshin një Modul profesional OCR i pajtueshëm me më shumë se 20 gjuhë (Spanjisht, Anglisht, Frëngjisht, Gjermanisht, Italisht, Portugalisht, Arabisht, Rusisht, Çekisht, Turqisht, Koreanisht, Indonezisht, etj.). Funksioni OCR PDF është i disponueshëm në versionin provë të PDFelement Professional, kështu që mund ta provoni falas përpara se të vendosni nëse do ta blini.
Kur hapni një skedar PDF të skanuar ose të bazuar në imazhe, PDFelement zbulon automatikisht se është një dokument i skanuar Pastaj shfaq një sugjerim në krye të dritares për të filluar njohjen OCR. Nga aty, mund të zgjidhni modalitetin më të përshtatshëm në varësi të asaj që duhet të bëni me skedarin.
Nëse qëllimi juaj është Redaktoni përmbajtjen e PDF-së, modifikoni frazat, korrigjoni gabimet ose ndryshoni imazhet.Ajo që ju intereson është modaliteti "Skano në Tekst të Ndryshueshëm". Me këtë modalitet, PDFelement gjeneron një PDF të ri në të cilin i gjithë teksti i njohur mund të modifikohet sikur të ishte një dokument i krijuar fillimisht në mënyrë dixhitale.
Për të aplikuar OCR të modifikueshëm në PDFelement, procedura është shumë e thjeshtë: hapni dokumentin e skanuar, shkoni te menyja e mjeteve OCR, Ju zgjidhni modalitetin e konvertimit të tekstit të modifikueshëm dhe zgjidhni gjuhën e saktë. të përmbajtjes (kjo rrit shumë saktësinë) dhe, nëse dëshironi, mund të përcaktoni gamën e faqeve në të cilat dëshironi të ekzekutoni njohjen.
Kur klikoni "zbato", programi shfaq një shirit progresi dhe pas përfundimit të procesit, PDF-ja e re e modifikueshme hapet automatikisht.Pastaj thjesht klikoni në modalitetin "Redakto" për të filluar ndryshimin e tekstit, shtimin e paragrafëve të rinj, fshirjen e pjesëve që nuk dëshironi ose retushimin e imazheve dhe diagrameve.
Modaliteti OCR i kërkueshëm: Bëjeni një PDF të skanuar të kërkueshëm dhe të përzgjedhshëm
Duke filluar me versionin 6.3.0 të PDFelement Professional, u shtua një tjetër opsion shumë interesant: Modaliteti i kërkimit OCRKjo mënyrë është projektuar për ata që nuk kanë nevojë të riformatojnë ose ndryshojnë tekstin, por duan të jenë në gjendje të kërkojnë, zgjedhin dhe kopjojnë fragmente të dokumentit.
Në këtë rast, kur shkoni në menynë OCR brenda PDFelement, zgjidhni opsionin "Skano për të kërkuar tekst në imazh"Rezultati është një PDF që vizualisht mbetet praktikisht i njëjtë (imazhi origjinal ruhet), por poshtë tij është ngulitur një shtresë teksti e padukshme që ju lejon të gjeni fjalët me shkurtesa si Ctrl+F.
Pasi të jetë krijuar skedari i ri i kërkimit OCR, do të jeni në gjendje të Zgjidhni çdo bllok teksti, kopjojeni atë në kujtesën e përkohshme dhe ngjiteni atë në një dokument Word, një email ose çdo mjet që preferoni. Është një zgjidhje shumë e dobishme nëse punoni me manuale, kontrata ose dokumente të gjata ku gjetja e informacionit specifik është thelbësore.
Kjo qasje është veçanërisht praktike kur dëshironi ruaj 100% të dizajnit origjinal të dokumentit (vula, filigrana, firma, etj.), por në të njëjtën kohë duhet të punoni me përmbajtjen tekstuale për pyetje të shpejta.
Zona OCR në PDFelement: njeh vetëm një pjesë të dokumentit
Nuk është gjithmonë e nevojshme të aplikohet OCR në të gjithë dokumentin. Me funksionin PDFelement “Zona OCR” Mund ta kufizoni njohjen vetëm në një zonë specifike të faqes, gjë që kursen kohë përpunimi dhe është shumë e përshtatshme kur duhet të nxirrni të dhëna vetëm nga një pjesë e PDF-së.
Funksionon thjesht: hapni imazhin ose PDF-në e skanuar, keni akses “Mjet > Zona OCR” Pastaj zvarrit me miun për të zgjedhur drejtkëndëshin që përmban tekstin që dëshiron të njohësh. Është ideal për tabela, kolona specifike, fundfaqe ose formularë brenda një faqeje me shumë elementë grafikë.
Në anën e djathtë të dritares do të shihni panelin e vetive, nga i cili mundeni zgjidhni gjuhën e njohjes për atë zonë specifike. Pastaj thjesht duhet të klikoni te "Njohja" për PDFelement për të përpunuar përmbajtjen dhe për ta kthyer atë në tekst të redaktueshëm ose të kërkueshëm, varësisht nga mënyra e zgjedhur.
Ky funksion i zonës OCR është veçanërisht i dobishëm kur punoni me formularë të skanuar, fatura, shënime dërgesash ose raporte nga të cilat ju duhet të importoni vetëm fusha të caktuara të të dhënave në një spreadsheet ose në një sistem tjetër menaxhimi.
Udhëzues hap pas hapi: si të modifikoni një PDF të skanuar në Windows dhe Mac me PDFelement
Edhe pse termi OCR mund të tingëllojë teknik, në PDFelement procesi është mjaft i udhëhequr dhe i reduktuar në vetëm disa hapa. Më poshtë është rrjedha tipike e punës për Redaktimi i dokumenteve të skanuara PDF në Windows 11 dhe macOS duke përdorur këtë program.
Hapi i parë është që të importo skedarin PDF te programi. Kur të hapni PDFelement, mund të përdorni butonin "Hap" që ndodhet në pjesën e poshtme majtas të dritares fillestare, të lundroni nëpër dosjet tuaja, të zgjidhni PDF-në e skanuar dhe ta ngarkoni atë.
Sapo zbulon se dokumenti është i bazuar në imazh, PDFelement shfaq një njoftim që sugjeron kryej OCRNëse klikoni te “Kryej OCR”, programi do t'ju kërkojë të zgjidhni gjuhën e përmbajtjes (është thelbësore të tregoni gjuhën e saktë për të maksimizuar saktësinë, veçanërisht nëse ka thekse ose karaktere të veçanta).
Pasi të përfundojë skanimi, skedari bëhet i modifikueshëm. Nga menyja Nën "Redakto" mund të qaseni te mjetet e redaktimit të tekstit dhe objektitNë këtë mënyrë, mund të klikoni në çdo paragraf për të shtuar ose fshirë fjalë, për të ndryshuar formatin e tekstit ose për të futur blloqe të reja me opsionin e shtimit të tekstit.
Përveç kësaj, PDFelement ju lejon të manipuloni imazhe, forma, grafikë dhe elementë të tjerë. Duke përdorur opsionin për të "Modifikimi i objekteve" ju lejon të lëvizni, prisni, rrotulloni ose fshini imazhesi dhe futjen e imazheve të reja në dokument kur është e nevojshme.
Ndërsa jeni duke punuar, është e rëndësishme të ruani ndryshimet tuaja. Mund të përdorni Ctrl + S për të ruajtur në të njëjtin skedar ose përdorni "Skedar > Ruaj si" për të krijuar një kopje të re, zgjidhni një dosje destinacioni tjetër ose versiononi dokumentin pa humbur origjinalin.
Si të modifikoni një PDF të skanuar në internet me HiPDF
Nëse preferoni të mos instaloni asgjë në kompjuterin tuaj, një mundësi interesante është të përdorni HiPDF, platforma online e lidhur me ekosistemin WondershareKjo faqe interneti ofron një mjet specifik OCR online që ju lejon të përpunoni PDF-të e skanuara direkt nga shfletuesi juaj.
Procesi është i thjeshtë: hyni në faqen zyrtare të internetit të HiPDF, kërkoni seksionin mbi "OCR Online" Ju e ngarkoni skedarin tuaj duke përdorur butonin "Zgjidh skedarin" ose duke e zvarritur atë në dritaren e shfletuesit. Pasi të jetë ngarkuar, ju konfiguroni gjuhën e dokumentit dhe formatin e daljes (për shembull, tekst i thjeshtë ose një PDF i kërkueshëm) dhe klikoni "Konverto".
Kur konvertimi të përfundojë, do të jeni në gjendje të shkarkoni skedarin e përpunuar në pajisjen tuaj. Kjo zgjidhje ka disa përparësi: duke qenë online, funksionon si në Windows ashtu edhe në Mac, madje edhe nga sisteme të tjera, dhe transferimi mbrohet nga enkriptimi SSL 256-bit.
HiPDF gjithashtu lejon përpunimi i grupeve Versioni me pagesë është i dobishëm nëse punoni me vëllime të mëdha PDF-sh të skanuara. Megjithatë, versioni falas ka disa kufizime në lidhje me veçoritë dhe madhësinë e skedarit, dhe gjithashtu shfaq reklama, gjë që duhet ta mbani mend nëse kërkoni një përvojë plotësisht të pastër.
Redaktoni një PDF të skanuar me Word, Google Docs dhe alternativa të tjera
Edhe pse PDFelement dhe HiPDF ofrojnë një përvojë shumë të plotë, ekzistojnë metoda të tjera për punoni me PDF të skanuara duke përdorur mjete që mund t'i keni tashmësiç janë Microsoft Word, Google Docs ose Adobe Acrobat, si dhe redaktorë të tjerë me OCR të integruar dhe udhëzues për Redaktoni një PDF falas pa një filigran.
Në rastin e Microsoft Wordështë e mundur Hapni një PDF direkt në Word Nga “File > Open”. Word do t'ju paralajmërojë se do ta konvertojë PDF-në në një dokument të modifikueshëm. Kjo metodë mund të funksionojë në mënyrë të pranueshme me PDF të thjeshta dhe me cilësi të mirë, por mbani mend se Word Nuk kryen OCR të vërtetë në imazhe kompleksePrandaj, një PDF i skanuar me rezolucion të ulët, tekst të turbullt ose shumë grafikë mund të humbasë formatimin ose të mos njihet saktë.
Nga ana e saj, Google Docs përfshin OCR-në e vet brenda Google DrivePasi ta keni ngarkuar PDF-në e skanuar në diskun tuaj, mund të klikoni me të djathtën mbi të dhe të zgjidhni "Hap me > Dokumentet Google". Sistemi do të përpiqet ta konvertojë skedarin në një dokument teksti të modifikueshëm duke njohur përmbajtjen e imazhit.
Mbështetjet e OCR-së së Google më shumë se 200 gjuhëMegjithatë, ka kufizime të caktuara në madhësi (për shembull, nuk mbështet skedarë shumë të mëdhenj) dhe kërkon që teksti të ketë një lartësi minimale pikseli për t'u zbuluar me saktësi. Për më tepër, elementë të tillë si tabelat, kolonat, shënimet në fund të faqes ose formatimi kompleks shpesh humbasin ose shtrembërohen.
Një referencë tjetër klasike është Adobe AcrobatAcrobat përfshin një funksion gjithëpërfshirës OCR të integruar në mjetin e tij "Skano & OCR". Kur hapni një PDF të skanuar, Acrobat zakonisht shfaq një njoftim për të filluar procesin e njohjes. Nga mjeti përkatës, mund të zgjidhni gjuhën e tekstit, të përcaktoni se cilat faqe do të përpunohen dhe, pasi të ekzekutoni OCR-në, të vazhdoni me redaktimin e PDF-së.
Adobe ofron një ndërfaqe profesionale, shërbime cloud dhe veçori të avancuara të nënshkrimit dhe drejtimit të dokumenteveMegjithatë, modeli i tij i abonimit është më i shtrenjtë se alternativat e tjera dhe nuk është gjithmonë opsioni më i thjeshtë për përdoruesit që kanë nevojë të modifikojnë PDF-të vetëm herë pas here.
Ekzistojnë edhe programe të tjera si p.sh. Redaktuesi PDF Nitro (Nitro Pro)Ky mjet ju lejon të shtoni, fshini dhe rirregulloni përmbajtjen, të aplikoni OCR-në dhe të manipuloni faqet (rrotulloni, nxirrni, futni, etj.), dhe është projektuar kryesisht për përdoruesit e Windows. Është funksional, por i kushtueshëm dhe mund të ngecë me dokumente shumë të mëdha kur përdoret OCR.
Një mjet tjetër është Redaktuesi PDF i ApowerGjithashtu përfshin njohjen e tekstit, funksionet e kokës dhe fundit të faqes, menaxhimin e formularëve dhe manipulimin e faqeve. Ndërsa ndërfaqja e tij mund të mos jetë shumë e rafinuar dhe dokumentet shumë të mëdha ngarkohen disi ngadalë, ai ofron një zgjidhje falas për redaktimin e PDF-ve të skanuara në Windows.
Çfarë mund të bëjë PDFelement me PDF-të e skanuara dhe OCR-në?
Përtej aplikimit të thjeshtë të OCR rast pas rasti, PDFelement është projektuar si një stacion pune i plotë për PDF-të e skanuaraMotori i tij i njohjes optike jo vetëm që i transformon PDF-të në skedarë të modifikueshëm, por gjithashtu ruan një ekuilibër midis saktësisë, shpejtësisë dhe besnikërisë vizuale.
Një nga karakteristikat e saj kryesore është mundësia e modifikoni drejtpërdrejt tekstin e njohur brenda vetë PDF-së.Ndryshe nga zgjidhjet e tjera ku OCR gjeneron vetëm një skedar të veçantë, në PDFelement ju punoni në vetë dokumentin, duke ruajtur shkronjat, madhësitë e shkronjave dhe strukturën e paragrafëve sa herë që është e mundur.
Është gjithashtu i aftë të transformojë Imazhe (JPG, PNG, etj.) që përmbajnë tekst në dokumente të modifikueshme në formate të ndryshme të Microsoft Office, si p.sh. Word pa humbur formatiminExcel ose PowerPoint. Kjo është shumë e dobishme kur, për shembull, faturat ose raportet skanohen si imazhe dhe më pas dëshironi t'i përpunoni ato të dhëna në një spreadsheet.
Një tjetër veçori e përparuar është nxjerrja e të dhënave nga formularët e skanuar. PDFelement mund të Lexoni fushat e formularit dhe eksportoni atë informacion në një spreadsheet Excel mund të modifikohet në mënyrë perfekte, duke përshpejtuar shumë punën e dixhitalizimit të anketave, aplikimeve ose të dhënave në letër.
Përveç kësaj, programi lejon përpunim në grup i PDF-ve të skanuara të shumëfishtaThjesht shtoni të gjitha skedarët që dëshironi të konvertoni, zgjidhni gjuhën, përcaktoni dosjen e destinacionit dhe filloni procesin. Softueri do të aplikojë automatikisht OCR në çdo dokument dhe do ta ruajë atë si një skedar të lexueshëm dhe të modifikueshëm pa pasur nevojë të monitoroni secilin prej tyre individualisht.
Këshilla për përmirësimin e rezultateve të OCR-së
Cilësia e OCR-së varet kryesisht nga mënyra se si është kryer skanimi origjinal. Prandaj, këshillohet të ndiqni një sërë udhëzimesh. praktikat më të mira për të marrë njohjen më të mirë të mundshme kur do të përpunoni PDF-të e skanuara me PDFelement ose një mjet tjetër të ngjashëm.
Përpara dixhitalizimit të një grupi të madh dokumentesh, rekomandohet fuqimisht Testoni me një faqe të vetme duke përdorur konfigurime të ndryshme (rezolucioni, ngjyra, kontrasti) dhe ekzekutoni OCR-në për të parë se cili cilësim ofron saktësinë më të madhe. Nga aty, e përdorni atë konfigurim për pjesën tjetër të faqeve.
Në përgjithësi, skanohet me rezolucion midis 300 dhe 600 dpi Ato ofrojnë rezultate shumë më të mira të OCR-së. Nëse skanoni me një rezolucion më të ulët, teksti mund të duket i turbullt ose i pikseluar, dhe motori i njohjes do të ketë më shumë vështirësi në dallimin e karaktereve të ngjashme.
Është gjithashtu e rëndësishme t'i kushtohet vëmendje kontrastit. Tekstet e vendosura më sipër sfonde shumë të errëta ose shumë të ndritshme Ato mund të mos njihen lehtë sepse ndryshimi midis ngjyrës së tekstit dhe sfondit është i pamjaftueshëm. Në këto raste, këshillohet të rregulloni shkëlqimin dhe kontrastin në skaner për të përmirësuar lexueshmërinë.
Sa herë që është e mundur, përdorni modaliteti bardhë e zi (ose shkalla gri e konfiguruar siç duhet) Për dokumente vetëm me tekst. Zakonisht ofron rezultate më të mira sesa ngjyra për OCR të pastër, pasi zvogëlon zhurmën vizuale.
Së fundmi, sigurohuni që dokumenti është të rreshtuara saktë në xhamin e skaneritNëse letra është e shtrembër, shtrembërimi i rreshtave të tekstit mund të "ngatërrojë" motorin e njohjes dhe të shkaktojë gabime në konvertim.
Konvertoni një PDF të skanuar në tekst me PDFelement, në internet dhe me Google
Një detyrë tjetër e zakonshme është konvertimi i një PDF-je të skanuar direkt në tekst i thjeshtë (.txt) në mënyrë që të mund të përpunohet në çdo redaktuesPDFelement e bën këtë proces shumë më të lehtë falë modulit të tij OCR dhe menysë së konvertimit.
Kur importoni një PDF të skanuar në PDFelement, programi do t'ju pyesë nëse dëshironi ta... Aplikoni OCR në dokumentDuke pranuar, do të jeni në gjendje të zgjidhni gjuhën e përmbajtjes dhe llojin e daljes: tekst i modifikueshëm ose tekst thjesht i kërkueshëm brenda PDF-së.
Pas njohjes, nëse doni të gjeneroni një skedar .txt, thjesht shkoni te menyja "Konverto" dhe zgjidh opsionin "Në tekst"Kjo krijon një dokument me tekst të thjeshtë ku mund të kërkoni lehtësisht për fjalë kyçe, të pastroni përmbajtjen, ta ripërdorni atë në projekte të tjera ose ta ruani atë në sisteme ku nuk keni nevojë të mirëmbani formatin PDF.
Nëse preferoni diçka tërësisht online, mund të drejtoheni te HiPDF me mjetin e tij OCRJu ngarkoni PDF-në, specifikoni gjuhën dhe formatin e daljes (p.sh., .txt), filloni konvertimin dhe, pasi të keni mbaruar, shkarkoni skedarin tekstual të gjeneruar nga PDF-ja e skanuar.
Si një alternativë falas, e bazuar në cloud, Google Drive dhe Google Docs Ato gjithashtu ju lejojnë të konvertoni PDF-të e skanuara në tekst. Ju ngarkoni PDF-në, e hapni atë me Google Docs, sistemi ekzekuton OCR-në e vet dhe merrni një dokument Google me tekstin e nxjerrë. Nga atje, mund ta kopjoni, modifikoni ose shkarkoni atë në formate të tjera si .docx, .odt ose edhe HTML.
Pavarësisht këtyre alternativave online, për punë më delikate, dokumente me të dhëna të ndjeshme ose rrjedha pune profesionale të vazhdueshme, një mjedis desktopi si PDFelement është zakonisht më i këshillueshëm, pasi Ju shmangni problemet e privatësisë duke mos ngarkuar skedarë në servera të jashtëm. dhe keni kontroll më të madh mbi procesin dhe rezultatin.
Shkurt, nëse punoni shpesh me PDF-të e skanuara që duhet të modifikoni, kërkoni ose konvertoniTë kesh një motor të mirë OCR bën një ndryshim të madh. Mjete si Wondershare PDFelement kombinojnë njohje të shpejtë dhe të saktë, redaktim të drejtpërdrejtë të PDF-ve, konvertim në formate të shumëfishta dhe opsione të përparuara si zona OCR dhe përpunim në grup, duke ju lejuar të kaloni nga të paturit e "fotografive" të thjeshta të dokumenteve në menaxhimin e informacionit plotësisht të redaktueshëm dhe të ripërdorshëm pa asnjë telashe.
Shkrimtar i apasionuar pas botës së bajteve dhe teknologjisë në përgjithësi. Më pëlqen të ndaj njohuritë e mia përmes shkrimit, dhe kjo është ajo që do të bëj në këtë blog, duke ju treguar të gjitha gjërat më interesante në lidhje me pajisjet, softuerin, harduerin, tendencat teknologjike dhe më shumë. Qëllimi im është t'ju ndihmoj të lundroni në botën dixhitale në një mënyrë të thjeshtë dhe argëtuese.



