- En skannad PDF är egentligen en bild och behöver OCR för att bli redigerbar eller sökbar.
- Wondershare PDFelement erbjuder kraftfull OCR i redigerbara, sökbara och områdesspecifika lägen.
- Det finns alternativ som HiPDF online, Word, Google Docs eller Adobe, med andra begränsningar.
- Skanningens kvalitet (upplösning, kontrast och justering) är nyckeln till att få korrekt OCR.
Om du någonsin har stött på en skannad PDF som du behöver korrigera eller uppdateraDu vet hur frustrerande det är att inte kunna markera eller ändra text. Vid första anblicken ser det ut som ett vanligt dokument, men det du faktiskt har framför dig är en bild inbäddad i en PDF, helt låst från redigering.
Den goda nyheten är att det är väldigt enkelt nuförtiden Konvertera den skannade PDF-filen till en redigerbar fil med hjälp av OCR-teknik (Optisk teckenigenkänning). Och ett av de mest kompletta programmen för att göra detta, både på Windows och Mac, är Wondershare PDFelement, som integrerar en mycket kraftfull OCR-motor, till och med tillgänglig i sin professionella testversion så att du kan prova det innan du köper.
Vad är OCR och varför kan man inte redigera en skannad PDF?
När du skannar ett pappersdokument genererar skannern en Fotografi av innehållet (text, grafik, tabeller, signaturer…)Resultatet sparas som en bild eller som en bildbaserad PDF. I praktiken är det för datorn inte text, utan pixlar, så du kan inte markera, kopiera eller ändra ett ord.
Det är därför många frågar sig: "Varför kan jag inte redigera en skannad PDF?"Anledningen är enkel: den skannade PDF-filen innehåller inga texttecken, bara en bild. Det finns inget som en textredigerare kan känna igen och ändra direkt.
Optisk teckenigenkänningsteknik (OCR) tjänar just detta syfte: Den analyserar bilden, identifierar varje tecken och omvandlar den till digital text.När OCR har tillämpats blir innehållet valbart, redigerbart och kan även sökas i dokumentet.
Att använda OCR möjliggör transformation skannade PDF-filer, fotografier av dokument eller handskrivna formulär i helt redigerbara dokument, och bevara det ursprungliga utseendet så mycket som möjligt. Detta underlättar uppgifter som korrigeringar, datauppdateringar, digital arkivering eller extrahering av information till andra format.
Redigera texten i en skannad PDF med Wondershare PDFelement (redigerbart läge)
Wondershare PDFelement är en mycket komplett PDF-redigerare som inkluderar en Professionell OCR-modul kompatibel med mer än 20 språk (Spanska, engelska, franska, tyska, italienska, portugisiska, arabiska, ryska, tjeckiska, turkiska, koreanska, indonesiska, etc.). OCR PDF-funktionen finns tillgänglig i testversionen av PDFelement Professional, så du kan prova den gratis innan du bestämmer dig för om du vill köpa den.
När du öppnar en skannad eller bildbaserad PDF-fil, PDFelement detekterar automatiskt att det är ett skannat dokument Sedan visas ett förslag högst upp i fönstret om att starta OCR-igenkänning. Därifrån kan du välja det lämpligaste läget beroende på vad du behöver göra med filen.
Om ditt mål är Redigera PDF-innehåll, ändra fraser, korrigera fel eller ändra bilder.Det du är intresserad av är läget "Skanna till redigerbar text". Med det här läget genererar PDFelement en ny PDF där all tolkad text kan modifieras som om det vore ett dokument som ursprungligen skapades digitalt.
För att använda redigerbar OCR i PDFelement är flödet mycket enkelt: öppna det skannade dokumentet, gå till OCR-verktygsmenyn, Du väljer konverteringsläget för redigerbar text och väljer rätt språk. av innehållet (detta ökar noggrannheten avsevärt) och, om du vill, kan du definiera intervallet av sidor som du vill köra igenkänningen på.
När du klickar på "verkställ" visar programmet en förloppsindikator, och när processen är klar, Den nya redigerbara PDF-filen öppnas automatiskt.Klicka sedan helt enkelt på "Redigera"-läget för att börja ändra text, lägga till nya stycken, ta bort delar du inte vill ha eller retuschera bilder och diagram.
Sökbart OCR-läge: Gör en skannad PDF sökbar och valbar
Från och med version 6.3.0 av PDFelement Professional har ytterligare ett mycket intressant alternativ lagts till: OCR-söklägeDet här läget är utformat för dem som inte behöver formatera om eller ändra texten, men som vill kunna söka, välja och kopiera fragment av dokumentet.
I det här fallet, när du går till OCR-menyn i PDFelement, väljer du alternativet "Skanna för att söka text i bild"Resultatet är en PDF som visuellt förblir i stort sett densamma (originalbilden behålls), men under finns ett osynligt textlager inbäddat som låter dig hitta ord med kortkommandon som Ctrl+F.
När den nya OCR-sökfilen har skapats kan du Markera valfritt textblock och kopiera det till urklipp och klistra in det i ett Word-dokument, ett e-postmeddelande eller något annat verktyg du föredrar. Det är en mycket användbar lösning om du arbetar med manualer, kontrakt eller långa dokument där det är avgörande att hitta specifik information.
Denna metod är särskilt praktisk när du vill bevara 100 % av den ursprungliga dokumentdesignen (sigill, vattenstämplar, signaturer etc.), men samtidigt behöver du arbeta med textinnehållet för snabba frågor.
OCR-område i PDFelement: tolka endast en del av dokumentet
Det är inte alltid nödvändigt att använda OCR på ett helt dokument. Med funktionen PDFelement “OCR-område” Du kan begränsa igenkänningen till endast ett specifikt område av sidan, vilket sparar bearbetningstid och är mycket bekvämt när du bara behöver extrahera data från en del av PDF-filen.
Det fungerar enkelt: du öppnar bilden eller den skannade PDF-filen, du får åtkomst “Verktyg > OCR-område” Sedan drar du med musen för att markera rektangeln som innehåller den text du vill tolka. Det är idealiskt för tabeller, specifika kolumner, sidfot eller formulär på en sida med många grafiska element.
På höger sida av fönstret ser du egenskapspanelen, där du kan välj igenkänningsspråk för det specifika området. Sedan behöver du bara klicka på "Igenkänn" för att PDFelement ska bearbeta innehållet och konvertera det till redigerbar eller sökbar text, beroende på valt läge.
Denna OCR-funktion är särskilt användbar när man arbetar med skannade blanketter, fakturor, följesedlar eller rapporter varav du bara behöver importera vissa datafält till ett kalkylblad eller ett annat hanteringssystem.
Steg-för-steg-guide: hur man redigerar en skannad PDF på Windows och Mac med PDFelement
Även om termen OCR kan låta teknisk, är processen på PDFelement ganska guidad och reducerad till bara några få steg. Nedan följer det typiska arbetsflödet för Redigera skannade PDF-dokument i Windows 11 och macOS med hjälp av det här programmet.
Det första steget är att importera PDF-filen till programmet. När du startar PDFelement kan du använda knappen ”Öppna” längst ner till vänster i startfönstret, navigera genom dina mappar, välja den skannade PDF-filen och ladda upp den.
Så snart PDFelement upptäcker att dokumentet är bildbaserat visar det ett popup-meddelande som föreslår utför OCROm du klickar på ”Utför OCR” kommer programvaran att be dig välja språk för innehållet (det är avgörande att ange rätt språk för att maximera noggrannheten, särskilt om det finns accenter eller specialtecken).
När skanningen är klar blir filen redigerbar. Från menyn Under ”Redigera” kan du komma åt redigeringsverktygen för text och objektPå så sätt kan du klicka på valfritt stycke för att lägga till eller ta bort ord, ändra textformatet eller infoga nya block med alternativet "Lägg till text".
Dessutom låter PDFelement dig manipulera bilder, former, grafik och andra element. Genom att använda alternativet för att Med "Redigera objekt" kan du flytta, beskära, rotera eller ta bort bildersamt att infoga nya bilder i dokumentet när det behövs.
Medan du arbetar är det viktigt att spara dina ändringar. Du kan använda Ctrl + S för att spara till samma fil eller använd "Arkiv > Spara som" för att skapa en ny kopia, välja en annan målmapp eller versionsredigera dokumentet utan att förlora originalet.
Hur man redigerar en skannad PDF online med HiPDF
Om du föredrar att inte installera något på din dator är ett intressant alternativ att använda HiPDF, onlineplattformen kopplad till Wondershare-ekosystemetDen här webbplatsen erbjuder ett specifikt OCR-verktyg online som låter dig bearbeta skannade PDF-filer direkt från din webbläsare.
Processen är enkel: du går in på den officiella HiPDF-webbplatsen, letar efter avsnittet om "Online OCR" Du laddar upp din fil med knappen "Välj fil" eller genom att dra den till webbläsarfönstret. När den är uppladdad konfigurerar du dokumentspråk och utdataformat (till exempel vanlig text eller en sökbar PDF) och klickar på "Konvertera".
När konverteringen är klar kommer du att kunna ladda ner den bearbetade filen till din enhet. Den här lösningen har flera fördelar: eftersom den är online fungerar den på både Windows och Mac, och även från andra system, och överföringen är skyddad av 256-bitars SSL-kryptering.
HiPDF tillåter också satsvis bearbetning Betalversionen är praktisk om du arbetar med stora volymer skannade PDF-filer. Gratisversionen har dock vissa begränsningar vad gäller funktioner och filstorlek, och den visar även annonser, vilket är något att tänka på om du letar efter en helt ren upplevelse.
Redigera en skannad PDF med Word, Google Docs och andra alternativ
Även om PDFelement och HiPDF erbjuder en mycket komplett upplevelse finns det andra metoder för arbeta med skannade PDF-filer med hjälp av verktyg du kanske redan harsåsom Microsoft Word, Google Docs eller Adobe Acrobat, såväl som andra redigerare med integrerad OCR och guider för Redigera en PDF gratis utan vattenstämpel.
I fallet med Microsoft Wordär möjligt Öppna en PDF direkt i Word Från ”Arkiv > Öppna”. Word kommer att varna dig om att PDF-filen kommer att konverteras till ett redigerbart dokument. Den här metoden kan fungera bra med enkla PDF-filer av god kvalitet, men kom ihåg att Word Den utför inte riktig OCR på komplexa bilderDärför kan en skannad PDF med låg upplösning, suddig text eller mycket grafik förlora formatering eller inte kännas igen korrekt.
För sin del, Google Dokument har en egen OCR-funktion i Google Drive.När du har laddat upp den skannade PDF-filen till din hårddisk kan du högerklicka på den och välja "Öppna med > Google Dokument". Systemet kommer att försöka konvertera filen till ett redigerbart textdokument genom att känna igen bildinnehållet.
Googles OCR-stöd mer än tio språkDen har dock vissa storleksbegränsningar (till exempel stöder den inte särskilt stora filer) och kräver att texten har en viss pixelhöjd för att kunna detekteras korrekt. Dessutom går element som tabeller, kolumner, fotnoter eller komplex formatering ofta förlorade eller förvrängda.
En annan klassisk referens är Adobe AcrobatAcrobat har en omfattande OCR-funktion integrerad i verktyget "Skanna och OCR". När du öppnar en skannad PDF visar Acrobat vanligtvis ett meddelande om att starta igenkänningsprocessen. Från motsvarande verktyg kan du välja textspråk, definiera vilka sidor som ska bearbetas och, efter att ha kört OCR, fortsätta med att redigera PDF-filen.
Adobe erbjuder en professionellt gränssnitt, molntjänster och avancerade funktioner för dokumentsignering och routingPrenumerationsmodellen är dock dyrare än andra alternativ och är inte alltid det enklaste alternativet för användare som bara behöver redigera PDF-filer ibland.
Det finns även andra program som t.ex. Nitro PDF-redigerare (Nitro Pro)Det här verktyget låter dig lägga till, ta bort och ordna om innehåll, använda OCR och manipulera sidor (rotera, extrahera, infoga etc.) och är främst utformat för Windows-användare. Det är funktionellt, men dyrt och kan krascha med mycket stora dokument när du använder OCR.
Ett annat verktyg är Apower PDF-redigerareDen inkluderar även textigenkänning, sidhuvud- och sidfotsfunktioner, formulärhantering och sidmanipulation. Även om gränssnittet kanske inte är det mest polerade och mycket stora dokument laddas något långsamt, erbjuder den en gratis lösning för att redigera skannade PDF-filer i Windows.
Vad kan PDFelement göra med skannade PDF-filer och OCR
Utöver att bara tillämpa OCR från fall till fall är PDFelement utformat som en komplett arbetsstation för skannade PDF-filerDess optiska igenkänningsmotor omvandlar inte bara PDF-filer till redigerbara, utan upprätthåller också en balans mellan noggrannhet, hastighet och visuell återgivning.
En av dess stjärnfunktioner är möjligheten att redigera den tolkade texten direkt i själva PDF-filen.Till skillnad från andra lösningar där OCR bara genererar en separat fil, arbetar du i PDFelement med själva dokumentet och bevarar teckensnitt, teckenstorlekar och styckestruktur när det är möjligt.
Den är också kapabel att omvandla Bilder (JPG, PNG, etc.) som innehåller text i redigerbara dokument i olika Microsoft Office-format, till exempel Word utan att förlora formateringExcel eller PowerPoint. Detta är mycket användbart när till exempel fakturor eller rapporter skannas som bilder och du sedan vill bearbeta den informationen i ett kalkylblad.
En annan avancerad funktion är utvinning av data från skannade formulär. PDFelement kan Läs formulärfält och exportera informationen till ett Excel-kalkylblad perfekt redigerbar, vilket avsevärt påskyndar arbetet med att digitalisera enkäter, ansökningar eller pappersregister.
Dessutom tillåter programmet batchbearbeta flera skannade PDF-filerLägg bara till alla filer du vill konvertera, välj språk, ange destinationsmapp och starta processen. Programvaran kommer automatiskt att tillämpa OCR på varje dokument och spara det som en läsbar och redigerbar fil utan att du behöver övervaka var och en individuellt.
Tips för att förbättra OCR-resultat
Kvaliteten på OCR beror till stor del på hur den ursprungliga skanningen utfördes. Därför är det lämpligt att följa en rad riktlinjer. bästa praxis för att få bästa möjliga erkännande när du ska bearbeta skannade PDF-filer med PDFelement eller ett annat liknande verktyg.
Innan du digitaliserar en stor mängd dokument rekommenderas det starkt Testa med en enda sida med olika konfigurationer (upplösning, färg, kontrast) och kör OCR för att se vilken inställning som ger störst noggrannhet. Därifrån använder du den konfigurationen för resten av sidorna.
Generellt sett skannar med upplösning mellan 300 och 600 dpi De ger mycket bättre OCR-resultat. Om du skannar med lägre upplösning kan texten bli suddig eller pixlig, och igenkänningsmotorn får svårare att skilja liknande tecken.
Det är också viktigt att vara uppmärksam på kontrasten. Texter placerade ovanför mycket mörka eller mycket ljusa bakgrunder De kan vara svåra att känna igen eftersom skillnaden mellan textfärgen och bakgrunden är otillräcklig. I dessa fall är det lämpligt att justera ljusstyrkan och kontrasten på skannern för att förbättra läsbarheten.
Använd när det är möjligt svartvitt läge (eller korrekt konfigurerad gråskala) För endast textdokument. Det ger vanligtvis bättre resultat än färg för ren OCR, eftersom det minskar visuellt brus.
Slutligen, se till att dokumentet är korrekt justerad på skannerglasetOm pappret är snett kan förvrängningen av textraderna "förvirra" igenkänningsmotorn och orsaka fel i konverteringen.
Konvertera en skannad PDF till text med PDFelement, online och med Google
En annan vanlig uppgift är att konvertera en skannad PDF direkt till vanlig text (.txt) så att den kan bearbetas i vilken editor som helstPDFelement gör denna process mycket enklare tack vare sin OCR-modul och konverteringsmeny.
När du importerar en skannad PDF till PDFelement frågar programmet om du vill Använd OCR på dokumentetGenom att acceptera kan du välja innehållsspråk och utdatatyp: redigerbar text eller helt enkelt sökbar text i PDF-filen.
Om du vill generera en .txt-fil efter igenkänning, gå bara till menyn ”Konvertera” och välj alternativet ”Till text”Detta skapar ett vanligt textdokument där du enkelt kan söka efter nyckelord, rensa innehållet, återanvända det i andra projekt eller lagra det på system där du inte behöver underhålla PDF-formatet.
Om du föredrar något helt online kan du vända dig till HiPDF med sitt OCR-verktygDu laddar upp PDF-filen, anger språk och utdataformat (t.ex. .txt), startar konverteringen och när du är klar laddar du ner textfilen som genererats från den skannade PDF-filen.
Som ett gratis, molnbaserat alternativ, Google Drive och Google Dokument De låter dig också konvertera skannade PDF-filer till text. Du laddar upp PDF-filen, öppnar den med Google Dokument, systemet kör sin egen OCR och du får ett Google-dokument med den extraherade texten. Därifrån kan du kopiera, redigera eller ladda ner det i andra format som .docx, .odt eller till och med HTML.
Trots dessa onlinealternativ är en skrivbordsmiljö som PDFelement vanligtvis mer lämplig för mer delikat arbete, dokument med känsliga data eller kontinuerliga professionella arbetsflöden, eftersom Du undviker integritetsproblem genom att inte ladda upp filer till externa servrar. och du har större kontroll över processen och resultatet.
Kort sagt, om du ofta arbetar med skannade PDF-filer som du behöver redigera, söka i eller konverteraAtt ha en bra OCR-motor gör en enorm skillnad. Verktyg som Wondershare PDFelement kombinerar snabb och exakt igenkänning, direkt PDF-redigering, konvertering till flera format och avancerade alternativ som OCR-område och batchbehandling, vilket gör att du kan gå från att ha enkla "ögonblicksbilder" av dokument till att hantera helt redigerbar och återanvändbar information utan problem.
Passionerad författare om bytesvärlden och tekniken i allmänhet. Jag älskar att dela med mig av min kunskap genom att skriva, och det är vad jag kommer att göra i den här bloggen, visa dig alla de mest intressanta sakerna om prylar, mjukvara, hårdvara, tekniska trender och mer. Mitt mål är att hjälpa dig att navigera i den digitala världen på ett enkelt och underhållande sätt.



