- Skannattu PDF-tiedosto on itse asiassa kuva ja vaatii OCR-tunnistuksen, jotta siitä voi tehdä muokkausta tai hakuja.
- Wondershare PDFelement tarjoaa tehokkaan OCR:n muokattavissa, haettavina ja aluekohtaisina tiloina.
- Vaihtoehtoja on, kuten HiPDF online, Word, Google Docs tai Adobe, joilla on erilaiset rajoitukset.
- Skannauksen laatu (resoluutio, kontrasti ja kohdistus) on avainasemassa tarkan OCR-tunnistuksen saavuttamisessa.
Jos olet koskaan törmännyt a skannattu PDF-tiedosto, joka sinun on korjattava tai päivitettäväTiedäthän, kuinka turhauttavaa on, kun tekstiä ei voi valita tai muuttaa. Ensi silmäyksellä se näyttää tavalliselta dokumentilta, mutta edessäsi onkin PDF-tiedostoon upotettu kuva, jota ei voi muokata lainkaan.
Hyvä uutinen on, että nykyään se on todella helppoa Muunna skannattu PDF-tiedosto muokattavaksi tiedostoksi OCR-tekniikalla (Optinen tekstintunnistus). Ja yksi täydellisimmistä ohjelmista tähän, sekä Windowsilla että Macilla, on Wondershare PDFelement, joka sisältää erittäin tehokkaan OCR-moottorin ja on saatavilla jopa Professional-kokeiluversiona, joten voit kokeilla sitä ennen ostamista.
Mikä on OCR ja miksi skannattua PDF-tiedostoa ei voi muokata?
Kun skannaat paperidokumentin, skanneri luo Sisällöstä otettu valokuva (teksti, grafiikka, taulukot, allekirjoitukset…)Tulos tallennetaan kuvana tai kuvapohjaisena PDF-tiedostona. Käytännössä tietokone näkee tämän pikseleinä, ei tekstinä, joten et voi korostaa, kopioida tai muokata sanaa.
Siksi monet ihmiset kysyvät itseltään: "Miksi en voi muokata skannattua PDF-tiedostoa?"Syy on yksinkertainen: skannattu PDF ei sisällä tekstimerkkejä, vain kuvan. Tekstieditori ei voi tunnistaa ja muuttaa mitään suoraan.
Optinen tekstintunnistustekniikka (OCR) palvelee juuri tätä tarkoitusta: Se analysoi kuvan, tunnistaa jokaisen merkin ja muuntaa sen digitaaliseksi tekstiksi.Kun OCR on otettu käyttöön, sisällöstä tulee valittavissa, muokattavissa ja sitä voidaan myös hakea dokumentissa.
OCR:n käyttö mahdollistaa muunnoksen skannattuja PDF-tiedostoja, asiakirjojen valokuvia tai käsin kirjoitettuja lomakkeita täysin muokattavissa asiakirjoissa säilyttäen alkuperäisen ulkoasun mahdollisimman hyvin. Tämä helpottaa tehtäviä, kuten korjauksia, tietojen päivityksiä, digitaalista arkistointia tai tiedon poimimista muihin muotoihin.
Skannatun PDF-tiedoston tekstin muokkaaminen Wondershare PDFelementillä (muokkaustila)
Wondershare PDFelement on erittäin kattava PDF-editori, joka sisältää mm. Ammattimainen OCR-moduuli, joka on yhteensopiva yli 20 kielen kanssa (Espanja, englanti, ranska, saksa, italia, portugali, arabia, venäjä, tšekki, turkki, korea, indonesia jne.). OCR PDF -toiminto on saatavilla PDFelement Professionalin kokeiluversiossa, joten voit kokeilla sitä ilmaiseksi ennen kuin päätät ostaa sen.
Kun avaat skannatun tai kuvapohjaisen PDF-tiedoston, PDFelement tunnistaa automaattisesti, että kyseessä on skannattu asiakirja Sitten se näyttää ikkunan yläreunassa ehdotuksen OCR-tunnistuksen aloittamiseksi. Sieltä voit valita sopivimman tilan sen mukaan, mitä sinun on tehtävä tiedostolla.
Jos tavoitteesi on Muokkaa PDF-sisältöä, muokkaa lauseita, korjaa virheitä tai vaihda kuvia.Sinua kiinnostaa "Skannaa muokattavaksi tekstiksi" -tila. Tässä tilassa PDFelement luo uuden PDF-tiedoston, jossa kaikkea tunnistettua tekstiä voidaan muokata ikään kuin se olisi alun perin digitaalisesti luotu asiakirja.
Muokattavan OCR:n käyttäminen PDFelementissä on hyvin yksinkertaista: avaa skannattu asiakirja, siirry OCR-työkalut-valikkoon, Valitset muokattavan tekstin muunnostilan ja valitset oikean kielen. sisällöstä (tämä lisää tarkkuutta huomattavasti) ja voit halutessasi määrittää sivualueen, jolla haluat suorittaa tunnistuksen.
Kun napsautat "Käytä", ohjelma näyttää edistymispalkin, ja prosessin päätyttyä Uusi muokattava PDF-tiedosto avautuu automaattisesti.Napsauta sitten "Muokkaa"-tilaa aloittaaksesi tekstin muokkaamisen, uusien kappaleiden lisäämisen, tarpeettomien osien poistamisen tai kuvien ja kaavioiden retusoinnin.
Hakukelpoinen OCR-tila: Tee skannatusta PDF-tiedostosta haettava ja valittavissa oleva
PDFelement Professionalin versiosta 6.3.0 alkaen lisättiin toinen erittäin mielenkiintoinen vaihtoehto: OCR-hakutilaTämä tila on suunniteltu niille, joiden ei tarvitse muotoilla tekstiä uudelleen tai muuttaa sitä, mutta jotka haluavat voida hakea, valita ja kopioida osia asiakirjasta.
Tässä tapauksessa, kun siirryt PDFelementin OCR-valikkoon, valitset vaihtoehdon "Skannaa etsiäksesi tekstiä kuvasta"Tuloksena on PDF-tiedosto, joka pysyy visuaalisesti käytännössä samana (alkuperäinen kuva säilyy), mutta sen alle on upotettu näkymätön tekstikerros, jonka avulla voit paikantaa sanoja pikanäppäimillä, kuten Ctrl+F.
Kun uusi OCR-hakutiedosto on luotu, voit Valitse mikä tahansa tekstilohko ja kopioi se leikepöydälle ja liitä se Word-asiakirjaan, sähköpostiin tai mihin tahansa haluamaasi työkaluun. Se on erittäin hyödyllinen ratkaisu, jos työskentelet käyttöohjeiden, sopimusten tai pitkien asiakirjojen kanssa, joissa tiettyjen tietojen löytäminen on ratkaisevan tärkeää.
Tämä lähestymistapa on erityisen käytännöllinen silloin, kun haluat säilyttää 100 % alkuperäisen asiakirjan ulkoasusta (sinetit, vesileimat, allekirjoitukset jne.), mutta samalla sinun on työskenneltävä tekstisisällön kanssa nopeita kyselyitä varten.
OCR-alue PDFelementissä: tunnista vain osa dokumentista
OCR-tunnistusta ei aina tarvitse käyttää koko asiakirjaan. Funktion avulla PDFelement “OCR-alue” Voit rajoittaa tunnistuksen vain tiettyyn sivun alueeseen, mikä säästää käsittelyaikaa ja on erittäin kätevää, kun sinun tarvitsee poimia tietoja vain osasta PDF-tiedostoa.
Se toimii yksinkertaisesti: avaat kuvan tai skannatun PDF-tiedoston ja käytät ”Työkalu > OCR-alue” Sitten vedät hiirellä valitaksesi suorakulmion, joka sisältää tunnistettavan tekstin. Tämä sopii erinomaisesti taulukoille, tietyille sarakkeille, alatunnisteille tai lomakkeille sivulla, jossa on paljon graafisia elementtejä.
Ikkunan oikealla puolella näet ominaisuuspaneelin, josta voit valitse tunnistuskieli kyseiselle alueelle. Sitten sinun tarvitsee vain napsauttaa ”Tunnista” PDFelementille, jotta sisältö voidaan käsitellä ja muuntaa muokattavaksi tai haettavaksi tekstiksi valitusta tilasta riippuen.
Tämä OCR-aluetoiminto on erityisen hyödyllinen työskenneltäessä skannattuja lomakkeita, laskuja, toimitusluetteloita tai raportteja josta sinun tarvitsee tuoda vain tietyt tietokentät laskentataulukkoon tai toiseen hallintajärjestelmään.
Vaiheittainen opas: skannatun PDF-tiedoston muokkaaminen Windowsissa ja Macissa PDFelementin avulla
Vaikka termi OCR saattaa kuulostaa tekniseltä, PDFelementillä prosessi on varsin ohjattu ja vain muutamaan vaiheeseen tiivistetty. Alla on tyypillinen työnkulku Skannattujen PDF-dokumenttien muokkaaminen Windows 11:ssä ja macOS käyttämällä tätä ohjelmaa.
Ensimmäinen askel on tuo PDF-tiedosto ohjelmaan. Kun käynnistät PDFelementin, voit käyttää aloitusikkunan vasemmassa alakulmassa olevaa ”Avaa”-painiketta, selata kansioitasi, valita skannatun PDF-tiedoston ja ladata sen.
Heti kun PDFelement havaitsee dokumentin olevan kuvapohjainen, se näyttää ponnahdusikkunan, jossa ehdotetaan seuraavaa: suorita OCRJos napsautat ”Suorita OCR”, ohjelmisto pyytää sinua valitsemaan sisällön kielen (oikean kielen valitseminen on erittäin tärkeää tarkkuuden maksimoimiseksi, erityisesti jos tekstissä on aksentteja tai erikoismerkkejä).
Kun skannaus on valmis, tiedostosta tulee muokattavissa oleva tiedosto. Valikosta ”Muokkaa”-kohdasta pääset tekstin ja objektien muokkaustyökaluihin.Tällä tavoin voit napsauttaa mitä tahansa kappaletta lisätäksesi tai poistaaksesi sanoja, muuttaaksesi tekstin muotoilua tai lisätäksesi uusia lohkoja tekstinlisäämisvaihtoehdolla.
Lisäksi PDFelementin avulla voit muokata kuvia, muotoja, grafiikkaa ja muita elementtejä. Käyttämällä tätä vaihtoehtoa ”Muokkaa objekteja” -toiminnolla voit siirtää, rajata, kiertää tai poistaa kuviasekä lisätä uusia kuvia asiakirjaan tarvittaessa.
Työskennellessäsi on tärkeää tallentaa muutokset. Voit käyttää Ctrl + S tallentaaksesi samaan tiedostoon tai käytä "Tiedosto > Tallenna nimellä" luodaksesi uuden kopion, valitaksesi toisen kohdekansion tai versioidaksesi asiakirjan menettämättä alkuperäistä.
Skannatun PDF-tiedoston muokkaaminen verkossa HiPDF:n avulla
Jos et halua asentaa mitään tietokoneellesi, mielenkiintoinen vaihtoehto on käyttää HiPDF, Wondershare-ekosysteemiin linkitetty verkkoalustaTämä verkkosivusto tarjoaa erityisen online-OCR-työkalun, jonka avulla voit käsitellä skannattuja PDF-tiedostoja suoraan selaimestasi.
Prosessi on yksinkertainen: siirryt HiPDF:n viralliselle verkkosivustolle ja etsit osion, jossa käsitellään... "OCR verkossa" Lataa tiedosto "Valitse tiedosto" -painikkeella tai vetämällä se selainikkunaan. Kun tiedosto on ladattu, määritä asiakirjan kieli ja tulostusmuoto (esimerkiksi pelkkä teksti tai haettava PDF) ja napsauta "Muunna".
Kun muunnos on valmis, voit lataa käsitelty tiedosto laitteellesi. Tällä ratkaisulla on useita etuja: koska se on verkossa, se toimii sekä Windowsissa että Macissa ja jopa muista järjestelmistä, ja siirto on suojattu 256-bittisellä SSL-salauksella.
HiPDF mahdollistaa myös eräkäsittely Maksullinen versio on hyödyllinen, jos työskentelet suurten skannattujen PDF-tiedostojen kanssa. Ilmaisversiossa on kuitenkin joitakin rajoituksia ominaisuuksien ja tiedostokoon suhteen, ja se näyttää myös mainoksia, mikä on hyvä pitää mielessä, jos etsit täysin siistiä käyttökokemusta.
Skannatun PDF-tiedoston muokkaaminen Wordilla, Google Docsilla ja muilla vaihtoehdoilla
Vaikka PDFelement ja HiPDF tarjoavat erittäin kattavan kokemuksen, on olemassa muitakin menetelmiä käsitellä skannattuja PDF-tiedostoja jo olemassa olevilla työkaluillakuten Microsoft Word, Google Docs tai Adobe Acrobat, sekä muut editorit, joissa on integroitu OCR ja oppaat Muokkaa PDF-tiedostoa ilmaiseksi ilman vesileimaa.
Tapauksessa Microsoft Wordon mahdollista Avaa PDF-tiedosto suoraan Wordissa Valitse "Tiedosto > Avaa". Word varoittaa sinua, että se aikoo muuntaa PDF-tiedoston muokattavaksi dokumentiksi. Tämä menetelmä voi toimia hyväksyttävästi yksinkertaisten ja hyvälaatuisten PDF-tiedostojen kanssa, mutta muista, että Word Se ei suorita todellista OCR-tunnistusta monimutkaisille kuvilleSiksi skannattu PDF-tiedosto, jossa on matala resoluutio, epäselvä teksti tai paljon grafiikkaa, saattaa menettää muotoilunsa tai sitä ei tunnisteta oikein.
Omalta Google Docs sisällyttää oman OCR-ominaisuuden Google DriveenKun olet ladannut skannatun PDF-tiedoston asemaan, voit napsauttaa sitä hiiren kakkospainikkeella ja valita "Avaa sovelluksella > Google Docs". Järjestelmä yrittää muuntaa tiedoston muokattavaksi tekstitiedostoksi tunnistamalla kuvasisällön.
Googlen OCR-tuki yli 200 kieltäSillä on kuitenkin tiettyjä kokorajoituksia (esimerkiksi se ei tue erittäin suuria tiedostoja) ja se edellyttää, että tekstillä on tietty vähimmäispikselikorkeus, jotta se voidaan havaita tarkasti. Lisäksi elementit, kuten taulukot, sarakkeet, alaviitteet tai monimutkaiset muotoilut, usein katoavat tai vääristyvät.
Toinen klassinen viittaus on Adobe AcrobatAcrobatin "Skannaa ja tunnista" -työkaluun on integroitu kattava OCR-toiminto. Kun avaat skannatun PDF-tiedoston, Acrobat näyttää yleensä ilmoituksen tunnistusprosessin aloittamiseksi. Vastaavasta työkalusta voit valita tekstin kielen, määrittää käsiteltävät sivut ja OCR-tunnistuksen suorittamisen jälkeen jatkaa PDF-tiedoston muokkaamista.
Adobe tarjoaa a ammattimainen käyttöliittymä, pilvipalvelut ja edistyneet asiakirjojen allekirjoitus- ja reititysominaisuudetSen tilausmalli on kuitenkin kalliimpi kuin muut vaihtoehdot, eikä se ole aina yksinkertaisin vaihtoehto käyttäjille, jotka tarvitsevat PDF-tiedostoja vain satunnaisesti.
On myös muita ohjelmia, kuten Nitro PDF -editori (Nitro Pro)Tämän työkalun avulla voit lisätä, poistaa ja järjestellä sisältöä, käyttää optista tekstintunnistusta ja käsitellä sivuja (kiertää, poimia, lisätä jne.), ja se on ensisijaisesti suunniteltu Windows-käyttäjille. Se on toimiva, mutta kallis ja voi kaatua erittäin suurten dokumenttien kanssa optista tekstintunnistusta käytettäessä.
Toinen työkalu on Apower PDF-editoriSe sisältää myös tekstintunnistuksen, ylä- ja alatunnistetoiminnot, lomakkeiden hallinnan ja sivunmuokkauksen. Vaikka sen käyttöliittymä ei ehkä ole kovin viimeistelty ja erittäin suuret dokumentit latautuvat jonkin verran hitaasti, se tarjoaa ilmaisen ratkaisun skannattujen PDF-tiedostojen muokkaamiseen Windowsissa.
Mitä PDFelement voi tehdä skannatuilla PDF-tiedostoilla ja OCR:llä
PDFelement on suunniteltu OCR:n tapauskohtaisen soveltamisen lisäksi myös täydellinen työasema skannatuille PDF-tiedostoilleSen optinen tunnistusmoottori ei ainoastaan muunna PDF-tiedostoja muokattaviksi, vaan myös ylläpitää tasapainoa tarkkuuden, nopeuden ja visuaalisen uskollisuuden välillä.
Yksi sen tärkeimmistä ominaisuuksista on mahdollisuus muokata tunnistettua tekstiä suoraan itse PDF-tiedostossa.Toisin kuin muissa ratkaisuissa, joissa OCR luo vain erillisen tiedoston, PDFelementissä työskennellään itse dokumentin parissa säilyttäen fontit, fonttikoot ja kappalerakenteen aina kun mahdollista.
Se kykenee myös muuntautumaan Tekstiä sisältävät kuvat (JPG, PNG jne.) muokattavissa dokumenteissa eri Microsoft Office -tiedostomuodoissa, kuten Word menettämättä muotoiluaExcel tai PowerPoint. Tämä on erittäin hyödyllistä esimerkiksi silloin, kun laskut tai raportit skannataan kuvina ja haluat sitten käsitellä tiedot laskentataulukossa.
Toinen edistynyt ominaisuus on tietojen poimiminen skannatuista lomakkeista. PDFelement voi Lue lomakekentät ja vie tiedot Excel-taulukkoon täysin muokattavissa, mikä nopeuttaa huomattavasti kyselyiden, hakemusten tai paperisten asiakirjojen digitointia.
Lisäksi ohjelma mahdollistaa käsitellä useita skannattuja PDF-tiedostoja eränäLisää vain kaikki muunnettavat tiedostot, valitse kieli, määritä kohdekansio ja aloita prosessi. Ohjelmisto käyttää automaattisesti OCR-ominaisuutta jokaiseen asiakirjaan ja tallentaa sen luettavaan ja muokattavaan tiedostoon ilman, että sinun tarvitsee valvoa jokaista tiedostoa erikseen.
Vinkkejä OCR-tulosten parantamiseen
OCR-tunnistuksen laatu riippuu pitkälti siitä, miten alkuperäinen skannaus suoritettiin. Siksi on suositeltavaa noudattaa tiettyjä ohjeita. parhaat käytännöt parhaan mahdollisen tunnustuksen saamiseksi kun aiot käsitellä skannattuja PDF-tiedostoja PDFelementillä tai muulla vastaavalla työkalulla.
Ennen suuren asiakirjamäärän digitointia on erittäin suositeltavaa Testaa yhtä sivua eri kokoonpanoilla (resoluutio, väri, kontrasti) ja suorita OCR nähdäksesi, mikä asetus tarjoaa parhaan tarkkuuden. Sen jälkeen voit käyttää kyseistä määritystä muille sivuille.
Yleisesti ottaen skannaukset, joissa on resoluutio 300 ja 600 dpi:n välillä Ne tarjoavat paljon parempia OCR-tuloksia. Jos skannaat pienemmällä resoluutiolla, teksti saattaa näyttää sumealta tai pikselöityneeltä, ja tunnistusmoottorilla on enemmän vaikeuksia erottaa samankaltaisia merkkejä.
On myös tärkeää kiinnittää huomiota kontrastiin. Yläpuolelle sijoitetut tekstit erittäin tummat tai erittäin kirkkaat taustat Niitä ei välttämättä ole helppo tunnistaa, koska tekstin ja taustan värin välinen ero ei ole riittävä. Näissä tapauksissa on suositeltavaa säätää skannerin kirkkautta ja kontrastia luettavuuden parantamiseksi.
Käytä aina kun mahdollista mustavalkoinen tila (tai oikein määritetty harmaasävy) Vain tekstiä sisältäville asiakirjoille. Se tarjoaa yleensä parempia tuloksia kuin värillinen tekstintunnistus, koska se vähentää visuaalista kohinaa.
Varmista lopuksi, että asiakirja on oikein kohdistettu skannerin lasilleJos paperi on vino, tekstirivien vääristyminen voi "hämmentää" tunnistusmoottoria ja aiheuttaa virheitä muunnoksessa.
Muunna skannattu PDF tekstiksi PDFelementillä, verkossa ja Googlen avulla
Toinen yleinen tehtävä on skannatun PDF-tiedoston muuntaminen suoraan muotoon pelkkää tekstiä (.txt), jotta sitä voidaan käsitellä millä tahansa editorillaPDFelement tekee tästä prosessista paljon helpomman OCR-moduulinsa ja muunnosvalikonsa ansiosta.
Kun tuot skannatun PDF-tiedoston PDFelement-ohjelmaan, ohjelma kysyy, haluatko Käytä OCR-tunnistusta asiakirjaanHyväksymällä voit valita sisällön kielen ja tulostustyypin: muokattavan tekstin tai yksinkertaisesti PDF-tiedostosta haettavan tekstin.
Jos haluat luoda .txt-tiedoston tunnistuksen jälkeen, siirry valikkoon ”Muunna” ja valitse ”Tekstiksi” -vaihtoehtoTämä luo pelkän tekstitiedoston, josta voit helposti hakea avainsanoja, siivota sisältöä, käyttää sitä uudelleen muissa projekteissa tai tallentaa sen järjestelmiin, joissa PDF-muotoa ei tarvitse ylläpitää.
Jos haluat mieluummin tehdä jotain kokonaan verkossa, voit kääntyä osoitteen HiPDF ja sen OCR-työkaluLataat PDF-tiedoston, määrität kielen ja tulostusmuodon (esim. .txt), aloitat muuntamisen ja lopuksi lataat skannatusta PDF-tiedostosta luodun tekstitiedoston.
Ilmaisena, pilvipohjaisena vaihtoehtona, Google Drive ja Google Docs Niiden avulla voit myös muuntaa skannattuja PDF-tiedostoja tekstiksi. Lataat PDF-tiedoston, avaat sen Google Docsilla, järjestelmä suorittaa oman OCR-toimintonsa ja saat Google-dokumentin, jossa on uutettu teksti. Sieltä voit kopioida, muokata tai ladata sen muissa muodoissa, kuten .docx, .odt tai jopa HTML.
Näistä verkkovaihtoehdoista huolimatta PDFelementin kaltainen työpöytäympäristö on yleensä suositeltavampi herkempiin töihin, arkaluonteisia tietoja sisältäviin asiakirjoihin tai jatkuviin ammatillisiin työnkulkuihin, koska Vältät yksityisyysongelmat, kun et lataa tiedostoja ulkoisille palvelimille. ja sinulla on suurempi määräysvalta prosessiin ja lopputulokseen.
Lyhyesti sanottuna, jos työskentelet usein skannattuja PDF-tiedostoja, joita sinun on muokattava, haettava tai muunnettavaHyvä OCR-moottori tekee valtavan eron. Työkalut, kuten Wondershare PDFelement, yhdistävät nopean ja tarkan tunnistuksen, suoran PDF-muokkauksen, muuntamisen useisiin eri muotoihin ja edistyneet asetukset, kuten OCR-alueen ja eräkäsittelyn, joiden avulla voit siirtyä yksinkertaisista asiakirjojen "tilannevedoksista" täysin muokattavien ja uudelleenkäytettävien tietojen hallintaan ilman vaivaa.
Intohimoinen kirjoittaja tavujen maailmasta ja tekniikasta yleensä. Rakastan jakaa tietämykseni kirjoittamalla, ja sen aion tehdä tässä blogissa, näyttää sinulle kaikki mielenkiintoisimmat asiat vempaimista, ohjelmistoista, laitteistoista, teknologisista trendeistä ja muusta. Tavoitteeni on auttaa sinua navigoimaan digitaalisessa maailmassa yksinkertaisella ja viihdyttävällä tavalla.



