Izvleček besedila iz datotek PDF z OCR v sistemu Windows 11: Popoln vodnik

Zadnja posodobitev: 10/10/2025
Avtor: Isaac
  • Širok nabor optičnega prepoznavanja znakov: lokalno (močne igrače), namizni (Acrobat/ABBYY/UPDF), spletni (Sejda/Docs) in poslovni (SharePoint).
  • Ključna združljivost: slikovni in hibridni PDF-ji, več kot 150 jezikov in omejitve velikosti/ločljivosti v različnih okoljih Microsoft 365.
  • Produktivnost: Optično prepoznavanje znakov na podlagi območij, paketna obdelava, izvoz v Word/Excel in samodejno iskanje/indeksiranje.
  • Konfiguracija in natančnost: Jezikovni paketi za OCR v Windows, pravilna izbira jezika in izboljšava predhodne slike.

Optično prepoznavanje znakov v sistemu Windows 11

Če vsakodnevno delate s skeniranimi dokumenti, veste, da je izvlečenje besedila iz PDF To je lahko majhen glavobol; s tehnologijo OCR v Windows 11, ta postopek postane hiter in zanesljiv. V tem priročniku podrobno pregledamo najboljše možnosti za prepoznavanje besedila v PDF-jih in slikah., tako z lokalnimi orodji kot s spletnimi storitvami in poslovnimi rešitvami.

Ne bomo se ustavili pri osnovah: videli boste vse od izvornih pripomočkov, kot je PowerToys Text Extractor, do urejevalnikov, kot je Adobe Acrobat, brezplačne alternative, kot so Google Docs ali Sejda in korporativne platforme, kot je SharePoint z indeksiranjem in skladnostjo s predpisi. Poleg tega vključujemo podprte oblike zapisa, jezike, omejitve velikosti, ključne korake in Tricks Konfiguracije tako da dosežete največjo možno natančnost.

Kaj je OCR in zakaj bi vas to lahko zanimalo v sistemu Windows 11?

Optično prepoznavanje znakov pretvori slike ali skenirane PDF-je v besedilo, ki ga je mogoče urejati in iskati, kar vam omogoča kopiranje, urejanje in analizo vsebine, kot da bi jo vtipkali sami. OCR-ji analizirajo oblike, velikosti in porazdelitev znakov ter jih pretvorijo v strojno berljivo besedilo., pripravljeno za urejanje ali indeksiranje.

Pri vsakodnevni uporabi je idealen za arhiviranje dokumentov v iskalnem PDF formatu, berite dokumente na svojem mobilnem telefonu, digitalizirati knjige ali obnoviti informacije v starih zapisih. Čeprav se je natančnost močno izboljšala, je kakovost slike in to, ali je ročno napisana ali natisnjena, še vedno pomembna., zato je priporočljivo, da se rezultat po prepoznavanju pregleda.

Optično prepoznavanje znakov (OCR) za podjetja v storitvi Microsoft 365: SharePoint, OneDrive in drugo

V SharePointu je poleg PDF-jev, ki temeljijo na slikah, na voljo tudi podpora za hibridne PDF-je (mešanico besedila in slik) z avtomatsko obdelavo ob nalaganju. Prav tako prepozna slike, vdelane v datoteke sistema Office (docx, pptx, xlsx), in uporabi deduplikacijo, da se izogne ​​večkratni obdelavi iste slike., optimizacijo stroškov in učinkovitosti.

Podprte vrste datotek glede na lokacijo

Združljivost formata se razlikuje glede na točko povezave (SharePoint/OneDrive, Exchange, Teams/Windows/macOS). Povzemali bomo bistvo, hkrati pa ohranili tehnične podrobnosti:

Priključna točka Podprte vrste datotek
SharePoint in OneDrive .bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, y .pdf (escaneados e híbridos)Poleg tega so vdelane slike izvlečene docx, pptx, xlsx.
<span style="color: #f7f7f7;">Izmenjava</span> .jpeg, .jpg, .png, .bmp, .tiff y PDF (skenirano in hibridno). Prav tako obdeluje slike znotraj docx, pptx, xlsx, rar, tar, zip, 7z.
Ekipe, Windows in macOS .jpeg, .jpg, .png, .bmp, .tiff y PDF (samo slika).
  Kako pospešiti prenos datotek v sistemu Windows 11: ključni triki in prilagoditve

Kar zadeva jezike, storitev podpira več kot 150 jezikov in Njegov obseg zajema več rešitev Microsoft 365 in je povezan z možnostmi skladnosti s predpisi Microsoft Purview. za upravljanje in varstvo podatkov.

Pomembne omejitve in zahteve

Upoštevajte, da SharePoint OCR pri obdelavi slik nalaga določene tehnične omejitve. Velikost datoteke mora biti manjša od 50 MB, najmanjša ločljivost je 50 x 50 slikovnih pik, največja pa 16.000 x 16.000.; poleg tega se obdelajo samo slike, naložene po aktiviranju optičnega prepoznavanja znakov (OCR).

Lokalno optično prepoznavanje znakov v sistemu Windows 11: Izvleček besedila PowerToys

Če želite sproti izvleči besedilo iz katerega koli dela zaslona (vključno z videoposnetki, aplikacije ali igre), Izvleček besedila PowerToys to je čudežno zdravilo. Z bližnjico »Win + Shift + T« se prikaže prekrivna plošča za izbiro območja; ko jo spustite, se prepoznano besedilo kopira v odložišče.

Zajem se po končanem snemanju samodejno zapre in ga lahko kadar koli prekinete s tipko 'Esc'. Če želite natančneje določiti izbor, držite tipko Shift, da premaknete okvir, ne da bi mu spremenili velikost.in spustite tipko Shift, da ponovno prilagodite velikost.

V nastavitvah lahko prilagodite bližnjico za aktivacijo in želeni jezik. Modul prepozna samo jezike, za katere imate v sistemu Windows nameščen paket OCR., zato je priporočljivo, da to preverite vnaprej.

Preverite in namestite jezikovne pakete OCR

Seznam jezikov OCR, ki so na voljo v vašem sistemu Windows PowerShell, lahko zaženete: Tako potrdite, kateri prepoznavalniki so pripravljeni za uporabo v PowerToys..

Seznam razpoložljivih prepoznavalnikov: ::AvailableRecognizerLanguages

Če bi raje preverili vse namestitvene zmogljivosti OCR: Ta filter prikazuje jezikovne pakete OCR in njihovo stanje. (nameščeno ali ne).

Oglejte si namestitvene pakete OCR: Get-WindowsCapability -Online | Where-Object { $_.Name -Like 'Language.OCR*' }

Če želite na primer namestiti prepoznavanje »en-US«: Najprej filtrirate zmogljivost in jo nato dodate prek spleta, vse iz PowerShella s skrbniškimi dovoljenji..

Namestitev 'en-US' (PowerShell): $Capability = Get-WindowsCapability -Online | Where-Object { $_.Name -Like 'Language.OCR*en-US*' }
$Capability | Add-WindowsCapability -Online

In če morate odstraniti omenjeni paket: Enak vzorec izbire in odstranjevanja zmogljivosti z Remove-WindowsCapability.

Odstrani 'en-US' (PowerShell): $Capability = Get-WindowsCapability -Online | Where-Object { $_.Name -Like 'Language.OCR*en-US*' }
$Capability | Remove-WindowsCapability -Online

Tipično odpravljanje težav

Če vam PowerToys sporoči »Ni nameščenih možnih jezikov za OCR«, preverite, ali je paket dejansko nameščen. V nekaterih računalnikih, kjer sistemski pogon ni 'C:', težavo odpravi kopiranje mape 'X:/Windows/OCR' v 'C:/Windows/OCR'..

  Celoten vodnik za Acer Care Center v sistemu Windows 11

PDFgear: Območno optično prepoznavanje znakov in hitro urejanje

PDFgear je obsežen brezplačni urejevalnik, ki vključuje tudi optično prepoznavanje znakov (OCR) na podlagi območij, kar je idealno za zajemanje le tistega dela, ki vas zanima. Odprite PDF, v glavnem zavihku aktivirajte »OCR« in z miško izberite območje, ki ga želite prepoznati., z možnostjo kopiranja v odložišče ali shranjevanja kot TXT.

Poleg optičnega prepoznavanja znakov (OCR) vam PDFgear omogoča urejanje besedila, dodajanje slik, komentiranje, označevanje, podpisovanje in zaščito dokumentov. Njegova spletna različica ne zahteva registracije ali vodnih žigov, namizni program za Windows 11 pa je lahek in stabilen., idealno za vsakodnevna opravila.

Google Dokumenti: Brezplačno pretvorite skenirano datoteko PDF

Z računom za google, preprosto naložite PDF v Drive, kliknite z desno miškino tipko in odprite z »Google Dokumenti«. Storitev samodejno zažene optično prepoznavanje znakov (OCR) in z izvlečenim besedilom ustvari dokument, ki ga je mogoče urejati., ki ga lahko nato prenesete na beseda, PDF ali navadno besedilo.

Ker gre za pretvorbo v oblaku, se postavitev ne ohrani vedno, še posebej, če je imel PDF zapletene tabele ali veliko slik. Kljub temu je za hitro ekstrahiranje in urejanje vsebine ena najučinkovitejših in najdostopnejših strategij..

Za razvijalce .NET: IronOCR

Če morate v svoje aplikacije integrirati OCR, je IronOCR visokozmogljiva knjižnica C#. Ponuja visoko natančnost, hitrost in podporo v realnem času za skeniranje, indeksiranje in prepoznavanje, z združljivostjo v zahtevnih sektorjih.

Primer minimalne uporabe v jeziku C# z njegovim visokonivojskim API-jem: Ta vzorec vam omogoča branje ene ali več slik in pridobitev prepoznanega besedila v spomin..

Delček kode za uporabo:

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
  Input.AddImage("Image.jpg");
  // puedes añadir más imágenes si lo necesitas
  var Result = Ocr.Read(Input);
  Console.WriteLine(Result.Text);
}

Pri licenciranju je IronOCR brezplačen za razvoj in ima poskusno različico; Komercialne licence so razdeljene glede na število razvijalcev in obstaja skupni paket več izdelkov. s prihranki v primerjavi z individualnimi nakupi.

Praktična primerjava in kako izbrati svoje orodje

Če iščete maksimalno natančnost in napredno urejanje PDF-jev, sta Acrobat Pro DC in ABBYY FineReader varni stavi. Prvi izstopa zaradi svojega ekosistema PDF, drugi pa zaradi natančnosti in nadzora slik., oba z obsežnimi možnostmi paketne obdelave in jeziki.

Za mešane delovne procese in dobro ravnovesje med ceno in funkcijami sta UPDF in EaseUS PDF Editor zelo usposobljena. UPDF prinaša oblak in avtomatizacijo, medtem ko EaseUS ponuja OCR in celovito urejanje z nežno krivuljo učenja. kar prepriča začetnike.

  Kako aktivirati HBO na Vodafone, Movistar, MásMóvil, Orange in Yoigo Španija

Če ne želite porabiti ničesar, FreeOCR, Google Docs in PDFgear pokrivajo veliko področja. FreeOCR pretvarja brez težav, Dokumenti omogočajo hitre pretvorbe v oblaku, PDFgear pa dodaja optično prepoznavanje znakov na podlagi območja in urejanje brez označevanja., vse brez plačila.

V poslovnem okolju SharePoint/OneDrive z integriranim optičnim prepoznavanjem znakov (OCR) zmanjšuje trenje ter dodaja iskanje in skladnost s predpisi. Poleg tega boste s programom PowerToys Text Extractor v sistemu Windows 11 imeli »švicarski nož« za takojšen zajem besedila z zaslona., nekaj, kar postane zasvojljivo, ko poskusiš.

Nasveti za izboljšanje natančnosti OCR

Poskrbite, da vaše slike ne presegajo omejitev in ohranite ustrezno ločljivost, pri čemer se izogibajte zamegljenim ali senčnim fotografijam. Vedno izberite pravilen jezik dokumenta in po možnosti izboljšajte kontrast ter poravnajte stran, preden jo prepoznate. za pomoč mehanizmu za optično prepoznavanje znakov (OCR).

Za PDF-je s tabelami uporabite orodja, ki ponujajo urejevalnike tabel (ABBYY/Readiris) ali izpis v Excel. Če potrebujete le fragment, vam zonsko optično prepoznavanje znakov (OCR) v PDFgearju ali ročna izbira v nekaterih urejevalnikih prihrani čas in vam kasneje prihranita čas pri čiščenju. v rezultatih.

Ko je dokument napisan ročno, ga preizkusite z iskalniki, ki to izrecno navajajo, in predvidite temeljit kasnejši pregled. Za velike serije omogočite čakalne vrste za obdelavo in preglejte možnosti večnitnosti ali obdelave v oblaku, če je vaša strojna oprema je omejeno.

Če gre kaj narobe z jeziki v PowerToys, preverite pakete OCR in jih znova namestite iz PowerShella. Ne pozabite, da brez nameščenega jezikovnega paketa ne bo prepoznavanja, tudi če je preostali del sistema v tem jeziku..

Nenazadnje upoštevajte zasebnost: pri občutljivih dokumentih dajte prednost lokalnim ali poslovnim rešitvam (SharePoint) pred spletnimi storitvami. Vedno preglejte pravilnike o podatkih in, če je mogoče, delajte z datotekami lokalno ali v nadzorovanih okoljih. da se ravna v skladu s predpisi.

Z vsemi temi možnostmi, od optičnega prepoznavanja znakov (OCR), vgrajenega v Microsoft 365, do brezplačnih pripomočkov in knjižnic za razvijalce, imate na dosegu roke celoten arzenal za pretvorbo PDF-jev in slik v uporabno besedilo v sistemu Windows 11; Izberite glede na svoj scenarij (hitra pretvorba, popolno urejanje, obseg ali izpolnitev) in že prvič vam bo uspelo..

Kako pretvoriti sliko v besedilo (OCR) v sistemu Windows 11 brez namestitve česar koli
Povezani članek:
Kako pretvoriti sliko v besedilo (OCR) v sistemu Windows 11 brez namestitve česar koli