- Širok nabor optičnega prepoznavanja znakov: lokalno (močne igrače), namizni (Acrobat/ABBYY/UPDF), spletni (Sejda/Docs) in poslovni (SharePoint).
- Ključna združljivost: slikovni in hibridni PDF-ji, več kot 150 jezikov in omejitve velikosti/ločljivosti v različnih okoljih Microsoft 365.
- Produktivnost: Optično prepoznavanje znakov na podlagi območij, paketna obdelava, izvoz v Word/Excel in samodejno iskanje/indeksiranje.
- Konfiguracija in natančnost: Jezikovni paketi za OCR v Windows, pravilna izbira jezika in izboljšava predhodne slike.

Če vsakodnevno delate s skeniranimi dokumenti, veste, da je izvlečenje besedila iz PDF To je lahko majhen glavobol; s tehnologijo OCR v Windows 11, ta postopek postane hiter in zanesljiv. V tem priročniku podrobno pregledamo najboljše možnosti za prepoznavanje besedila v PDF-jih in slikah., tako z lokalnimi orodji kot s spletnimi storitvami in poslovnimi rešitvami.
Ne bomo se ustavili pri osnovah: videli boste vse od izvornih pripomočkov, kot je PowerToys Text Extractor, do urejevalnikov, kot je Adobe Acrobat, brezplačne alternative, kot so Google Docs ali Sejda in korporativne platforme, kot je SharePoint z indeksiranjem in skladnostjo s predpisi. Poleg tega vključujemo podprte oblike zapisa, jezike, omejitve velikosti, ključne korake in Tricks Konfiguracije tako da dosežete največjo možno natančnost.
Kaj je OCR in zakaj bi vas to lahko zanimalo v sistemu Windows 11?
Optično prepoznavanje znakov pretvori slike ali skenirane PDF-je v besedilo, ki ga je mogoče urejati in iskati, kar vam omogoča kopiranje, urejanje in analizo vsebine, kot da bi jo vtipkali sami. OCR-ji analizirajo oblike, velikosti in porazdelitev znakov ter jih pretvorijo v strojno berljivo besedilo., pripravljeno za urejanje ali indeksiranje.
Pri vsakodnevni uporabi je idealen za arhiviranje dokumentov v iskalnem PDF formatu, berite dokumente na svojem mobilnem telefonu, digitalizirati knjige ali obnoviti informacije v starih zapisih. Čeprav se je natančnost močno izboljšala, je kakovost slike in to, ali je ročno napisana ali natisnjena, še vedno pomembna., zato je priporočljivo, da se rezultat po prepoznavanju pregleda.
Optično prepoznavanje znakov (OCR) za podjetja v storitvi Microsoft 365: SharePoint, OneDrive in drugo
V SharePointu je poleg PDF-jev, ki temeljijo na slikah, na voljo tudi podpora za hibridne PDF-je (mešanico besedila in slik) z avtomatsko obdelavo ob nalaganju. Prav tako prepozna slike, vdelane v datoteke sistema Office (docx, pptx, xlsx), in uporabi deduplikacijo, da se izogne večkratni obdelavi iste slike., optimizacijo stroškov in učinkovitosti.
Podprte vrste datotek glede na lokacijo
Združljivost formata se razlikuje glede na točko povezave (SharePoint/OneDrive, Exchange, Teams/Windows/macOS). Povzemali bomo bistvo, hkrati pa ohranili tehnične podrobnosti:
| Priključna točka | Podprte vrste datotek |
|---|---|
| SharePoint in OneDrive | .bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, y .pdf (escaneados e híbridos)Poleg tega so vdelane slike izvlečene docx, pptx, xlsx. |
| <span style="color: #f7f7f7;">Izmenjava</span> | .jpeg, .jpg, .png, .bmp, .tiff y PDF (skenirano in hibridno). Prav tako obdeluje slike znotraj docx, pptx, xlsx, rar, tar, zip, 7z. |
| Ekipe, Windows in macOS | .jpeg, .jpg, .png, .bmp, .tiff y PDF (samo slika). |
Kar zadeva jezike, storitev podpira več kot 150 jezikov in Njegov obseg zajema več rešitev Microsoft 365 in je povezan z možnostmi skladnosti s predpisi Microsoft Purview. za upravljanje in varstvo podatkov.
Pomembne omejitve in zahteve
Upoštevajte, da SharePoint OCR pri obdelavi slik nalaga določene tehnične omejitve. Velikost datoteke mora biti manjša od 50 MB, najmanjša ločljivost je 50 x 50 slikovnih pik, največja pa 16.000 x 16.000.; poleg tega se obdelajo samo slike, naložene po aktiviranju optičnega prepoznavanja znakov (OCR).
Lokalno optično prepoznavanje znakov v sistemu Windows 11: Izvleček besedila PowerToys
Če želite sproti izvleči besedilo iz katerega koli dela zaslona (vključno z videoposnetki, aplikacije ali igre), Izvleček besedila PowerToys to je čudežno zdravilo. Z bližnjico »Win + Shift + T« se prikaže prekrivna plošča za izbiro območja; ko jo spustite, se prepoznano besedilo kopira v odložišče.
Zajem se po končanem snemanju samodejno zapre in ga lahko kadar koli prekinete s tipko 'Esc'. Če želite natančneje določiti izbor, držite tipko Shift, da premaknete okvir, ne da bi mu spremenili velikost.in spustite tipko Shift, da ponovno prilagodite velikost.
V nastavitvah lahko prilagodite bližnjico za aktivacijo in želeni jezik. Modul prepozna samo jezike, za katere imate v sistemu Windows nameščen paket OCR., zato je priporočljivo, da to preverite vnaprej.
Preverite in namestite jezikovne pakete OCR
Seznam jezikov OCR, ki so na voljo v vašem sistemu Windows PowerShell, lahko zaženete: Tako potrdite, kateri prepoznavalniki so pripravljeni za uporabo v PowerToys..
Seznam razpoložljivih prepoznavalnikov: ::AvailableRecognizerLanguages
Če bi raje preverili vse namestitvene zmogljivosti OCR: Ta filter prikazuje jezikovne pakete OCR in njihovo stanje. (nameščeno ali ne).
Oglejte si namestitvene pakete OCR: Get-WindowsCapability -Online | Where-Object { $_.Name -Like 'Language.OCR*' }
Če želite na primer namestiti prepoznavanje »en-US«: Najprej filtrirate zmogljivost in jo nato dodate prek spleta, vse iz PowerShella s skrbniškimi dovoljenji..
Namestitev 'en-US' (PowerShell): $Capability = Get-WindowsCapability -Online | Where-Object { $_.Name -Like 'Language.OCR*en-US*' }
$Capability | Add-WindowsCapability -Online
In če morate odstraniti omenjeni paket: Enak vzorec izbire in odstranjevanja zmogljivosti z Remove-WindowsCapability.
Odstrani 'en-US' (PowerShell): $Capability = Get-WindowsCapability -Online | Where-Object { $_.Name -Like 'Language.OCR*en-US*' }
$Capability | Remove-WindowsCapability -Online
Tipično odpravljanje težav
Če vam PowerToys sporoči »Ni nameščenih možnih jezikov za OCR«, preverite, ali je paket dejansko nameščen. V nekaterih računalnikih, kjer sistemski pogon ni 'C:', težavo odpravi kopiranje mape 'X:/Windows/OCR' v 'C:/Windows/OCR'..
PDFgear: Območno optično prepoznavanje znakov in hitro urejanje
PDFgear je obsežen brezplačni urejevalnik, ki vključuje tudi optično prepoznavanje znakov (OCR) na podlagi območij, kar je idealno za zajemanje le tistega dela, ki vas zanima. Odprite PDF, v glavnem zavihku aktivirajte »OCR« in z miško izberite območje, ki ga želite prepoznati., z možnostjo kopiranja v odložišče ali shranjevanja kot TXT.
Poleg optičnega prepoznavanja znakov (OCR) vam PDFgear omogoča urejanje besedila, dodajanje slik, komentiranje, označevanje, podpisovanje in zaščito dokumentov. Njegova spletna različica ne zahteva registracije ali vodnih žigov, namizni program za Windows 11 pa je lahek in stabilen., idealno za vsakodnevna opravila.
Google Dokumenti: Brezplačno pretvorite skenirano datoteko PDF
Z računom za google, preprosto naložite PDF v Drive, kliknite z desno miškino tipko in odprite z »Google Dokumenti«. Storitev samodejno zažene optično prepoznavanje znakov (OCR) in z izvlečenim besedilom ustvari dokument, ki ga je mogoče urejati., ki ga lahko nato prenesete na beseda, PDF ali navadno besedilo.
Ker gre za pretvorbo v oblaku, se postavitev ne ohrani vedno, še posebej, če je imel PDF zapletene tabele ali veliko slik. Kljub temu je za hitro ekstrahiranje in urejanje vsebine ena najučinkovitejših in najdostopnejših strategij..
Za razvijalce .NET: IronOCR
Če morate v svoje aplikacije integrirati OCR, je IronOCR visokozmogljiva knjižnica C#. Ponuja visoko natančnost, hitrost in podporo v realnem času za skeniranje, indeksiranje in prepoznavanje, z združljivostjo v zahtevnih sektorjih.
Primer minimalne uporabe v jeziku C# z njegovim visokonivojskim API-jem: Ta vzorec vam omogoča branje ene ali več slik in pridobitev prepoznanega besedila v spomin..
Delček kode za uporabo:
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddImage("Image.jpg");
// puedes añadir más imágenes si lo necesitas
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Pri licenciranju je IronOCR brezplačen za razvoj in ima poskusno različico; Komercialne licence so razdeljene glede na število razvijalcev in obstaja skupni paket več izdelkov. s prihranki v primerjavi z individualnimi nakupi.
Praktična primerjava in kako izbrati svoje orodje
Če iščete maksimalno natančnost in napredno urejanje PDF-jev, sta Acrobat Pro DC in ABBYY FineReader varni stavi. Prvi izstopa zaradi svojega ekosistema PDF, drugi pa zaradi natančnosti in nadzora slik., oba z obsežnimi možnostmi paketne obdelave in jeziki.
Za mešane delovne procese in dobro ravnovesje med ceno in funkcijami sta UPDF in EaseUS PDF Editor zelo usposobljena. UPDF prinaša oblak in avtomatizacijo, medtem ko EaseUS ponuja OCR in celovito urejanje z nežno krivuljo učenja. kar prepriča začetnike.
Če ne želite porabiti ničesar, FreeOCR, Google Docs in PDFgear pokrivajo veliko področja. FreeOCR pretvarja brez težav, Dokumenti omogočajo hitre pretvorbe v oblaku, PDFgear pa dodaja optično prepoznavanje znakov na podlagi območja in urejanje brez označevanja., vse brez plačila.
V poslovnem okolju SharePoint/OneDrive z integriranim optičnim prepoznavanjem znakov (OCR) zmanjšuje trenje ter dodaja iskanje in skladnost s predpisi. Poleg tega boste s programom PowerToys Text Extractor v sistemu Windows 11 imeli »švicarski nož« za takojšen zajem besedila z zaslona., nekaj, kar postane zasvojljivo, ko poskusiš.
Nasveti za izboljšanje natančnosti OCR
Poskrbite, da vaše slike ne presegajo omejitev in ohranite ustrezno ločljivost, pri čemer se izogibajte zamegljenim ali senčnim fotografijam. Vedno izberite pravilen jezik dokumenta in po možnosti izboljšajte kontrast ter poravnajte stran, preden jo prepoznate. za pomoč mehanizmu za optično prepoznavanje znakov (OCR).
Za PDF-je s tabelami uporabite orodja, ki ponujajo urejevalnike tabel (ABBYY/Readiris) ali izpis v Excel. Če potrebujete le fragment, vam zonsko optično prepoznavanje znakov (OCR) v PDFgearju ali ročna izbira v nekaterih urejevalnikih prihrani čas in vam kasneje prihranita čas pri čiščenju. v rezultatih.
Ko je dokument napisan ročno, ga preizkusite z iskalniki, ki to izrecno navajajo, in predvidite temeljit kasnejši pregled. Za velike serije omogočite čakalne vrste za obdelavo in preglejte možnosti večnitnosti ali obdelave v oblaku, če je vaša strojna oprema je omejeno.
Če gre kaj narobe z jeziki v PowerToys, preverite pakete OCR in jih znova namestite iz PowerShella. Ne pozabite, da brez nameščenega jezikovnega paketa ne bo prepoznavanja, tudi če je preostali del sistema v tem jeziku..
Nenazadnje upoštevajte zasebnost: pri občutljivih dokumentih dajte prednost lokalnim ali poslovnim rešitvam (SharePoint) pred spletnimi storitvami. Vedno preglejte pravilnike o podatkih in, če je mogoče, delajte z datotekami lokalno ali v nadzorovanih okoljih. da se ravna v skladu s predpisi.
Z vsemi temi možnostmi, od optičnega prepoznavanja znakov (OCR), vgrajenega v Microsoft 365, do brezplačnih pripomočkov in knjižnic za razvijalce, imate na dosegu roke celoten arzenal za pretvorbo PDF-jev in slik v uporabno besedilo v sistemu Windows 11; Izberite glede na svoj scenarij (hitra pretvorba, popolno urejanje, obseg ali izpolnitev) in že prvič vam bo uspelo..
Strasten pisec o svetu bajtov in tehnologije nasploh. Rad delim svoje znanje s pisanjem in to je tisto, kar bom počel v tem blogu, saj vam bom pokazal vse najbolj zanimive stvari o pripomočkih, programski opremi, strojni opremi, tehnoloških trendih in še več. Moj cilj je, da vam pomagam krmariti po digitalnem svetu na preprost in zabaven način.