Tesseract OCR Tutorial ee loogu talagalay Windows, Python, iyo NET

Cusbooneysiintii ugu dambeysay: 10/10/2025
Author: Isaac
  • Taageerada luuqadaha badan iyo qaababka wax soo saarka ee sawir-qaadista hufan.
  • Is dhexgalka fudud oo leh Python (Pytesseract) iyo .NET deegaanka.
  • IronOCR waxay keentaa horudhac iyo API-yo heer sare ah Tesseract.

Tesseract OCR Tutorial

Haddii aad xiisaynayso in aad sawirada ama PDF-yada u beddesho qoraal la tafatiran karo adiga oo aan la halgamin qalab adag, ama Ka soo saar qoraalka sawirada gudaha Windows 11, warka wanaagsan waa taas maanta Tesseract OCR waa xal awood leh, xor ah oo aad u dabacsanHagahan wax ku oolka ah waxaynu ku eegaynaa waxa ay tahay, sida loo rakibo Windows, sida looga ansixiyo konsole, iyo sida loogu daro Python labadaba (iyada oo loo sii marayo Pytesseract) iyo .NET, iyo sidoo kale beddelka guud ee loo isticmaalo nidaamka deegaankaas: IronOCR.

Marka laga soo tago rakibidda iyo gujinta badhanka, waxaad arki doontaa sida loo diyaariyo deegaanka, meesha lagu daro dariiqa la fulin karo, waxa la sameeyo haddii qaladka caadiga ah uu soo baxo TesseractNotFoundError ee Python, iyo sida loogu habeeyo qoraalada luuqado badan (Isbaanish, Ingiriis, Faransiis, Boortaqiis, iyo xitaa xirmooyinka sida Xisaabta) gudaha codsiyada. Hadafka ayaa ah inaad ku dhameysato xasillooni, socodka shaqada OCR-soo-saarka diyaarsan., oo ka daboolaya khadka amarada ilaa lagu isticmaalo C # oo leh maktabado gaar ah.

Waa maxay Tesseract OCR?

Tesseract waa matoorka OCR il furan, oo lagu daabacay shatiga Apache 2.0. Waxay ku dhalatay sannadihii 80-aadkii Hewlett-Packard waxaana hadda gacanta ku haya bulshada oo leh dadaal xooggan GoogleHadafkeedu waa cad yahay: ku falanqeyso pixels sawirka (TIFF, PNG, JPEG, iyo kuwo kale) si loo ogaado jilayaasha, erayada, iyo xariiqyada, oo u soo saaraan waxa ku jira qoraal la akhrin karo mashiinka.

Waxaa si xor ah looga isticmaali karaa khadka taliska, taasoo ka dhigaysa otomaatig iyo qoraal-qorid fudud. Intaa waxaa dheer, waxay taageertaa luqado badan waxaana loo tababari karaa xarfaha cusub ama alifbeetada., waana sababta ay ugu badan tahay dukumeentiga digitization, habaynta qaansheegta, kaydinta ama gelida

Soo deji oo ku rakib Tesseract Windows

Daaqadaha, dariiqa ugu toosan waa in la isticmaalo rakibe hore loo soo ururiyey. Isha ugu weyn waa kaydka rasmiga ah ee GitHub (tesseract-ocr/tesseract), halkaas oo aad ka heli doonto binaries saxeexan iyo noocyadii dhawaa.

Ka mid ah rakibayaasha la heli karo, waa wax caadi ah in la arko xirmooyinka sida tesseract-ocr-w64-setup-5.3.0.20221222.exe (64 jajab). Soo deji oo socodsiiSaaxirku wuxuu kugu hagi doonaa habaynta tallaabo-tallaabo, oo ay ku jirto doorashada luqadda rakibaha iyo xidhmooyinka luqadda.

Luqadda rakibaha iyo xogta luqadda

Inta lagu jiro rakibidda, saaxirku wuxuu ku weydiin doonaa inaad doorato luqaddaada. Ingiriisigu inta badan waa furaha, laakiin waxaad ku dari kartaa baakado dheeraad ah sida Isbaanishka, Faransiiska, ama xitaa qaybaha gaarka ah sida Xisaabta haddii aad u baahan tahay. Xulashadani waxay qeexaysaa moodooyinka lagu koobiyeeyay hagaha xogta (tessdata).

Shatiga, isticmaalayaasha iyo qaybaha

Tesseract waxaa lagu qaybiyaa Liisanka Apache 2.0, si aad u isticmaali karto oo aad dib ugu qaybiso si dabacsanaan leh. Rakibiyaha ayaa ku weydiin doona inaad aqbasho shatiga, dooro inaad ku rakibto hal isticmaale ama dhammaan isticmaalayaasha, oo dooro qaybaha. Walxaha waxtarka leh waxaa lagu doortaa si toos ah, sida ScrollView, qalabka tababarka, jeexyada gaaban, iyo xogta luqadda.

Jidka Rakibaadda iyo Galka menu Start

Saaxirku wuxuu kuu ogolaanayaa inaad doorato galka meesha aad ku socoto. Qor jidkaas, waxaad u baahan doontaa doorsoomiyaha deegaanka. Waxaad markaas magacaabi kartaa galka menu-ka Start halkaas oo meelaha gaaban laga sameeyay. Marka la dhammeeyo, dhagsii Install, marka la dhammeeyo, dhagsii dhame si aad u xidhid.

  Sideen uga saari karaa midabka iftiiminta dukumeentigeyga Word?

Ku dar Tesseract doorsoomiyaha deegaanka ee Windows

Si aad amarkii tesseract uga socodsiiso daaqad kasta cmd o PowerShell, waa ku habboon tahay ku dar galka rakibaadda jidka nidaamka. Sidan ayay Windows ku ogaan doontaa halka laga helayo kuwa la fulin karo iyada oo aan lahayn waddooyin dhammaystiran.

Tag raadinta menu-ka Start oo ku qor " doorsoomayaasha deegaanka" ama "Settings system settings." Daaqadda Properties System, aad tab Advanced oo guji Doorsoomayaasha Deegaanka.

In nidaamka Variables block, dooro Jidka, dhagsii Edit ka dibna Cusub. Ku dheji wadadii lagu rakibay Tesseract (tusaale ahaan, C:\Program FilesTesseract-OCR) oo ku xaqiiji OK dhammaan daaqadaha.

Ka hubi rakibaadda console-ka

Fur cmd ama PowerShell oo orod: tesseractHaddii wax walba ay hagaagsan yihiin, waxaad arki doontaa fariinta isticmaalka, nooca la rakibay, iyo liiska xulashooyinka ay taageerto utility. Tijaabadani waxay xaqiijinaysaa in waddadu sax tahay iyo binary-ga ayaa ka jawaabaya.

Ku rakib Tesseract macOS

MacOS, waxaad ku rakibi kartaa utility maamulayaasha xirmada. Iyadoo Homebrew, orod diyaari rakib tesseract. Haddii aad isticmaalayso MacPorts, amarka u dhigma waa sudo port install tesseract. Labada waddo soo deji oo diwaangeli kuwa la fulin karo in laga isticmaalo terminal.

Farqiga u dhexeeya Tesseract iyo Pytesseract

Way ku habboon tahay in la kala saaro fikradaha: Tesseract waa mashiinka OCR, binary-ga sameeya aqoonsiga. Pytesseract waa duubka Python kaas oo wacaya mishiinka oo qaabeeya wax soo saarka qoraalladaada. Haddii aad ka shaqaynayso Python, waxaad u baahan doontaa Tesseract in lagu rakibo nidaamkaaga iyo Pytesseract ee deegaankaaga.

Isticmaalka aasaasiga ah ee Python iyo xalka TesseractNotFoundError

Mid ka mid ah khaladaadka ugu caansan marka aad bilowdo Python waa TesseractNotFoundError. Waxay dhacdaa marka Pytesseract uusan helin matoorka la fulin karo, badanaa sababtoo ah kuma jirto Waddada ama dariiqa lama dejin script.

Si taas looga fogaado Windows, waxaad si cad u dejin kartaa dariiqa koodhkaaga adoo tilmaamaya kuwa la fulin karo. Tusaalaha ugu yar ee Pytesseract:

import pytesseract
from PIL import Image

# Ajusta esta ruta a tu instalación real en Windows
pytesseract.pytesseract.tesseract_cmd = r'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'

texto = pytesseract.image_to_string(Image.open('mi_imagen.png'), lang='spa')
print(texto)

Sidoo kale, hubi in xidhmada luqadda aad u baahan tahay la heli karo (tusaale ahaan, HBS Isbaanish). Haddaysan ahayn, ku rakib xogtaas la tababaray hagaha tessdata ee saxda ah. Tani waxay xallisaa inta badan shilalka. marka la bilaabayo Python.

OCR luqado badan: Fikradaha iyo Dhaqanka

Mashaariicda leh dukumeenti luqado badan ah ( qaansheegyo, qandaraasyo ama kayd taariikhi ah), Tesseract wuxuu kuu ogolaanayaa inaad isku darto luqadaha si loo horumariyo ogaanshaha marka qoraallada kala duwani ay wada nool yihiin. Furaha ayaa ah in la haysto faylalka tababarka ee ku habboon gudaha tessdata.

Marka nuxurku isku daro, tusaale ahaan, Ingiriisi, Isbaanish iyo Faransiis, waxaad u sheegi kartaa mishiinka inuu tan sameeyo. isku mar ka fiirso xarfo iyo qaabab badanTani waxay sidoo kale khuseysaa maktabadaha heerka sare ah sida IronOCR ee .NET.

Ka samee mashruuc Visual Studio oo isticmaal Tesseract.NET

Haddii aad ka shaqeyso deegaanka Microsoft, fur Visual Studio oo samee a Codsiga Console (ama qaab kasta oo aad door bidayso). Magaca mashruucaaga, dooro nooca NET, oo xalkaaga la abuuray, waxaad diyaar u tahay inaad ku maamusho xirmooyinka NuGet.

  Habka saxda ah ee loogu suurtagelin karo Apps iyadoo la adeegsanayo Firewall gudaha guriga windows 10/11

Ku rakib Tesseract kumbuyuutarkaaga (sida aan ku sharaxnay) oo mashruuca dhexdiisa ku dar xirmada Tesseract ama Tesseract.NET Ka socota Maareeyaha Xidhmada NuGet. Tani waxay ku daraysaa duubka si ay ula falgalaan mishiinka C #.

Tusaale akhriska sawirka leh luqado badan wuxuu u ekaan karaa sidan, tilmaamaya jidka loo maro tessdata iyo liiska luqadaha:

using System;
using System.Drawing;
using Tesseract;

class Program
{
    static void Main()
    {
        // Ruta a los archivos de datos de idioma (.traineddata)
        string tessDataPath = @"./tessdata";
        // Imagen a procesar
        string imagePath = @"ruta_a_tu_imagen.png";

        using (var img = Pix.LoadFromFile(imagePath))
        using (var engine = new TesseractEngine(tessDataPath, "eng+spa+fra", EngineMode.Default))
        using (var page = engine.Process(img))
        {
            string text = page.GetText();
            Console.WriteLine("Recognized Text:");
            Console.WriteLine(text);
        }
    }
}

Hubi in kuwan soo socdaa ay ku jiraan galka tessdata: .tababarka luqad kasta in aad ku dhawaaqdo. Qolka tijaabada ee caadiga ah waa eng+spa+fra, laakiin waad ballaarin kartaa si aad ugu habboonaato baahiyahaaga.

IronOCR: Maktabadda NET ee Tesseract ku salaysan

Nidaamka deegaanka ee NET waxaa jira ikhtiyaar wax soo saar ku jihaysan oo la yiraahdo IronOCR, kaas oo ku tiirsan Tesseract laakiin bixiya API- heer sare ah, dukumeenti ballaaran, iyo agabka horu-socodka. Waxaa lagu rakibay NuGet gudaha Studio-ga Visual iyadoo la isticmaalayo xirmo-hele.

Isticmaalkeeda aasaasiga ah ee akhrinta qoraalka sawirka waa mid toos ah. Tusaale fudud:

using IronOcr;

var ocr = new IronTesseract();
string texto = ocr.Read(@"test-files/redacted-employmentapp.png").Text;
Console.WriteLine(texto);

Haddii aad door bidayso in badan oo la xakameeyo gelinta (sawiro badan, hagaajin, iwm.), waxaad dhisi kartaa OcrInput oo u gudbi mishiinka. Tusaale ahaan isticmaalka qaabka:

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddImage("test-files/redacted-employmentapp.png");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

Faa'iidada muhiimka ah waa taas IronOCR waxay taageertaa in ka badan 120 luqadood, wuxuu isku daraa ogaanshaha tooska ah wuxuuna ku daraa nadiifinta sawirka, dhimista qaylada, iyo qalabka hagaajinta artifact kuwaas oo, ficil ahaan, hagaajinaya saxnaanta dukumentiyada adag.

Ku rakib IronOCR oo wata NuGet iyo xidhmooyin luqadeed

Si aad ugu darto xalkaaga, fur Visual Studio oo u gudub Qalabka> Maamulaha Xidhmada NuGet> Maamul Xirmooyinka Xalka. Raadi "IronOCR" oo dooro xirmada ugu weynHaddii aad qorsheyneyso inaad ku shaqeyso luqado dheeri ah, sidoo kale ku rakib xirmooyinka luqadda lagama maarmaanka ah.

Mashaariicda luuqadaha badan ku hadasha, xasuusnoow in Ingiriisigu caadi ahaan si caadi ah loo heli karo, laakiin Isbaanish ama Faransiis waa inaad ku dartaa baakadahaTani waxay kaa badbaadin doontaa wakhti markaad dejinayso hantida Luqadda mashiinka.

Ku Akhrinta Luuqado Badan oo leh IronOCR (C#)

Tusaalaha soo socdaa waxa uu tusinayaa sida loo mideeyo saddex luqadood oo loo habeeyo sawirka. Waa habayn dabiici ah marka Ma hubtid luqadda ugu weyn dukumeenti kasta:

using IronOcr;

class Program
{
    static void Main(string[] args)
    {
        var Ocr = new IronTesseract();
        Ocr.Language = OcrLanguage.English + OcrLanguage.Spanish + OcrLanguage.French;

        var inputFile = @"ruta\\a\\tu\\imagen.png";
        using (var input = new OcrInput(inputFile))
        {
            var result = Ocr.Read(input);
            Console.WriteLine("Text:");
            Console.WriteLine(result.Text);
        }
    }
}

Marka lagu daro API-ga fudud, IronOCR waxay u taagan tahay in lagu daro diyaarinta sawirka (deskow, binarization, nadiifinta cidhifka), taas oo badanaa keenta guulo badan oo leh dukumeenti la sawiray ama sawiro leh iftiin aan sinnayn.

Faa'iidooyinka iyo tixgelinta IronOCR iyo Tesseract "saafi ah".

Iyadoo Tesseract uu yahay bilaash oo aad u dabacsan, IronOCR waxay bixisaa a waayo-aragnimada tooska ah ee NET, oo wata dukumeenti, tusaaleyaal, iyo astaamo u diyaarsan shirkad. Ilaha shirkadu waxay soo xiganayeen saxnaanta ogaanshaha ee ku dhawaad ​​99,8% ee xaaladaha ku habboon, oo ay la socoto taageerada taxanaha badan iyo dayactirka firfircoon.

  Adobe Illustrator CC: Sida Dhakhso Loogu Badalo Luuqada (Tusaale).

Sidoo kale saaxiibtinimo badan oo isdhexgalka (kaliya habayn, muunado mashruucyo, iyo API-yo isku xidhan), oo lagu taageerayo in ka badan 120 luqadood, oo ay ku jiraan kiisas kakan iyo luuqado badan oo isla dukumeenti ah. Soo noqoshada, IronOCR waa lahaanshaha iyo lacag bixinta, oo leh shati nololeed iyo 24/7 ikhtiyaar taageero macaamiisha.

Hababka ugu wanaagsan ee lagu wanaajinayo saxnaanta OCR

Inkasta oo matoorku uu adag yahay, natiijadu waxay si weyn ugu xiran tahay tayada sawirada. Isku day inaad isticmaasho qaraaro sare, iska ilaali buuqa iyo alaabta, si sax ah u waafaji dukumeentiga oo hagaaji farqiga. Haddii aad sawiro ku shaqaynayso, ka taxadar nalka oo saxo qalfoofka ka hor inta aanad samayn OCR.

Iyada oo la adeegsanayo Tesseract " saafi ah ", waxaa laga yaabaa inay lagama maarmaan noqoto in sawirada caadiga ah laga dhigo ama la mariyo shaandhada hore si loo helo natiijooyin wanaagsan. Aaladaha sida IronOCR waxay caawiyaan iyagoo si otomaatig ah uga dhigaya inta badan diyaarintan., kaas oo fududeeya gudbinta qoraallada nadiifka ah ee xaaladaha u baahan.

Wax soo saarka iyo qaababka aad dhalin karto

Marka lagu daro qoraalka cad, Tesseract ayaa soo saari kara wax soo saarka HTML/hOCR ama PDFs oo wata qoraal la dooran karoTani waxay albaabada u furaysaa tusmaynta, raadinta, iyo muujinta jajabyada ku jira dukumeentiyada, ama ku biirinta kaydinta dhijitaalka ah ee socodka shaqada halkaasoo awoodaha goobiddu ay fure u yihiin.

Marka laga soo tago qoraalka cad, Tesseract waxa uu soo saari karaa HTML/hOCR ama PDFs leh qoraal la dooran karo, taas oo sahlaysa in la sameeyo PDF u beddel Word oo sii wad tafatirka

Isdhexgalka gaarka ah, waad awoodaa ka dib natiijada, codso jeegaga higaada ama moodooyinka NLP si aad u xoojiso hay'adaha, caadi uga dhigto tirooyinka, una diyaariso nuxurka database ama qalab gorfaynta.

Rakibaadda la hagayo ee Daaqadaha: Tilmaamaha Wizard

Haddii aad rabto liis hubin degdeg ah oo saaxir ah: dooro luqadda rakibaha, aqbal shatiga Apache 2.0, go'aanso haddii rakibiddu ay tahay adiga ama dhammaan isticmaaleyaasha, iyo ka tag qaybaha lagu taliyey ee firfircoon (ScrollView, qalabka tababarka, gaagaaban iyo xogta luqadda).

Dooro galka meesha aad ku socoto (xusuusnow inaad ku koobiyeeyso Waddada), magac gal galka menu-ka bilow haddii ay khuseyso, oo taabo Ku rakib. Marka la dhammeeyo, ku ansixi "tesseract" gudaha console-ka si loo hubiyo in wax walba si sax ah uga jawaabaan qalabkaaga.

Ku rakibida baakado hore loo soo ururiyey iyo doorashada luqadaha

Markaad ka soo dejiso GitHub, waxaad arki doontaa rakibayaal badan oo u dhisaya naqshado kala duwan. Dooro 64-bit haddii nidaamkaagu taageerayo.Wizard-ka, waxaad dooran kartaa luqado gaar ah; tani waa fikrad wanaagsan. ku rakib kuwa aad isticmaalayso (Isbaanish, Boortaqiis, Faransiis, Xisaab, iwm.) si looga fogaado raadinta dambe.

Haddii aad hadhow u baahato inaad ku balaadhiso luuqado kale, waxaad ku dari kartaa .traineddata galka tessdata. Modularity waa mid ka mid ah qodobbada xooggan ee engine si ay ula qabsadaan domains kala duwan.

Sida PDF loogu badalo Word si loo tafatiro
Maqaalka laxiriira:
U beddel PDF Word si aad wax u tafatirto: hababka khadka tooska ah, Word, iyo OCR