Com funciona la visió artificial i per què es fa servir

Darrera actualització: 03/04/2026
Autor: Isaac
  • La visió artificial combina càmeres i sensors amb deep learning per interpretar imatges com a dades útils.
  • Les xarxes neuronals convolucionals extreuen característiques visuals i permeten tasques com classificació, detecció i segmentació.
  • El seu ús s´estén a indústria, sanitat, retail, transport, agricultura i seguretat, automatitzant decisions visuals complexes.
  • Gràcies a la precisió i la velocitat, s'ha convertit en un pilar de la IA aplicada i l'automatització en múltiples sectors.

visió artificial en funcionament

Vivim envoltats de sistemes capaços de veure, reconèixer i reaccionar gairebé tan ràpid com ho faria una persona, encara que moltes vegades passen desapercebuts. Des d'un mòbil que desbloqueja la pantalla amb la cara fins a una màquina industrial que detecta peces defectuoses al vol, tots ells es recolzen en tecnologies de visió artificial impulsades per intel·ligència artificial que han sortit del laboratori per instal·lar-se al dia a dia.

Encara que pugui semblar la darrera moda tecnològica, la realitat és que la intel·ligència artificial i la visió artificial porten dècades desenvolupant-se com a disciplines científiques. La diferència és que ara, gràcies a la potència de càlcul ia l'auge del aprenentatge profund, s'està explotant de debò el seu potencial: és possible entrenar models sense ser enginyer, democratitzar-ne l'ús en empreses de qualsevol mida i, sobretot, automatitzar decisions que abans depenien de la vista humana.

Què és exactament la visió artificial

De forma tècnica, la visió artificial (o visió per computadora) és la branca de la IA que s'ocupa de captar, processar, analitzar i comprendre imatges i vídeos del món real per traduir-los en dades numèriques o simbòliques que una màquina pugui gestionar. És a dir, converteix píxels en informació estructurada: objectes, categories, posicions, anomalies, patrons, etc.

Si la intel·ligència artificial persegueix que els sistemes de còmput raonin i prenguin decisions de forma autònoma, la visió artificial els aporta els ulls: els permet obtenir informació visual de l'entorn, interpretar-la i actuar en conseqüència sense intervenció humana directa. D'aquesta manera, un sistema pot, per exemple, decidir si una radiografia mostra una pneumònia possible o si un producte en una cadena de muntatge està fora d'especificacions.

En termes pràctics, implementar visió artificial suposa automatitzar tasques de detecció, classificació i seguiment d'imatges o vídeos que si les fes una persona requeririen temps, atenció constant i un alt grau d'especialització. A més, en basar-se en regles matemàtiques i estadístiques, redueix la subjectivitat i els biaixos propis de l'ull humà, minimitza errors i ajuda a homogeneïtzar criteris de qualitat o seguretat.

Tot això es tradueix en avantatges molt tangibles per a les organitzacions: menys costos, menys errors i decisions més ràpides basades en dades visuals. I, com a cirereta, permet explotar enormes volums d'imatges que seria impossible revisar manualment, una cosa clau en plena era del big data i la hiperconnectivitat.

Com funciona la visió artificial pas a pas

La visió artificial intenta imitar, essencialment, el procés de la vista humana: primer capta l'escena, després la transforma en senyals que un sistema pugui processar, després reconeix patrons i, finalment, genera una resposta. La gran diferència és que, en lloc d'un cervell biològic, es recolza en algorismes d'IA i xarxes neuronals profundes.

Perquè aquest procés funcioni, calen dos grans blocs: per una banda, els components físics de captació (càmeres, sensors, il·luminació, convertidors) i, de l'altra, els models d'IA que processen i entenen la imatge. Tots dos treballen mà a mà per convertir una simple fotografia o un fotograma de vídeo en informació accionable.

Captació de dades: càmeres, sensors i digitalització

La primera baula de la cadena és el maquinari. Un sistema de visió artificial modern incorpora càmeres digitals, sistemes d'il·luminació controlada, sensors i capturadors de fotogrames que s'encarreguen de fer imatges amb la qualitat adequada per a l'anàlisi posterior.

Les càmeres generen una imatge analògica de l'escena que, a continuació, passa per un convertidor analògic a digital. Aquest component transforma la llum recollida en una matriu de valors numèrics que representen els píxels de la imatge. Cada píxel pot codificar informació d'intensitat (en blanc i negre) o color (per exemple, en format RGB).

En entorns industrials o d'automatització avançada, és molt comú combinar aquesta captació d'imatge amb altres sistemes d'automatització i moviment: robots que posicionen les peces davant de la càmera, cintes transportadores sincronitzades amb el tret de la càmera, o sistemes mecànics que ajusten l'enfocament i la il·luminació per garantir sempre condicions òptimes.

Aquesta primera etapa pot semblar trivial, però és crítica: si les dades visuals que entren al sistema són pobres, sorollosos o inconsistents, per molt sofisticats que siguin els models d'IA, el resultat serà poc fiable. Per això, en projectes seriosos de visió artificial s'inverteix molt esforç en el disseny i el calibratge de la part òptica i d'adquisició. En molts desplegaments lleugers, fins i tot es fan servir dispositius i acceleradors compatibles amb Raspberry Pi per a prototipat i usos a escala reduïda.

Tecnologies clau: aprenentatge profund i xarxes neuronals convolucionals

Quan la imatge està digitalitzada, entra en joc la part “intangible”: els algorismes. Avui dia, la visió artificial moderna es recolza majoritàriament en aprenentatge profund (deep learning) i xarxes neuronals convolucionals (CNN), que han desplaçat moltes tècniques clàssiques basades en regles manuals.

L'aprenentatge profund és un tipus de machine learning basat en xarxes neuronals amb moltes capes. Durant l'entrenament, el model rep milers o milions d'imatges etiquetades (per exemple, cotxe, vianant, peça defectuosa, tumor, pulmó amb pneumònia) i aprèn a reconèixer patrons que diferencien unes classes de les altres, sense que un humà hagi de programar a mà quines vores o formes ha de buscar.

Les xarxes neuronals convolucionals estan dissenyades específicament per treballar amb dades visuals. En lloc de tractar la imatge com una llista plana de números, exploten l'estructura bidimensional dels píxels i apliquen filtres locals (nuclis) que llisquen per la imatge per detectar trets visuals: vores, textures, cantonades, patrons repetitius, etc.

En una CNN típica trobem almenys tres tipus de capes: capes convolucionals, capes d'agrupament (pooling) i capes totalment connectades. Les primeres fan l'extracció de característiques aplicant filtres; les segones redueixen la dimensionalitat mantenint la informació més rellevant; i les últimes integren tot allò après per produir una sortida, com una probabilitat de classe.

Com “veu” una CNN: convolucions, mapes de característiques i pooling

Des del punt de vista matemàtic, una CNN considera la imatge com una matriu de píxels i aplica-hi una altra matriu més petita anomenada filtre o nucli. Aquest filtre es desplaça per la imatge calculant un producte escalar entre els valors del filtre i els píxels de la zona que cobreix a cada posició.

En completar aquest escombrat, es genera un mapa d'activació o mapa de característiques, que indica com de fort respon aquest filtre concret a cada regió de la imatge. Cada filtre s'ajusta durant l'entrenament per respondre de manera intensa a cert tipus de patró (per exemple, línies horitzontals, cantonades, textures granulades, transicions d'intensitat suaus, etc.).

En apilar moltes capes convolucionals, la xarxa va construint una jerarquia de característiques visuals cada cop més complexes: a les primeres capes detecta vores simples, en capes intermèdies formes i components, i en capes profundes arriba a reconèixer objectes complets o parts molt específiques (com un ull, una roda o un contorn pulmonar sospitós en una radiografia).

Darrere d'aquestes capes convolucionals solen venir les capes d'agrupament o posada en comú. La seva funció és reduir la mida dels mapes de característiques prenent, per exemple, el valor màxim o la mitjana dins de petits blocs de píxels. Això comprimeix la informació, fa el model més eficient i li aporta certa invariància a petites translacions o deformacions a la imatge.

Propagació cap endavant, funció de pèrdua i retropropagació

Tot el recorregut que va des de la imatge d'entrada fins a la sortida del model es coneix com propagació cap endavant (forward pass). En aquesta fase, la xarxa aplica successivament convolucions, activacions no lineals, operacions de pooling i, finalment, capes totalment connectades que fan la part de classificació o regressió.

Al final de la propagació cap endavant, el model produeix una sortida: en classificació d'imatges, sol ser un vector de probabilitats associades a cada classe possible (per exemple, “normal” o “pneumònia” en una radiografia de tòrax). Per avaluar si el model ho ha fet bé, aquesta predicció es compara amb l'etiqueta real mitjançant una funció de pèrdua que mesura lerror.

L'entrenament consisteix a iterar moltes vegades aquest procés i ajustar els paràmetres del model perquè la funció de pèrdua disminueixi. Això es fa amb la famosa tècnica de la retropropagació (backpropagation), que calcula el gradient de la pèrdua respecte a cada pes de la xarxa. Utilitzant un algorisme d'optimització, com ara el descens de gradient, s'actualitzen els pesos a la direcció que redueix l'error.

Amb el temps i suficients dades d'entrenament ben etiquetats, la CNN aprèn a distingir patrons visuals molt subtils. En imatges mèdiques, per exemple, pot detectar contorns pulmonars asimètrics, zones més brillants que revelen inflamació o presència de líquid, àrees ennuvolades o opaques i textures irregulars que de vegades passen desapercebudes a l'ull humà, ajudant a la detecció primerenca de malalties.

Del reconeixement bàsic a les tasques avançades de visió artificial

La visió artificial no es limita a dir “què hi ha a la imatge”. A partir dels mateixos fonaments de CNN i deep learning, s'han anat construint diferents tasques especialitzades que resolen problemes concrets en sectors molt diversos.

La tasca més senzilla és la classificació d'imatges: s'assigna una única etiqueta a la imatge completa (gat, gos, cargol correcte, cargol defectuós, etc.). Un pas més enllà hi ha la detecció d'objectes, on a més d'identificar la classe es localitza cada objecte dins la imatge dibuixant quadres delimitadors.

Quan es requereix precisió màxima a nivell de píxel, es recorre a la segmentació d'instàncies, que genera una màscara per a cada objecte individual, fins i tot si pertanyen a la mateixa classe. Aquesta capacitat és vital, per exemple, a anàlisi d'imatges mèdiques, on interessa separar i quantificar tumors, teixits o òrgans de forma exacta.

Una altra tasca molt estesa és la estimació de postura, que detecta punts clau (articulacions, extremitats, etc.) en cossos humans o altres objectes articulats. Això es fa servir en esport, ergonomia, realitat augmentada i en sistemes de seguretat que monitoritzen postures dels treballadors per evitar lesions o accidents.

Visió artificial, machine learning i deep learning: en què es diferencien

En moltes converses es barregen conceptes com intel·ligència artificial, machine learning i deep learning com si fossin sinònims, cosa que genera força confusió. Entendre la seva relació ajuda a situar correctament la visió artificial dins aquest ecosistema.

La intel·ligència artificial és el paraigua més ampli: engloba qualsevol tècnica que permeti a una màquina realitzar tasques que associem a la intel·ligència humana (raonar, aprendre, planificar, interpretar llenguatge, veure, etc.). Dins ella, el machine learning és el conjunt de mètodes que permeten que un sistema aprengui de les dades sense ser programat explícitament amb regles fixes.

El machine learning inclou molts algorismes (arbres de decisió, màquines de suport vectorial, regressions, etc.) que es poden utilitzar per a problemes molt variats: predicció de risc d'impagament, classificació de correus com spam o no spam, recomanació de productes, etc. En visió artificial, aquests mètodes tradicionals s'han fet servir per a tasques senzilles o quan el volum de dades no és molt gran.

El deep learning és un subconjunt del machine learning que es caracteritza per fer servir xarxes neuronals de grans dimensions i múltiples capes. Aquestes xarxes són especialment potents quan es treballa amb gran quantitat de dades i, en particular, amb imatges, ja que són capaços d'extreure per elles mateixes les característiques rellevants sense intervenció humana directa.

En visió artificial moderna, el deep learning és l'opció preferida: permet un nivell de detall, generalització i robustesa molt superior al d'enfocaments clàssics, sempre que hi hagi prou dades i capacitat de còmput. És, en gran mesura, el motor que ha impulsat el salt qualitatiu de la visió artificial a la darrera dècada.

Visió artificial vs. processament d'imatges

Tot i que estan molt relacionats, convé distingir entre processament d'imatges i visió artificial, ja que de vegades es fan servir de forma indistinta i no són el mateix. Solen treballar plegats, però persegueixen objectius diferents.

El processament d'imatges se centra en manipular la imatge com a tal: millorar el contrast, ajustar la brillantor, reduir el soroll, aplicar filtres, canviar la mida, etc. El resultat daquest tipus doperacions sol ser una altra imatge transformada. És el que fan moltes eines dedició fotogràfica, però també és la base per preparar imatges abans de passar-les a un model dIA.

La visió artificial, en canvi, pren una imatge o un vídeo com a entrada i produeix informació sobre el contingut: quins objectes apareixen, on són, quin tipus d'escena és, si hi ha anomalies, quantes persones creuen una porta, etc. El resultat ja no és una altra imatge, sinó dades estructurades o decisions automàtiques.

A la pràctica, els sistemes de visió artificial moderns solen incloure una etapa de processament d'imatges prèvia (per normalitzar il·luminació, retallar zones d'interès, corregir distorsions, etc.) que facilita el treball posterior de les xarxes neuronals profundes encarregades de la interpretació.

Aplicacions reals de la visió artificial a diferents sectors

La versatilitat de la visió artificial fa que les seves aplicacions s'estenguin pràcticament a qualsevol àmbit on hi hagi imatges o vídeos per analitzar. Des de la fabricació industrial fins a la medicina, passant pel comerç al detall, la banca, la logística, l'agricultura o el sector públic, el seu impacte creix any rere any.

Moltes empreses ja no es pregunten si fer servir visió artificial, sinó com integrar-la de forma estratègica per millorar els seus processos, reduir costos, augmentar la seguretat o conèixer millor el comportament dels clients. A continuació es recullen alguns dels casos dús més representatius.

Fabricació, indústria i control de qualitat

A la indústria manufacturera, la visió artificial s'ha convertit en una eina clau per a l'automatització i el control de qualitat. Les càmeres instal·lades a les línies de producció supervisen contínuament les peces que passen per davant i detecten defectes en fraccions de segon.

Aquestes solucions permeten monitoritzar estacions de treball automatitzades, fer comptatges físics i inventaris, mesurar paràmetres de qualitat (acabats, dimensions, color), detectar residus o contaminants i verificar que cada producte compleix exactament les especificacions.

En combinació amb altres tecnologies com la impressió 3D o les màquines CNC, la visió artificial ajuda a replicar i produir peces molt complexes amb una precisió extrema. A més, en integrar-se amb sensors IoT, contribueix a anticipar problemes de manteniment, identificar anomalies en el funcionament de les màquines i evitar parades imprevistes.

No només detecta defectes de producte: també pot vigilar l'ús correcte dels equips de protecció, detectar situacions de risc en plantes de producció i generar alertes primerenques per prevenir accidents laborals.

Retail, màrqueting i experiència de client

Al comerç minorista i el gran consum, la visió artificial s'utilitza per a seguir de prop l'activitat dels clients a la botiga: com es mouen, quines zones visiten, quant de temps s'aturen davant d'un lineal o quina combinació de productes miren abans de decidir-se.

Aquesta informació, anonimitzada i tractada de forma agregada, permet optimitzar la distribució dels productes, redissenyar el recorregut de l'establiment i ajustar campanyes de màrqueting amb un nivell de detall impossible daconseguir només amb analítica web o enquestes.

També s'estan estenent els sistemes de autopagament assistits per visió artificial, capaços de reconèixer articles sense necessitat d'escanejar codis de barres un per un. Això millora lexperiència del client, redueix cues i aplana el camí cap a models de botiga sense caixes tradicionals.

Més enllà del punt de venda físic, les marques aprofiten la visió artificial per analitzar imatges a xarxes socials, detectar tendències visuals, estudiar com es fan servir els seus productes al món real i ajustar així la seva estratègia de producte o comunicació.

Seguretat, vigilància i sector públic

La visió artificial és un pilar fonamental en sistemes de seguretat i protecció d'instal·lacions. Cambres intel·ligents i sensors distribuïts vigilen espais públics, zones industrials crítiques o àrees restringides i llancen alertes automàtiques quan detecten comportaments anòmals.

Aquests sistemes poden identificar presència de persones no autoritzades, accessos fora dhorari, objectes abandonats o patrons que suggereixen un possible incident. En alguns casos, integren el reconeixement facial per a l'autenticació d'empleats o el control d'accessos d'alta seguretat.

A l'àmbit domèstic, la visió artificial s'aplica a càmeres connectades que reconeixen persones, mascotes, paquets lliurats o moviments inusuals, enviant notificacions al mòbil de l'usuari. A la feina, ajuda a verificar que els empleats usen l'equip de protecció requerit o compleixen normes de seguretat crítiques.

Els governs i les ciutats intel·ligents la utilitzen per monitoritzar el trànsit, ajustar dinàmicament semàfors, detectar infraccions i millorar la seguretat ciutadana. També s'incorpora a sistemes duaners per automatitzar part de les inspeccions visuals.

Sanitat, diagnòstic i anàlisi d'imatges mèdiques

La medicina és un dels camps on la visió artificial està produint un canvi més profund a la pràctica clínica. Les tècniques d‟anàlisi d‟imatges mèdiques permeten visualitzar òrgans i teixits amb gran precisió i oferir suport objectiu als professionals.

Entre els usos més habituals hi ha la detecció de tumors mitjançant l'anàlisi de lunars i lesions cutànies, la interpretació automàtica de radiografies (per exemple, per identificar pneumònies o fractures) i el descobriment de patrons subtils en ressonàncies magnètiques o tomografies computaritzades.

Els sistemes dotats de visió intel·ligent ajuden a reduir els temps de diagnòstic, millorar la precisió i prioritzar casos urgents. També es poden vincular a grans bases de dades d'historials clínics per suggerir possibles diagnòstics diferencials o tractaments.

A més, la visió artificial s'aplica a dispositius dajuda a persones amb discapacitat visual, capaços de llegir textos i convertir-los en veu mitjançant reconeixement òptic de caràcters (OCR), o de descriure visualment l'entorn de manera simplificada.

Vehicles autònoms i transport

En l'àmbit de l'automoció, la visió artificial és una tecnologia absolutament central per la conducció assistida i els vehicles autònoms. Múltiples càmeres muntades al vehicle capten l'entorn en temps real i alimenten models d'IA que ho interpreten de manera contínua.

Aquests sistemes són capaços de detectar vianants, altres vehicles, senyals de trànsit, marques vials i obstacles, generant representacions 3D de l'entorn en combinar la informació de les càmeres amb altres sensors com LiDAR o radar.

En vehicles semiautònoms, la visió artificial es fa servir també per monitoritzar l'estat del conductor, analitzant la posició del cap, el moviment de la part superior del cos i la direcció de la mirada per detectar signes de fatiga, distracció o somnolència.

Quan s'identifiquen patrons de risc, el sistema pot emetre alertes sonores o visuals, activar vibracions al volant o fins i tot prendre el control parcial per reduir la velocitat i mitigar el perill. Això ha demostrat ser molt efectiu per disminuir accidents per cansament.

Agricultura i sector agroalimentari

El sector agrícola ha trobat a la visió artificial un aliat clau per avançar cap a models d'agricultura de precisió i intel·ligent. Les imatges captades per satèl·lits o drones permeten analitzar grans extensions de terreny amb un nivell de detall impensable fa uns anys.

Amb aquestes eines és possible vigilar l'estat dels cultius, detectar malalties de forma primerenca, controlar la humitat del sòl i estimar el rendiment de les collites amb antelació. Tot això facilita una gestió més eficient de recursos com l'aigua, els fertilitzants o els fitosanitaris.

La visió artificial també s'ha incorporat a sistemes que monitoritzen el comportament del bestiar, identifiquen animals malalts, detecten parts o controlen l'accés a zones específiques. Aquesta automatització millora el benestar animal i optimitza la productivitat global de les explotacions.

A la indústria alimentària, a més, s'utilitza des de fa dècades per controlar la qualitat en línies de producció, verificar l'aspecte de fruites i verdures, revisar l'envasament i garantir-ne la seguretat alimentària.

Banca, assegurances i telecomunicacions

Al sector financer, la visió artificial s'empra per a detectar senyals visuals de frau o comportaments anòmals, tant en oficines físiques com en operacions realitzades a distància. Per exemple, es pot comparar la imatge en temps real d'un usuari amb la foto emmagatzemada a la documentació.

També s'integra a processos de subscripció d'assegurances, on la inspecció de danys en vehicles o immobles es pot automatitzar en part a partir de fotografies enviades pel client, reduint temps i costos.

En telecomunicacions, les companyies utilitzen la visió artificial per a predir i detectar abandonaments de clients combinant informació visual (per exemple, ús de certs dispositius o instal·lacions) amb altres dades de comportament, cosa que permet anticipar-se amb ofertes i millores de servei.

A més, l'autenticació mitjançant reconeixement facial s'està estenent com a mètode d'accés segur a serveis bancaris i corporatius, sempre en combinació amb altres mesures de seguretat.

Logística, transport de mercaderies i immobiliari

En logística, la visió artificial ajuda a controlar i seguir mercaderies en temps real sense necessitat d'escàners manuals intensius. N'hi ha prou amb càmeres estratègicament situades per llegir etiquetes, identificar bonys o verificar que tot està correctament col·locat.

En integrar-se amb tecnologies com RFID, aquests sistemes permeten monitoritzar inventaris, gestionar magatzems i optimitzar rutes de repartiment de manera molt més eficient. També són útils per detectar danys en paquets durant el transport.

Al sector immobiliari, la visió artificial s'aplica per a generar recorreguts virtuals i interactius pels habitatges, reconèixer i etiquetar estades, mesurar espais i oferir a l'usuari informació detallada sobre les característiques de l'immoble sense necessitat de visites físiques múltiples.

Aquesta combinació d'imatges d'alta qualitat i anàlisi intel·ligent estalvia temps tant a les agències com als potencials compradors o llogaters, i contribueix a tancar operacions de manera més àgil.

Educació, fires i aplicacions personals

En educació, la visió artificial s'està fent servir per simular entorns pràctics, laboratoris virtuals i casos reals que permetin als estudiants experimentar amb situacions properes al món professional sense sortir de l'aula.

A fires i congressos, les càmeres amb visió artificial permeten analitzar el comportament dels assistents: fluxos de persones, punts calents, interacció amb estands i, en alguns casos, fins i tot estimar reaccions emocionals generals davant de determinades experiències.

A nivell personal, a més dels ja esmentats sistemes d'ajuda a invidents i traducció visual instantània (com quan apuntes amb el mòbil a un cartell en un altre idioma), la visió artificial impulsa aplicacions de realitat augmentada, filtres de xarxes socials i jocs interactius que depenen d'entendre en temps real què hi ha davant de la càmera.

Tot plegat evidencia que la visió artificial no és una curiositat de laboratori, sinó una tecnologia transversal amb impacte directe a l'economia, la seguretat i la vida quotidiana, el potencial del qual amb prou feines estem començant a aprofitar.

En conjunt, la visió artificial combina sensors, càmeres i convertidors amb algorismes de deep learning i xarxes convolucionals per transformar imatges i vídeos en coneixement útil, automatitzar decisions i augmentar la precisió i velocitat de processos en sectors molt diversos. La seva capacitat per aprendre de grans volums de dades visuals, reduir la subjectivitat humana i detectar patrons que l'ull no veu, la col·loca com una de les peces clau del ecosistema de la intel·ligència artificial moderna i com una palanca decisiva perquè empreses i organitzacions guanyin competitivitat, millorin la seguretat i prestin serveis més eficients i personalitzats.

vision desktop share
Article relacionat:
Vision Desktop Share de Copilot: Funcions, privadesa i disponibilitat