Claude Opus 4.5: novetats, preus i millores reals

Mundobytes » intel·ligència Artificial » Claude Opus 4.5: totes les novetats, preus i millores

Opus 4.5 lidera a programació i agents, amb 80,9% a SWE-Bench i millor que rivals.
Nou paràmetre desforç i caiguda de preu a 5/25 USD per milió de tokens.
Actualitzacions a Chrome, Excel i Claude Code, amb seguretat i memòria reforçades.
Límits d'ús estrictes i endpoints regionals amb prima del 10% al núvol.

Imatge d'IA i productivitat amb Claude Opus 4.5

Claude Opus 4.5 ja és aquí i ve amb una ambició clara: col·locar-se al capdamunt en programació, agents intel·ligents i tasques d'oficina. La proposta d'Anthropic no queda en titulars grandiloqüents; arriba amb xifres, comparatives i canvis de producte que, sobre el paper, poden redefinir com fem servir IA en treball real.

Més enllà de la competició directa amb altres gegants del sector, l'actualització incorpora un salt en eficiència de tokens i control de l'esforç, juntament amb millores en seguretat, ús deines, memòria i una bateria dintegracions noves en aplicacions. No és només un model més ràpid: és una plataforma que apunta cicles de treball llargs, multiagent i amb menys fricció.

Article relacionat:

Vibe working a Excel i Word: Agent Mode i Office Agent

Què és Opus 4.5 i per què ha fet parlar

Arriba tot just uns dies després de moviments de la competència, amb un posicionament rotund: Anthropic el presenta com el seu model més capaç i el millor IA per a cada tasca en programació, gestió d'agents i ús informàtic. La companyia destaca, a més a més, la seva vàlua en recerca profunda, creació de documents i raonament visual i matemàtic.

Per no quedar-se en allò teòric, la firma sosté que el model supera altres referents com Bessons 3 Pro i GPT-5.1 Codex-Max en proves denginyeria de programari. I a la pràctica, la idea és clara: menys passos, més precisió i millor coordinació amb eines en fluxos complexos.

Claude Opus 4.5 novetats

Rendiment mesurat: benchmarks i proves reals

Al benchmark de referència per a enginyeria de programari, SWE-Bench Verified, Opus 4.5 assoleix un 80,9% de precisió, superant tant els seus predecessors com rivals de primera línia. Aquesta dada importa perquè mesura capacitat per resoldre issues reals de projectes a GitHub, no exercicis de joguina.

Anthropic ha anat més enllà amb una prova de contractació real per a enginyers, cronometrada a dues hores i qualificada per la duresa. Segons la companyia, el model no només va resoldre els exercicis, sinó que va batre tots els candidats humans que van fer el mateix examen, recolzant-se en estratègies com a còmput paral·lel d'hipòtesis.

En tasques quotidianes doficina, el salt també es nota: millors resultats en fulls de càlcul, amb increments reportats de precisió del 20% i d'eficiència del 15% en models financers, a més de la capacitat d'organitzar bases de dades, preparar presentacions i redactar informes extensos sense perdre el fil.

Tot això es recolza en un context llarg de fins a 200.000 tokens en proves internes i en una gestió de memòria operativa reforçada, on les converses llargues es beneficien de resums automàtics per mantenir coherència sense xocar amb límits de finestra.

Imatge d'agent d'IA i eines

Eficiència, cost i nou paràmetre d'esforç

Un punt diferencial és el preu: l'API baixa de 15 i 75 dòlars per milió de tokens d'entrada i sortida a 5 i 25, respectivament. Això obre la porta a automatitzacions que abans eren massa cares per al dia a dia.

La clau tècnica per esprémer lestalvi és el paràmetre desforç, amb nivells baix, mitjà i alt. En esforç mitjà, Opus 4.5 iguala el rendiment de Sonnet 4.5 a SWE-Bench Verified usant un 76% menys de tokens de sortida. Amb esforç alt, supera Sonnet 4.5 en 4,3 punts percentuals i tot i així gasta un 48% menys de tokens. Aquí la novetat no és només el control, sinó poder variar la profunditat de raonament sense canviar de model.

Aquest ajustament influeix en tota la resposta: text, trucades d'eines i pensament estès. Amb esforç baix s'obtenen respostes més escarides i eficients; amb esforç alt, anàlisi detallada i explicacions àmplies per a escenaris complexos.

La facturació també introdueix matisos pràctics: Anthropic reconeix optimitzacions automàtiques que afegeixen pocs tokens a les sol·licituds, però aclareix que aquests tokens afegits pel sistema no es cobren. Petits detalls, sí, però que expliquen quan s'escala.

Reparar L'Error 8DDD0020 A Microsoft Update

Més que codi: agents, ofimàtica i ús d'ordinador

Opus 4.5 apunta alt en programació, però les seves millores no es queden aquí. El model brilla en creació de documents, fulls de càlcul i presentacions professionals i en tasques de recerca amb múltiples fonts, gestionant fils llargs sense perdre context rellevant.

En capacitats dagent, la coordinació puja de nivell: gestió eficaç d'equips de subagents per a sistemes multiagent complexos, capaç de dividir treball, prioritzar i progressar de manera estable durant hores en fluxos llargs.

Al front d'ús d'ordinador, l'actualització incorpora una acció de zoom per a inspecció minuciosa de regions en pantalla a resolució completa. Això és útil per llegir lletra petita, analitzar interfícies amb informació densa o verificar detalls abans dactuar.

La combinació de raonament, eines i memòria permet a Opus 4.5 emprendre tasques de migració i refactorització de codi, elaboració dinformes i automatitzacions descriptori amb menys voltes i menys malbaratament de tokens.

Seguretat i robustesa: alineació davant de prompt injection

L'autonomia porta preguntes sobre control i fiabilitat. Aquí, Anthropic afirma que aquest és el seu model més robustament alineat fins ara, amb avenços concrets contra atacs d'injecció d'instruccions que intenten desviar el comportament del sistema.

No és un detall menor: el desplegament d'agents amb accés a eines requereix defenses addicionals, i la companyia sosté haver reforçat les barreres sense penalitzar la utilitat. Tot i així, recomanen bones pràctiques de disseny i supervisió humana en escenaris sensibles.

Ecosistema i apps: novetats a Claude Code, Chrome i Excel

L'actualització no es queda al model. A l'stack de producte, Claude Code millora el mode de planificació: abans de posar fil a l'agulla, fa preguntes aclaridores i genera un arxiu editable amb el pla per facilitar revisió i control.

Al navegador, Claude per a Chrome s'allibera per a usuaris Max, amb la promesa de gestionar tasques a través de diverses pestanyes i coordinar accions dins de sessions de treball més llargues. Per als qui treballen amb fulls de càlcul, Claude per a Excel arriba a Max, Team i Enterprise, amb suport per a gràfics, taules dinàmiques i càrrega d'arxius.

A l'app, una de les novetats més pràctiques és que les converses llargues ja no s'encallen: el sistema resumeix automàticament el context anterior segons calgui per prolongar sessions, mantenint coherència i traçabilitat de decisions.

Tot això arriba juntament amb la disponibilitat d'Opus 4.5 a l'API i les principals plataformes al núvol, el que facilita la integració en pipelins existents sense esperar desplegaments propis.

Tres models 4.5 per a necessitats diferents: Opus, Sonnet i Haiku

La família 4.5 és ordenada en tres perfils. Opus 4.5 és la màxima intel·ligència amb rendiment pràctic per a tasques especialitzades d'alt nivell, enginyeria professional i agents avançats. És lúnic que accepta el paràmetre desforç.

Sonnet 4.5 és el cavall de batalla per a coding i agents complexos. Porta millores a tot el cicle de desenvolupament: planificació i disseny de sistemes, enginyeria de seguretat, seguiment d'instruccions més precís i un estil de comunicació concís i natural, amb actualitzacions de progrés basades en fets.

En capacitats d'agent, Sonnet 4.5 treballa de manera autònoma durant hores mantenint focus, amb consciència del context i del pressupost de tokens en temps real. Usa trucades d'eines en paral·lel, coordina millor múltiples fonts i preserva estat entre sessions llargues.

haiku 4.5 se centra en la velocitat i el cost, aconseguint rendiment proper a la frontera a un terç del preu, amb més del doble de velocitat que Sonnet 4. Porta per primera vegada pensament estès a la línia Haiku, amb opcionals de resum del pensament, intercalat entre trucades d'eina i control de pressupost de tokens de pensament.

Amb això, Anthropic restaura l'equilibri del catàleg: els últims mesos, Sonnet 4.5 eclipsava l'antic Opus 4.1; ara cada model recupera el lloc per cost, velocitat i capacitat.

Què és Un Arxiu SRT? Per a què serveix i com obrir

Ús d'eines i noves APIs: allò que canvia en el dia a dia

Per fluxos multi-eina, Anthropic introdueix trucades d'eines programàtiques: el model pot escriure codi que invoqui eines dins un contenidor d'execució, reduint la latència d'anada i tornada i filtrant dades abans de carregar-les a la finestra de context.

Si tens centenars d'eines, la nova cerca d'eines permet descobrir i carregar dinàmicament només el necessari. Hi ha dues variants: per patrons regex amb l'eina tool_search_tool_regex_20251119, i per consultes en llenguatge natural amb tool_search_tool_bm25_20251119, alleugerint 10.000 a 20.000 tokens de context en no carregar tot el catàleg.

Per millorar la precisió en invocacions, pots aportar exemples d'ús d'eines amb entrades vàlides que guiïn el model en esquemes complexos; i si et preocupa el context, hi ha edició de context que neteja automàticament trucades i resultats antics quan el límit de tokens s'acosta.

En control d'execució, els models 4.5 inclouen noves raons de parada: model_context_window_exceeded per indicar que es va assolir la finestra de context, diferenciant-la del topall de max_tokens, i la raó refusal quan el sistema rebutja generar contingut per seguretat. A més, es corregeix un bug que preserva salts de línia en passar paràmetres a eines.

El pensament estès torna un resum del procés intern a l'API de missatges i, en transmetre, pot arribar en lliuraments fragmentats amb petits retards; res crític, però convé tenir-ho en compte a la UX de transmissió.

Eines de desenvolupament: editor de text i execució de codi

Si utilitzeu l'editor de text de Claude, hi ha versió nova: tipus d'eina text_editor_20250728 amb nom str_replace_based_edit_tool, I la comanda undo_edit deixa d'estar suportat. Atenció si migres des de Sonnet 3.7.

Per execució de codi, es recomana la versió code_execution_20250825, que afegeix ordres Bash i manipulació darxius. La variant heretada code_execution_20250522 segueix disponible, però en ser sol Pitó no és aconsellable per a noves implementacions.

Aquests canvis, juntament amb el suport de ús intercalat d'eines i pensament estès, empenyen cap a fluxos més naturals en què el model raona, consulta eines i prossegueix amb la conversa sense salts artificials.

Preus, endpoints i disponibilitat al núvol

Amb la baixada a 5 dòlars per milió de tokens d'entrada i 25 per milió de sortida, els models 4.5 mantenen preus competitius. Hi ha, a més, una novetat als endpoints quan es consumeixen via proveïdors cloud.

AWS Bedrock i Google Vertex AI ofereixen endpoints globals i regionals per a Opus 4.5, Sonnet 4.5 i Haiku 4.5. Els regionals garanteixen encaminament per zona geogràfica amb una prima de preu del 10%. L'API pròpia d'Anthropic és global per defecte i no es veu afectada per aquest canvi.

Opus 4.5 està disponible a les aplicacions de Anthropic, l'API i les principals plataformes, incloent integracions com Amazon Bedrock. Això redueix el temps de posada en marxa en entorns empresarials.

Limitacions i lletra petita: allò que convé saber

El taló d'Aquil·les, de moment, són els límits d'ús i quotes. Fins i tot per a Pro i Max, els tokens s'esgoten ràpid i el comptador es reinicia cada cinc hores des del primer missatge. Com que Opus és el model més potent, també consumeix quotes amb més rapidesa, cosa que genera frustració en usuaris que paguen 20 o fins a 100 dòlars al mes.

En disponibilitat, Anthropic prioritza Estats Units i Europa occidental. Si operes des de Llatinoamèrica o Àsia-Pacífic, les latències poden augmentar i el suport en idioma local és més limitat. Convé mesurar temps reals abans de comprometre desplegaments crítics.

Un altre punt és la dependència de connectivitat i serveis cloud: integracions com Excel i Chrome tiren de trucades al núvol. Per a sectors regulats que exigeixen on-premise, caldrà negociar desplegaments privats o considerar models oberts en escenaris específics.

Finalment, treure partit a Opus 4.5 requereix formació en prompt engineering, gestió de context i depuració. Sense bones pràctiques, es desaprofita capacitat i es dispara la despesa en tokens; val la pena invertir en entrenament intern.

Com utilitzar MusicGen de Meta en local per no pujar fitxers al núvol

Estratègia i comparativa: on encaixa davant OpenAI i Google

Amb Opus 4.5, Anthropic es posiciona com proveïdor premium per a professionals i desenvolupadors, disputant de tu a tu els usos on prevalen precisió i confiabilitat. La competència ha provocat una guerra de preus i capacitats que beneficia el comprador, i la combinació de rendiment, cost i control de l'esforç és un ham potent.

Enfront de rivals, Opus 4.5 sobresurt a fluxos de treball amb eines i agents autònoms. En multimodalitat o raonament pur, la bretxa amb alguns models de la competència és menor, però el conjunt de funcions de l'ecosistema 4.5 inclina la balança en escenaris de producció que requereixen persistència i coordinació.

Quan migrar i com avaluar-ho a l'empresa

Si véns de Claude 3.5 o Opus 4.1, planteja't el salt quan necessiteu raonament complex, alt volum de tokens o capacitat d'agent amb accés a eines. Per sobre de 10 milions de tokens al mes, lestalvi compensa lesforç de reconfiguració.

Anthropic documenta rutes de migració amb i sense canvis de ruptura: Sonnet 3.7 a Sonnet 4.5, Haiku 3.5 a Haiku 4.5 (més canvis), i actualitzacions sense sobresalts d'Opus 4.1 a Sonnet 4.5 o Opus 4.5. Convé revisar les llistes de verificació abans de moure entorns productius.

Per prendre la decisió, pregunta't si tens processos repetitius amb prou volum, control sobre dades i criteris de validació, i KPIs clars que mesurin hores estalviades, errors i temps de resposta. Sense mètriques, qualsevol pilot queda a terra de ningú.

Checklist pràctic d'adopció segura: polítiques de privadesa i DPA, prova de concepte fitada (per exemple, tiquets de suport o resums de reunions), formació interna de dues persones clau, monitorització de costos amb alertes i un pla de contingència per si el servei canvia o falla.

Per a desenvolupadors: utilitzar Opus 4.5 a Cursor i Claude Code

Per aprofitar Opus 4.5 en el dia a dia de desenvolupament, crea un compte d'Anthropic i genera una clau d'API. Activa l'accés al model segons el teu pla (Max, Team o Enterprise) i configura les eines habituals, incloent-hi Deepseek Coder.

A Cursor, afegeix la clau d'API d'Anthropic a la secció de models i seleccioneu Opus 4.5 al panell de xat amb IA. Pots treballar amb autocompletat assistit per xat i fluxos multiagent directament a l'IDE; hi ha un pla Pro de Cursor de pagament que, segons l'eina, habilita accés simplificat a models avançats.

A Claude Code, llança la CLI al directori del teu projecte, inicia sessió amb la teva clau i canvia el model amb l'ordre de selecció. Des d'aquí, activa el mode de planificació perquè proposi passos abans de tocar codi i fes-lo servir per refactoritzar, depurar o executar scripts guiats per objectiu.

Bones pràctiques: intercanvia entre models segons necessitat (Haiku o Sonnet per a tasques lleugeres, Opus quan el raonament ho exigeix), monitoritza l'ús de tokens per evitar derives i respecta límits de taxa. Si apareixen errors d'autorització en eines de tercers, reviseu que el vostre compte tingui el model habilitat i que esteu a la versió més recent del client.

Per a dubtes freqüents, convé consultar el centre dajuda i fòrums de les eines, on es llisten incidències conegudes com a respostes fragmentades en pensament estès o missatges de model no autoritzat quan la clau d'API no coincideix amb el pla contractat.

A la vista de tot l'anterior, Opus 4.5 combina múscul en benchmarks, control fi del cost i millores de plataforma que ho fan especialment atractiu per a enginyeria de programari, automatització ofimàtica i agents autònoms. Queda per resoldre el tema dels límits dús per arrodonir lexperiència, però la direcció és clara: més qualitat per token i un ecosistema millor preparat per a treball real i sostingut.

Isaac

Redactor apassionat del món dels bytes i la tecnologia en general. M'encanta compartir els meus coneixements a través de l'escriptura, i això és el que faré en aquest bloc, mostrar tot el més interessant sobre gadgets, programari, maquinari, tendències tecnològiques, i més. El meu objectiu és ajudar-te a navegar pel món digital de forma senzilla i entretinguda.