- Opus 4.5 leder in programmering och agenter, med 80,9 % i SWE-Bench och bättre än konkurrenterna.
- Ny ansträngningsparameter och prissänkning till 5/25 USD per miljon tokens.
- Uppdateringar i Chrome, Excel och Claude Code, med förstärkt säkerhet och minne.
- Strikta användningsgränser och regionala slutpunkter med 10 % molnpremie.
Claude Opus 4.5 Den är här, och den kommer med en tydlig ambition: att positionera sig i toppen inom programmering, intelligenta agenter och kontorsuppgifter. Anthropics förslag stannar inte vid storslagna rubriker; det kommer med siffror, jämförelser och produktförändringar som, på pappret, skulle kunna omdefiniera hur vi använder IA i verkligt arbete.
Utöver direkt konkurrens med andra jättar i sektorn, Uppdateringen innebär ett språng i tokeneffektivitet och ansträngningskontrollTillsammans med förbättringar inom säkerhet, verktygsanvändning, minne och en mängd nya applikationsintegrationer är det inte bara en snabbare modell: det är en plattform utformad för långa, friktionsfria arbetscykler med flera agenter.
Vad är Opus 4.5 och varför har det orsakat sådan uppståndelse?
Det kommer bara några dagar efter tävlingens agerande, med en rungande positionering: Anthropic presenterar den som sin mest kapabla modell och Bättre AI för varje uppgift inom programmering, agenthantering och datoranvändningFöretaget framhäver också sitt värde inom djupgående forskning, dokumentskapande samt visuellt och matematiskt resonemang.
För att undvika att stanna kvar i teorins sfär hävdar företaget att modellen Den överträffar andra riktmärken som t.ex. tvillingarna 3 Pro och GPT-5.1 Codex-Max inom mjukvarutestning. Och i praktiken är idén tydlig: färre steg, mer precision och bättre samordning med verktyg i komplexa arbetsflöden.

Uppmätt prestanda: riktmärken och verkliga tester
I riktmärket för programvaruutveckling, SWE-Bench Verified, Opus 4.5 uppnår 80,9 % noggrannhetoch överträffar både sina föregångare och toppkonkurrenter. Denna data är viktig eftersom den mäter förmågan att lösa verkliga problem i GitHub-projekt, inte bara i övningar.
Antropisk har gått längre med en riktigt anställningstest för ingenjörerTestet, som var tidsbegränsat till två timmar och betygsatt efter svårighetsgrad, gick, enligt företaget, ut på att modellen inte bara löste övningarna, utan också... Han besegrade alla mänskliga kandidater som gjorde samma prov, och förlitade sig på strategier som parallell beräkning av hypoteser.
I vardagliga kontorsuppgifter är språnget också märkbart: bättre resultat i kalkylbladmed rapporterade ökningar i noggrannhet på 20 % och effektivitet på 15 % i finansiella modeller, utöver förmågan att organisera databaserFörbered presentationer och skriv långa rapporter utan att tappa tråden.
Allt detta stöds av ett långsiktigt sammanhang med upp till 200 000 tokens i intern testning och förstärkt arbetsminneshantering, där Långa samtal gynnas av automatiska sammanfattningar för att upprätthålla konsekvens utan att stöta på fönstergränser.
Effektivitet, kostnad och den nya ansträngningsparametern
En skillnadsfaktor är priset: API-priset sjunker från 15 respektive 75 dollar per miljon entry- och exit-tokens till 5 respektive 25 dollar.respektive. Detta öppnar dörren för automatiseringar som tidigare var för dyra för vardagsbruk.
Det viktigaste tekniska elementet för att maximera besparingar är ansträngningsparametern, med låga, medelhöga och höga nivåer. Vid medelhög ansträngning, Opus 4.5 matchar prestandan hos Sonnet 4.5 på SWE-Bench Verified med 76 % färre utdatatokensMed stor ansträngning, Den överträffar Sonnet 4.5 med 4,3 procentenheter och spenderar fortfarande 48 % mindre tokens.Nyheten här är inte bara kontrollen, utan också möjligheten att variera resonemangets djup utan att ändra modellen.
Denna justering påverkar hela svaret: text, verktygsanrop och utökat tänkandeMed liten ansträngning får du mer koncisa och effektiva svar; med stor ansträngning får du detaljerad analys och omfattande förklaringar för komplexa scenarier.
Fakturering introducerar också praktiska nyanser: Anthropic känner igen automatiserade optimeringar som lägger till få tokens till förfrågningarHan förtydligar dock att dessa tokens som läggs till av systemet inte debiteras. Små detaljer, ja, men de spelar roll vid skalning.
Mer än kod: agenter, kontorsautomation och datoranvändning
Opus 4.5 siktar högt inom programmering, men Deras förbättringar slutar inte därModellen utmärker sig vid skapandet av professionella dokument, kalkylblad och presentationer, och vid forskningsuppgifter med flera källor, och hanterar långa trådar utan att förlora relevant kontext.
Inom agenternas kapacitet går samordningen upp en nivå: Effektiv hantering av underagentteam För komplexa system med flera agenter, kapabla att dela upp arbete, prioritera och göra stadiga framsteg i timmar i långa arbetsflöden.
När det gäller datoranvändning innehåller uppdateringen en zoomfunktion för detaljerad inspektion av områden på skärmen i full upplösning. Detta är användbart för att läsa finstilt, analysera gränssnitt med tät information eller verifiera detaljer innan man vidtar åtgärder.
Kombinationen av resonemang, verktyg och minne gör att Opus 4.5 kan genomföra uppgifterna inkluderar migrering och kodomstrukturering, rapportgenerering och skrivbordsautomation. med färre turer och mindre slöseri med polletter.
Säkerhet och robusthet: uppriktning kontra snabb injektion
Autonomi väcker frågor om kontroll och tillförlitlighetHär hävdar Anthropic att detta är dess mer robust anpassad modell Hittills har det gjorts konkreta framsteg mot instruktionsinjektionsattacker som försöker avböja systembeteende.
Detta är ingen liten detalj: Att distribuera agenter med åtkomst till verktyg kräver ytterligare försvar.Företaget hävdar att de har stärkt barriärerna utan att kompromissa med användbarheten. Trots det rekommenderar de god designpraxis och mänsklig tillsyn i känsliga scenarier.
Ekosystem och appar: Nyheter i Claude Code, Chrome och Excel
Uppdateringen slutar inte vid modellen. Den sträcker sig till produktstacken. Claude Code förbättrar sitt planeringslägeInnan du börjar, ställ förtydligande frågor och skapa en redigerbar fil med planen för att underlätta granskning och kontroll.
I webbläsaren, Claude för Chrome har släppts för Max-användaremed löftet att hantera uppgifter över flera flikar och koordinera åtgärder inom längre arbetssessioner. För de som arbetar med kalkylblad, Claude för Excel kommer till Max, Team och Enterprise, med stöd för diagram, pivottabeller och filuppladdningar.
I appen är en av de mest praktiska nya funktionerna att Långa samtal fastnar inte längreSystemet sammanfattar automatiskt föregående sammanhang efter behov för att förlänga sessioner, vilket bibehåller konsekvens och spårbarhet i besluten.
Allt detta kommer tillsammans med tillgängligheten av Opus 4.5 i API:et och på de viktigaste molnplattformarnaDetta underlättar integration i befintliga pipelines utan att behöva vänta på dedikerade distributioner.
Tre 4.5-tumsmodeller för olika behov: Opus, Sonnet och Haiku
4.5-familjen är organiserad i tre profiler. Opus 4.5 är den ultimata intelligensen Med praktisk prestanda för specialiserade uppgifter på hög nivå, professionell ingenjörskonst och avancerade agenter. Det är den enda som accepterar ansträngningsparametern.
Sonnet 4.5 Det är arbetshästen för kodning och komplexa agenter. Det ger förbättringar över hela utvecklingscykeln: systemplanering och design, säkerhetsteknik, mer exakt instruktioner efterföljande och en koncis och naturlig kommunikationsstil, med faktabaserade uppdateringar om framstegen.
I agentfunktioner arbetar Sonnet 4.5 autonomt i timmar samtidigt som den bibehåller fokus. med medvetenhet om sammanhanget och den symboliska budgeten i realtid. Den använder parallella verktygsanrop, koordinerar flera källor bättre och bevarar tillstånd mellan långa sessioner.
Haiku 4.5 Den fokuserar på hastighet och kostnad och uppnår prestanda i närheten av gränserna till en tredjedel av priset, med mer än dubbelt så hög hastighet som Sonnet 4. Den ger för första gången tanken utvidgades till Haiku-linjen, med valfri tankesammanfattning, varvat mellan verktygsanrop och budgetkontroll för tanketoken.
Med detta, antropisk återställer balansen i sin katalogUnder de senaste månaderna har Sonnet 4.5 överskuggat den äldre Opus 4.1; nu återtar varje modell sin plats vad gäller kostnad, hastighet och kapacitet.
Använda verktyg och nya API:er: vad som förändras dagligen
För arbetsflöden med flera verktyg introducerar Anthropic anrop av programmatiska verktygModellen kan skriva kod som anropar verktyg i en exekveringsbehållare, vilket minskar tur-retur-latens och filtrerar data innan den laddas in i kontextfönstret.
Om du har hundratals verktyg, det nya sök efter verktyg Det låter dig upptäcka och dynamiskt ladda endast det som behövs. Det finns två varianter: att använda regex-mönster med verktyget tool_search_tool_regex_20251119och genom naturliga språkfrågor med tool_search_tool_bm25_20251119, vilket sparar 10 000 till 20 000 kontexttokens genom att inte läsa in hela katalogen.
För att förbättra noggrannheten i kallelser kan du bidra exempel på verktygsanvändning med giltiga indata för att vägleda modellen genom komplexa scheman; och om du är orolig för kontexten finns det kontextredigering vilket automatiskt rensar upp gamla anrop och resultat när tokengränsen närmar sig.
I exekveringskontroll inkluderar 4.5-modellerna nya orsaker till stopp: model_context_window_exceeded för att indikera att kontextfönstret har nåtts, och skilja det från toppen av max_tokensoch anledningen refusal Den här uppdateringen åtgärdar problem som uppstår när systemet vägrar att generera innehåll av säkerhetsskäl. Dessutom åtgärdar den ett fel som bevarar radbrytningar när parametrar skickas till verktyg.
Utökat tänkande ger tillbaka en sammanfattning av den interna processen i meddelande-API:et, och vid överföring kan det anlända i fragmenterade leveranser med små fördröjningar; inget kritiskt, men det är värt att ha i åtanke för UX:n hos streaming.
Utvecklingsverktyg: textredigerare och kodkörning
Om du använder Claudes textredigerare finns det en ny version: typ av verktyg text_editor_20250728 med namn str_replace_based_edit_tooloch kommandot undo_edit Det stöds inte längre. Observera om du migrerar från Sonnet 3.7.
För kodkörning rekommenderas följande: version code_execution_20250825, vilket tillägger kommandon Bash och filmanipulation. Den äldre varianten code_execution_20250522 Den är fortfarande tillgänglig, men eftersom den bara är Python Det rekommenderas inte för nya implementeringar.
Dessa förändringar, tillsammans med stöd från varvad användning av verktyg och utökat tänkandeDe strävar mot mer naturliga flöden där modellen resonerar, konsulterar verktyg och fortsätter samtalet utan artificiella hopp.
Prissättning, slutpunkter och molntillgänglighet
Med priset som sjunker till 5 dollar per miljon tokens som går in och 25 dollar per miljon som går ut, 4.5-modellerna håller konkurrenskraftiga priserDet finns också en ny funktion för endpoints när de konsumeras via molnleverantörer.
AWS berggrund och Google Vertex AI erbjuder globala och regionala slutpunkter För Opus 4.5, Sonnet 4.5 och Haiku 4.5 garanterar regionala tjänster geografisk routing med en prispremie på 10 %. Anthropics egenutvecklade API är globalt som standard och påverkas inte av denna ändring.
Opus 4.5 finns tillgänglig i Anthropics applikationer, API och huvudplattformar, inklusive integrationer som Amazon Bedrock. Detta minskar el tiempo för implementering i affärsmiljöer.
Begränsningar och finstilt: vad du bör veta
Akilleshälen är för tillfället användningsgränser och kvoterÄven för Pro- och Max-planer tar tokens slut snabbt, och räknaren återställs var femte timme från det första meddelandet. Eftersom Opus är det kraftfullaste planet förbrukar det också tokens snabbare, vilket leder till frustration för användare som betalar 20 dollar eller till och med 100 dollar per månad.
Antropisk prioriterar tillgänglighet. USA och VästeuropaOm du verkar från Latinamerika eller Asien-Stillahavsområdet kan latensen öka och stödet för lokala språk kan vara mer begränsat. Det är lämpligt att mäta latensen i realtid innan du genomför kritiska distributioner.
En annan punkt är beroende av uppkoppling och molntjänsterIntegrationer som Excel och Chrome är beroende av molntjänster. För reglerade sektorer som kräver lokala distributioner måste privata distributioner förhandlas fram, eller öppna modeller övervägas i specifika scenarier.
Slutligen, för att få ut det mesta av Opus 4.5 krävs det Utbildning i prompt engineering, kontexthantering och felsökningUtan god praxis slösas kapacitet bort och utgifterna för symboliska tjänster skjuter i höjden; det är värt att investera i intern utbildning.
Strategi och jämförelse: var den passar ihop med OpenAI och Google
Med Opus 4.5 positionerar sig Anthropic som Premiumleverantör för proffs och utvecklareDenna konkurrens, som tävlar direkt i applikationer där precision och tillförlitlighet är av största vikt, har utlöst en pris- och kapacitetskrig som gynnar köparen, och kombinationen av prestanda, kostnad och ansträngningskontroll är ett kraftfullt lockbete.
Jämfört med konkurrenterna utmärker sig Opus 4.5 i arbetsflöden med autonoma verktyg och agenterInom multimodalitet eller rent resonemang är gapet mot vissa konkurrerande modeller mindre, men uppsättningen funktioner i 4.5-ekosystemet tippar vågskålen i produktionsscenarier som kräver uthållighet och samordning.
När man ska migrera och hur man utvärderar det inom företaget
Om du kommer från Claude 3.5 eller Opus 4.1, överväg att ta steget när du behöver komplext resonemang, hög tokenvolym eller agentkapacitet med tillgång till verktyg. Med över 10 miljoner tokens per månad uppvägde besparingarna omkonfigurationsarbetet.
Antropiska dokumenterar migrationsvägar med och utan utbrytningsskift: Sonnet 3.7 till Sonnet 4.5, Haiku 3.5 till Haiku 4.5 (fler ändringar) och smidiga uppgraderingar från Opus 4.1 till Sonnet 4.5 eller Opus 4.5. Det är lämpligt att granska checklistorna innan du flyttar produktionsmiljöer.
För att fatta beslutet, fråga dig själv om du har repetitiva processer med tillräcklig volym, kontroll över data och valideringskriterierOch tydliga nyckeltal som mäter sparade timmar, fel och svarstider. Utan mätvärden hamnar alla pilotprojekt på avvägar.
Praktisk checklista för säker implementering: integritetspolicyer och dataskyddsförklaringar, begränsat bevis på koncept (till exempel supportärenden eller mötessammanfattningar), intern utbildning av två nyckelpersoner, kostnadsövervakning med aviseringar och en beredskapsplan ifall tjänsten ändras eller slutar fungera.
För utvecklare: Använd Opus 4.5 i Cursor och Claude Code
För att dra nytta av Opus 4.5 i den dagliga utvecklingen, Skapa ett Anthropic-konto och generera en API-nyckelAktivera åtkomst till modellen enligt din plan (Max, Team eller Enterprise) och konfigurera dina vanliga verktyg, inklusive Deepseek-kodare.
I markören, lägg till Antropisk API-nyckel i modellavsnittet och välj Opus 4.5 i den AI-drivna chattpanelen. Du kan arbeta med chattassisterad autofullständig ifyllning och flöden med flera agenter direkt i IDE:n; det finns ett betalt Cursor Pro-abonnemang som, enligt verktyget, möjliggör förenklad åtkomst till avancerade modeller.
I Claude Code, starta CLI:et i din projektkatalog, Logga in med ditt lösenord och ändra modellen med hjälp av kommandot selection. Därifrån aktiverar du planeringsläget för att föreslå steg innan du rör koden, och använder det för att refaktorera, felsöka eller köra målstyrda skript.
Bästa praxis: växla mellan mallar efter behov (Haiku eller Sonnet för lättare uppgifter, Opus när resonemanget kräver detÖvervaka tokenanvändningen för att förhindra avvikelser och respektera hastighetsgränser. Om auktoriseringsfel uppstår i tredjepartsverktyg, kontrollera att modellen är aktiverad i ditt konto och att du använder den senaste versionen av klienten.
För vanliga frågor, vänligen kontakta hjälpcentret och forumen för verktygen, där kända incidenter som fragmenterade svar i utökat tänkande eller obehöriga modellmeddelanden listas när API-nyckeln inte matchar den avtalade planen.
Med hänsyn till allt ovanstående, Opus 4.5 kombinerar riktmärkesstyrka, finjusterad kostnadskontroll och plattformsförbättringar Detta gör det särskilt attraktivt för programvaruutveckling, kontorsautomation och autonoma agenter. Frågan om användningsgränser återstår att lösa för att fullända upplevelsen, men riktningen är tydlig: högre kvalitet per token och ett ekosystem som är bättre förberett för verkligt, hållbart arbete.
Passionerad författare om bytesvärlden och tekniken i allmänhet. Jag älskar att dela med mig av min kunskap genom att skriva, och det är vad jag kommer att göra i den här bloggen, visa dig alla de mest intressanta sakerna om prylar, mjukvara, hårdvara, tekniska trender och mer. Mitt mål är att hjälpa dig att navigera i den digitala världen på ett enkelt och underhållande sätt.
