DeepSeek V3.2-Exp: Sparsam uppmärksamhet, lång kontext och billigare API

Senaste uppdateringen: 30/09/2025
Författare: Isaac
  • V3.2‑Exp lanserar DSA: Finkornig gles uppmärksamhet för långa kontexter.
  • Jämförbar prestanda med V3.1‑Terminus och 50 % lägre API-kostnader.
  • Tillgänglig i app, webb och API; MIT-licens och öppna kärnor.
  • Dag 0-support i vLLM och enkel implementering med SGLang och Hugging Face.

AI-modell och spridd uppmärksamhet

Vid en tidpunkt då generativ AI ger ingen vila, DeepSeek har gjort ett drag med ett skott som siktar direkt på effektivitet och det långa sammanhanget. DeepSeek-V3.2-Exp Det är en experimentell modell som syftar till att validera en betydande förändring i produktionen: en ny spridd uppmärksamhet som lovar att accelerera träning och inferens utan att försämra utskriftskvaliteten.

Den nya modellen börjar inte från början; den förlitar sig på V3.1-Terminus, men den introducerar en nyckelmekanism som kallas DeepSeek Sparse Attention (DSA)Med DSA hävdar DeepSeek att de kan minska datorkostnaderna och, i processen, sänk dina API-priser med mer än 50 % med omedelbar effekt, samtidigt som prestandan bibehålls jämförbar med sin föregångare i flera uppgifter.

Vad är DeepSeek-V3.2-Exp och varför det är viktigt

DeepSeek definierar V3.2-Exp som ett mellansteg mot sin nästa arkitektur, en språngbräda utformad för att testa och demonstrera specifika effektivitetsoptimeringar i långa kontextscenarierEnligt företaget är målet att accelerera både träning och inferens vid hantering av stora textsekvenser, där traditionella transformatorer ofta skjuter i höjden i kostnad.

Det viktiga är att den här utgåvan är experimentell, men inte av den anledningen anekdotiskt: den når appen, webben och API:et DeepSeek från dag ett, vilket öppnar dörren för utvecklare, datateam och forskare att testa det i verkliga fall med stora volymer kontext.

DeepSeek V3.2-Exp i lång kontext

Tekniskt sett ärver V3.2-Exp grunderna från V3.1-Terminus för att upprätthålla kvaliteten och underlätta en rättvis jämförelse. DeepSeek indikerar att de avsiktligt anpassade träningskonfigurationer till Terminus för att mäta den verkliga effekten av DSA, och interna riktmärken visa resultat i nivå med sökresultaten, programmering och matematik.

Utöver siffrorna spelar marknadskontexten roll: tillkännagivandet om X framhäver att det nu är tillgängligt och att API-prissänkningen är över 50 %. Budskapet är tydligtOm effektiviteten förbättras sjunker kostnaderna, och det sätter press på konkurrenter i Kina och utomlands, såsom Alibabas Qwen eller amerikanska alternativ.

Vad DeepSeek Sparse Attention (DSA) introducerar

DSA är en mekanism för finkornig spridd uppmärksamhet Fokuserad på stora kontextfönster. Istället för att behandla alla tokens lika prioriteras de verkligt relevanta fragmenten och onödigt arbete minskas, samtidigt som i stort sett identisk utdatakvalitet bibehålls.

För att uppnå detta har DeepSeek en modul som heter Lightning-indexerare, vars funktion är att prioritera specifika områden i kontextfönstret. Detta steg föregår uppmärksamhet och fungerar som ett intelligent filter som separerar det väsentliga från det sekundära.

Efter denna första screening tillämpar modellen en process av finkornig tokenvalI praktiken innebär detta att inte alla tokens konkurrerar om uppmärksamhet: endast de som identifierats som mest informativa flyttas in i det glesa uppmärksamhetsfönstret, vilket minskar minnes- och beräkningsförbrukningen.

  Hur man ställer DeepSeek mer effektiva frågor

En positiv bieffekt är att systemet kan beakta stora andelar av kontext och upprätthålla flera resonemang samtidigt, utan att bli överväldigad. Detta är särskilt användbart i långa flöden, komplex dokumentanalys eller omfattande konversationer med flera trådar.

Så här fungerar det: Lightning-indexerare och tokenval

Den konceptuella pipeline som beskriver DeepSeek kan förenklas till flera länkade faser, var och en med en specifik roll för att maximera effektiviteten under långa kontexter. Optimering handlar om att välja bättre, inte bearbeta mer..

  • Snabbprioritering: Den Lightning-indexerare Den skannar fönstret och markerar kandidatfragment med hög semantisk eller strukturell relevans.
  • Fin förfining: Den finkornig tokenval, som specificerar vilka tokens som faktiskt hamnar i fokus för den spridd uppmärksamheten.
  • Effektiv vård: den DSA tillämpar uppmärksamhet endast på den valda delmängden, vilket sparar beräkning och minne jämfört med traditionell tät uppmärksamhet.
  • Jämförbar utdata: Modellkvaliteten bibehålls i praktiken, baserat på interna riktmärken med V3.1-Terminus.

DeepSeek betonar att den här strategin inte är ett engångsknep: avsikten är validera och etablera förbättringar effektivitet för din framtida arkitektur. Med andra ord är V3.2-Exp en riktig testplats, men redan användbar i produktion.

Dessutom noterar företaget att tillvägagångssättet gör det möjligt för modellen automatiskt validera vissa parametrar under träning i långvariga scenarier, dynamiskt justera beräkningsansträngningen till vad som faktiskt bidrar med information.

Prestanda, riktmärken och kostnad: 50 % mindre på API:et

En av de mest slående slutsatserna är att resultatet av V3.2-Exp Den är i nivå med V3.1-Terminus inom viktiga områden: som sökmotor, i kodningsuppgifter och i matematiska problem. Att bibehålla liknande resultat med mindre beräkningsbehov är det som möjliggör prissänkningen.

DeepSeek tillkännagav att API-priserna sjunker med mer än 50 % omedelbart tack vare den effektivitet som uppnåtts med DSA. Detta beslut underlättar inte bara tillgången till tekniken, utan gör också jämförelsen dyrare för konkurrenter som måste motivera högre användningskostnader.

När det gäller praktisk erfarenhet är förbättringen särskilt märkbar i scenarier med långt sammanhang: analys av stora datamängder, bearbetning av juridiska eller tekniska dokument, backoffice-processer med lång historik och alla pipelines som förlitar sig på mycket långa textsekvenser.

DeepSeeks hypotes är tydlig: om modellen kan delta selektivt i förhållande till det relevanta kan organisationen hantera mer arbete med samma infrastruktur, eller samma belastning med lägre kostnad, utan att förlora tillförlitlighet vid utgången.

Tillgänglighet, öppen källkod och licensiering

V3.2‑Exp är tillgänglig på applikationen, webbversionen och API:et DeepSeek. Modellen publiceras öppet för alla att utvärdera och åtföljs av en licens. MIT för förvaret och vikter, vilket gynnar forskning och kommersiellt införande.

  DeepSeek-R1 är nu tillgänglig som en hanterad modell på Amazon Bedrock

Denna öppenhet står i kontrast till mer slutna tillvägagångssätt, och demokratiserar åtkomst till avancerade förmågor. Det stärker också Kinas roll i kapplöpningen om IA genom att göra det enklare för universitet, startups och lokala och internationella företag att utnyttja och modifiera stacken.

Företaget betonar karaktären experimentell från utgåvan: Den fungerar som en förhandsvisning av vad som kan komma i nästa generations arkitektur. Ändå indikerar den stabila utgåvan på alla tre huvudkanalerna en tillräcklig mognadsnivå för verklig användning.

Referenslänkar: arkiv och teknisk dokumentation på GitHub, modell på Kramande ansikte och supportkontakt på service@deepseek.com. Hela paketet syftar till att underlätta adoptionen av samhället.

Snabbguide för att köra det lokalt

DeepSeek tillhandahåller en uppdaterad inferensdemo som syftar till att påskynda boot och låta samhället förstå arkitekturen. Flödet med Hugging Face och viktkonvertering är enkelt. och överväg modellparallellism baserat på dina GPU:er.

cd inference
export EXPERTS=256
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}

export CONFIG=config_671B_v3.2.json
torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

För de som föredrar att servera modellen med SGLang finns det färdiga Docker-avbildningar för olika arkitekturer. Etiketterna täcker NVIDIA GPU, ROCm och NPU:er, inklusive specifika varianter.

# H200
docker pull lmsysorg/sglang:dsv32
# MI350 (ROCm)
docker pull lmsysorg/sglang:dsv32-rocm
# NPUs
docker pull lmsysorg/sglang:dsv32-a2
docker pull lmsysorg/sglang:dsv32-a3

# Lanzar servidor
python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64

Om du använder vLLM meddelar projektet dag 0-stöd för V3.2‑Exp. Kolla in de officiella recepten för uppdaterad information om konfiguration, KV-växling och prestandaparametrar.

I samtliga fall är det lämpligt att justera MP antalet tillgängliga GPU:er och övervaka faktisk minnesanvändning. Detta uppnår en optimal balans mellan latens, dataflöde och kostnad per begäran.

Öppna kärnor och ekosystemstöd

DeepSeek har släppt flera delar som underlättar forskning och produktionsprestanda. För de som prioriterar läsbarhet och design för forskningsändamål rekommenderas TileLang som utgångspunkt.

I ren prestanda med CUDA, den indexer logit-kärnor (inklusive paginerade varianter) finns tillgängliga på DeepGEMMFör sin del har spridda uppmärksamhetskärnor publicerats i FlashMLA, som syftar till att maximera effektiviteten i moderna GPU:er.

Denna modulära metod gör det möjligt att kombinera komponenter efter behov: läsbarhet för prototypframställning och undervisning, eller högpresterande kärnor för krävande inferens under verkliga belastningar. Det är precis vad du behöver för att migrera från testning till produktion utan att omarbeta hela pipelinen.

Dessutom kompletterar publiceringen av dessa kärnor med betoning på det långa sammanhanget DSA-kampanjen och sluter cirkeln mellan tillämpad forskning, riktmärke och verklig implementering.

Strategisk påverkan och vad som händer härnäst

Att en experimentell modell når app, webb och API med omedelbar prissänkning Det är ett uttalande om sin avsikt. DeepSeek utforskar inte bara en forskningslinje; den översätter den till en produkt och för vidare besparingarna till slutanvändaren.

  Hur man reparerar Master Boot Record (MBR) i Windows 10

Åtgärden ökar pressen på konkurrenter i det kinesiska ekosystemet, såsom Alibabas Qwen, redan deras amerikanska motsvarigheter. Om prestandan förblir på nivån för dyrare alternativ kan prisfaktorn tippa balansen i kostnadskänsliga sektorer.

En annan derivata är öppen källkodseffektTillåtande licenser, publika kärnor och brett stöd accelererar implementering och underlättar granskning, lärande och bidrag. Detta står i kontrast till slutna modeller och öppnar dörren för små och medelstora företag och universitetslaboratorier att hoppa på tåget.

På en narrativ nivå är det intressant hur DeepSeek framställer V3.2-Exp som en glimt in i framtidenFinkorniga spridda uppmärksamhetsmekanismer valideras och deras inverkan jämförs, varvid alla andra faktorer hålls konstanta. Denna jämförande noggrannhet ger trovärdighet åt resultaten.

Vinkeln på flera tankebanor samtidigtAtt kunna upprätthålla flera resonemangskedjor utan att öka kostnaden öppnar upp möjligheter för komplexa agenter, flerstegsresonemang och system som kombinerar sökning, syntes och verifiering.

Referenser, citering och kontakt

För de som vill gå djupare, länkar DeepSeek till modell i kramande ansikte En teknisk rapport finns redan tillgänglig på GitHub. Den delar även ett citeringsblock i BibTeX-format och en kontakt-e-postadress för support och frågor.

@misc{deepseekai2024deepseekv32,
  title={DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention},
  author={DeepSeek-AI},
  year={2025}
}

Företagets X-kanal sammanfattade tillkännagivandet: presentation av DeepSeek-V3.2-Exp, tillgänglighet i app, webb och API, med en API-prisminskning på mer än 50 %. Fokus ligger återigen på det långsiktiga sammanhanget och effektivitet från början till slut.

Parallellt uppmärksammades lanseringen av teknikmedier, och placerades som en relevant rörelse efter effekterna av V3 och R1, och påpekade att om den befäster sitt löfte, kommer att öka konkurrensen i termer av kvalitet och pris jämfört med större aktörer i sektorn.

För att sluta cirkeln är det värt att komma ihåg den senaste tidsramen: från starten av ChatGPT i 2022 Generativ AI har utvecklats i en aldrig tidigare skådad takt. V3.2-Exp passar in i den trenden: mer kontext, lägre kostnad och en arkitektur som lär sig av sina egna experiment.

V3.2-Exp är positionerat som ett alternativ att överväga för projekt som behöver stora sammanhang, hastighet och kostnadskontrollDess finkorniga, spridda uppmärksamhetsstrategi, ekosystemstöd (vLLM, SGLang, öppna kärnor) och MIT-licens gör den särskilt attraktiv för både tillämpad forskning och företagsimplementeringar där varje millisekund och varje euro räknas.

Vilken är den bästa AI:n för varje applikation (chatt, bildgenerering, video, forskning, programmering etc.)
Relaterad artikel:
Den bästa AI:n för varje uppgift: chatt, bild, video, kod och mer