DeepSeek V3.2-Exp: Geringe Aufmerksamkeit, langer Kontext und günstigere API

Letzte Aktualisierung: 30/09/2025
Autor: Holger
  • V3.2‑Exp führt DSA ein: Feinkörnige, spärliche Aufmerksamkeit für langen Kontext.
  • Vergleichbare Leistung mit V3.1‑Terminus und 50 % niedrigere API-Kosten.
  • Verfügbar als App, Web und API; MIT-Lizenz und offene Kernel.
  • Day-0-Support in vLLM und einfache Bereitstellung mit SGLang und Hugging Face.

KI-Modell und zerstreute Aufmerksamkeit

Zu einer Zeit, als die Generative KI gibt keine Ruhe, DeepSeek hat mit einem Schuss einen Schritt gemacht, der direkt auf Effizienz und den langen Kontext abzielt. DeepSeek-V3.2-Exp Es handelt sich um ein experimentelles Modell, das eine signifikante Änderung in der Produktion validieren soll: eine neue verteilte Aufmerksamkeit, die eine Beschleunigung von Training und Inferenz verspricht, ohne die Ausgabequalität zu verschlechtern.

Das neue Modell beginnt nicht bei Null; es basiert auf V3.1-Terminus, führt aber einen Schlüsselmechanismus namens DeepSeek Sparse Attention (DSA)DeepSeek behauptet, mit DSA die Rechenkosten zu senken und dabei Senken Sie Ihre API-Preise um mehr als 50 % mit sofortiger Wirkung, wobei die Leistung bei mehreren Aufgaben mit der des Vorgängers vergleichbar bleibt.

Was ist DeepSeek-V3.2-Exp und warum ist es wichtig?

DeepSeek definiert V3.2-Exp als einen Zwischenschritt auf dem Weg zu seiner nächsten Architektur, ein Sprungbrett, das dazu dient, spezifische Effizienzoptimierungen zu testen und zu demonstrieren in lange KontextszenarienLaut Angaben des Unternehmens besteht das Ziel darin, sowohl das Training als auch die Inferenz bei der Verarbeitung großer Textsequenzen zu beschleunigen, wo die Kosten herkömmlicher Transformatoren oft in die Höhe schnellen.

Der Schlüssel liegt darin, dass diese Version experimentell, aber nicht deshalb anekdotisch: es erreicht die App, das Web und die API DeepSeek vom ersten Tag an und öffnet Entwicklern, Datenteams und Forschern die Tür, um es in realen Fällen mit großem Kontextvolumen zu testen.

DeepSeek V3.2-Exp im langen Kontext

Technisch basiert V3.2-Exp auf den Grundlagen von V3.1‑Terminus um die Qualität zu erhalten und einen fairen Vergleich zu ermöglichen. DeepSeek gibt an, dass es Trainingskonfigurationen bewusst mit Terminus abgestimmt hat, um die tatsächlichen Auswirkungen von DSA zu messen, und die interne Benchmarks Ergebnisse auf Augenhöhe mit der Suche anzeigen, Programmierung und Mathematik.

Über die Zahlen hinaus ist der Marktkontext wichtig: Die Ankündigung zu X hebt hervor, dass es jetzt verfügbar ist und dass die API-Preissenkung über 50 % beträgt. Die Botschaft ist klarSteigt die Effizienz, sinken die Kosten, und das setzt Konkurrenten in China und im Ausland unter Druck, etwa Alibabas Qwen oder amerikanische Optionen.

Was DeepSeek Sparse Attention (DSA) einführt

DSA ist ein Mechanismus der feinkörnige, verstreute Aufmerksamkeit Konzentriert sich auf große Kontextfenster. Anstatt alle Token gleich zu behandeln, werden die wirklich relevanten Fragmente priorisiert und unnötiger Arbeitsaufwand reduziert, während die Ausgabequalität nahezu identisch bleibt.

Um dies zu erreichen, enthält DeepSeek ein Modul namens Blitzindexer, dessen Funktion darin besteht, bestimmten Bereichen des Kontextfensters Priorität zuzuweisen. Dieser Schritt geht der Aufmerksamkeit voraus und fungiert als intelligenter Filter, der das Wesentliche vom Nebensächlichen trennt.

Nach dieser ersten Überprüfung wendet das Modell einen Prozess an, feinkörnige Token-AuswahlIn der Praxis bedeutet dies, dass nicht alle Token um Aufmerksamkeit konkurrieren: Nur diejenigen, die als die informativsten identifiziert wurden, gelangen in das spärliche Aufmerksamkeitsfenster, wodurch der Speicher- und Rechenleistungsverbrauch reduziert wird.

  Lösung für den SFC-Fehler „Der Windows-Ressourcenschutz konnte den angeforderten Vorgang nicht ausführen“

Ein positiver Nebeneffekt ist, dass das System berücksichtigen kann große Anteile an Kontext und mehrere Argumentationsstränge gleichzeitig aufrechterhalten, ohne überfordert zu werden. Dies ist besonders nützlich bei langen Flows, komplexen Dokumentanalysen oder umfangreichen, mehrsträngigen Konversationen.

So funktioniert es: Lightning Indexer und Token-Auswahl

Die konzeptionelle Pipeline, die DeepSeek beschreibt, kann in mehrere verknüpfte Phasen vereinfacht werden, von denen jede eine bestimmte Rolle hat, um die Effizienz in langen Kontexten zu maximieren. Bei der Optimierung geht es darum, bessere Entscheidungen zu treffen, nicht mehr zu verarbeiten..

  • Schnelle Priorisierung: Die Blitzindexer Es scannt das Fenster und hebt Kandidatenfragmente mit hoher semantischer oder struktureller Relevanz hervor.
  • Feine Verfeinerung: Die feinkörnige Token-Auswahl, das angibt, welche Token tatsächlich in den Fokus der verteilten Aufmerksamkeit geraten.
  • Effiziente Pflege: die DSA wendet die Aufmerksamkeit nur auf die ausgewählte Teilmenge an und spart so im Vergleich zur herkömmlichen dichten Aufmerksamkeit Rechenleistung und Speicher.
  • Vergleichbare Ergebnisse: Die Modellqualität bleibt in der Praxis erhalten, basierend auf internen Benchmarks mit V3.1-Terminus.

DeepSeek betont, dass diese Strategie kein einmaliger Trick ist: Die Absicht ist Verbesserungen validieren und etablieren Effizienz für Ihre zukünftige Architektur. Mit anderen Worten: V3.2-Exp ist ein echtes Testgelände, aber bereits in der Produktion einsetzbar.

Darüber hinaus weist das Unternehmen darauf hin, dass der Ansatz es dem Modell ermöglicht, bestimmte Parameter automatisch validieren während des Trainings in Szenarien mit langem Kontext, wobei der Rechenaufwand dynamisch an das angepasst wird, was tatsächlich Informationen liefert.

Leistung, Benchmarks und Kosten: 50 % weniger für die API

Eine der bemerkenswertesten Schlussfolgerungen ist, dass die Leistung von V3.2-Exp Es ist in wichtigen Bereichen mit V3.1-Terminus vergleichbar: als Suchmaschine, bei Codierungsaufgaben und bei mathematischen Problemen. Die Erzielung ähnlicher Ergebnisse mit weniger Rechenleistung ermöglicht den Preisrückgang.

DeepSeek gab bekannt, dass die API-Preise fallen um mehr als 50 % sofort dank der mit DSA erreichten Effizienz. Diese Entscheidung erleichtert nicht nur den Zugang zur Technologie, sondern verteuert auch den Vergleich für Wettbewerber, die höhere Nutzungskosten rechtfertigen müssen.

In der Praxis ist die Verbesserung besonders deutlich in Szenarien von langer Kontext: Analyse großer Datenmengen, Verarbeitung juristischer oder technischer Dokumente, Backoffice-Prozesse mit langer Historie und alle Pipelines, die auf sehr langen Textsequenzen basieren.

Die Hypothese von DeepSeek ist klar: Wenn das Modell selektiv teilnehmen Zum Relevanten kann die Organisation mehr Arbeit mit der gleichen Infrastruktur oder die gleiche Last mit weniger Kosten bewältigen, ohne zu verlieren Zuverlässigkeit am Ausgang.

Verfügbarkeit, Open Source und Lizenzierung

V3.2‑Exp ist verfügbar auf der Anwendung, die Webversion und die API DeepSeek. Das Modell wird öffentlich veröffentlicht und kann von jedem bewertet werden. Es wird von einer Lizenz begleitet MIT für das Repository und die Gewichte, was die Forschung und die kommerzielle Nutzung begünstigt.

  Computex 2025: Highlights, KI-Innovationen und wichtige Trends

Diese Offenheit steht im Gegensatz zu eher geschlossenen Ansätzen, und demokratisiert den Zugang zu fortgeschrittenen Fähigkeiten. Es stärkt auch Chinas Rolle im Rennen um IA indem es Universitäten, Startups sowie lokalen und internationalen Unternehmen erleichtert wird, den Stack zu nutzen und zu modifizieren.

Das Unternehmen betont den Charakter experimentell Aus der Veröffentlichung: Sie dient als Vorschau auf die Architektur der nächsten Generation. Die stabile Veröffentlichung auf allen drei Hauptkanälen deutet jedoch auf einen ausreichenden Reifegrad für den Einsatz in der Praxis hin.

Referenzlinks: Repository und technische Dokumentation auf GitHub, Modell auf Gesicht umarmen und Support-Kontakt unter service@deepseek.com. Das gesamte Paket zielt darauf ab, die Annahme zu erleichtern von der Community.

Kurzanleitung zur lokalen Ausführung

DeepSeek bietet eine aktualisierte Inferenz-Demo zur Beschleunigung der Starten und der Community ermöglichen, die Architektur zu verstehen. Der Ablauf mit Hugging Face und Gewichtsumrechnung ist unkompliziert. und berücksichtigen Sie die Modellparallelität basierend auf Ihren GPUs.

cd inference
export EXPERTS=256
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}

export CONFIG=config_671B_v3.2.json
torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

Für diejenigen, die das Modell lieber mit SGLang bereitstellen möchten, gibt es vorgefertigte Docker-Images für verschiedene Architekturen. Die Etiketten decken NVIDIA GPU, ROCm und NPUs, einschließlich spezifischer Varianten.

# H200
docker pull lmsysorg/sglang:dsv32
# MI350 (ROCm)
docker pull lmsysorg/sglang:dsv32-rocm
# NPUs
docker pull lmsysorg/sglang:dsv32-a2
docker pull lmsysorg/sglang:dsv32-a3

# Lanzar servidor
python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64

Wenn Sie vLLM verwenden, kündigt das Projekt an Tag-0-Support für V3.2‑Exp. Aktuelle Informationen zu Konfiguration, KV-Paging und Leistungsparametern finden Sie in den offiziellen Rezepten.

In allen Fällen ist es ratsam, anzupassen MP die Anzahl der verfügbaren GPUs und die Überwachung der tatsächlichen Speichernutzung. Dadurch wird ein optimales Gleichgewicht zwischen Latenz, Durchsatz und Kosten pro Anfrage erreicht.

Offene Kernel und Ökosystem-Unterstützung

DeepSeek hat mehrere Artikel veröffentlicht, die die Forschungs- und Produktionsleistung erleichtern. Für diejenigen, die Wert auf Lesbarkeit und Design für Forschungszwecke legen, wird empfohlen TileLang als Ausgangspunkt.

In reiner Leistung mit CUDA, die Indexer-Logit-Kernel (einschließlich paginierter Varianten) sind verfügbar unter DeepGEMM. Streuende Aufmerksamkeitskerne wurden ihrerseits veröffentlicht in FlashMLA, mit dem Ziel, die Effizienz moderner GPUs zu maximieren.

Dieser modulare Ansatz ermöglicht die bedarfsgerechte Kombination von Komponenten: Lesbarkeit für Prototyping und Lehre oder Hochleistungskernel für anspruchsvolle Inferenz unter realen Belastungen. Es ist genau das, was Sie brauchen, um vom Testen zur Produktion zu migrieren, ohne die gesamte Pipeline überarbeiten zu müssen.

Darüber hinaus ergänzt die Veröffentlichung dieser Kernel mit Schwerpunkt auf dem langen Kontext den DSA-Vorstoß und schließt den Kreis zwischen angewandte Forschung, Benchmark und realer Einsatz.

Strategische Auswirkungen und was als nächstes kommt

Dass ein experimentelles Modell App, Web und API erreicht mit sofortige Preissenkung Es ist eine Absichtserklärung. DeepSeek verfolgt nicht nur eine Forschungslinie, sondern setzt sie in ein Produkt um und gibt die Einsparungen an den Endbenutzer weiter.

  Lenovo Laptop-Maus funktioniert nicht. Ursachen, Lösungen

Dieser Schritt erhöht den Druck auf die Wettbewerber im chinesischen Ökosystem, wie beispielsweise Alibabas Qwen, bereits ihre amerikanischen Pendants. Bleibt die Leistung auf dem Niveau teurerer Alternativen, könnte der Preisfaktor in kostensensiblen Sektoren den Ausschlag geben.

Eine weitere Ableitung ist die Open-Source-EffektFreizügige Lizenzen, öffentliche Kernel und breite Unterstützung beschleunigen die Einführung und erleichtern Auditierung, Lernen und Mitwirkung. Dies steht im Gegensatz zu geschlossenen Modellen und öffnet KMU und Universitätslaboren die Tür, auf den Zug aufzuspringen.

Auf narrativer Ebene ist es interessant, wie DeepSeek V3.2-Exp als ein Blick in die ZukunftFeinkörnige Mechanismen verteilter Aufmerksamkeit werden validiert und ihre Auswirkungen verglichen, wobei alle anderen Faktoren konstant bleiben. Diese vergleichende Genauigkeit verleiht den Ergebnissen Glaubwürdigkeit.

Der Winkel von mehrere Gedankengänge gleichzeitigDie Fähigkeit, mehrere Argumentationsketten aufrechtzuerhalten, ohne die Kosten zu erhöhen, eröffnet Möglichkeiten für komplexe Agenten, mehrstufiges Denken und Systeme, die Suche, Synthese und Verifizierung kombinieren.

Referenzen, Zitate und Kontakt

Für diejenigen, die tiefer gehen möchten, verlinkt DeepSeek auf Modell im Hugging Face Ein technischer Bericht ist bereits auf GitHub verfügbar. Er enthält außerdem einen Zitationsblock im BibTeX-Format und eine Kontakt-E-Mail-Adresse für Support und Fragen.

@misc{deepseekai2024deepseekv32,
  title={DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention},
  author={DeepSeek-AI},
  year={2025}
}

Der X-Kanal des Unternehmens fasste die Ankündigung zusammen: Präsentation von DeepSeek-V3.2-Exp, Verfügbarkeit in App, Web und API, mit einem API-Preisrückgang von mehr als 50 %. Der Fokus liegt wieder auf dem langfristigen Kontext und End-to-End-Effizienz.

Parallel dazu griffen die Technologiemedien die Markteinführung auf und stellten sie als relevante Bewegung nach den Auswirkungen von V3 und R1 dar. Sie wiesen darauf hin, dass, wenn sie ihr Versprechen einlöst, wird den Wettbewerb verstärken in Bezug auf das Preis-Leistungs-Verhältnis im Vergleich zu den großen Akteuren der Branche.

Um den Kreis zu schließen, lohnt es sich, sich an den jüngsten Zeitraum zu erinnern: vom Start der ChatGPT in 2022 Generative KI hat sich bisher in einem beispiellosen Tempo entwickelt. V3.2-Exp passt in diesen Trend: mehr Kontext, geringere Kosten und eine Architektur, die aus ihren eigenen Experimenten lernt.

V3.2-Exp ist als Option für Projekte zu betrachten, die große Kontexte, Geschwindigkeit und KostenkontrolleSein feinkörniger Ansatz mit verteilter Aufmerksamkeit, die Unterstützung des Ökosystems (vLLM, SGLang, offene Kernel) und die MIT-Lizenz machen es besonders attraktiv sowohl für die angewandte Forschung als auch für Unternehmensbereitstellungen, bei denen jede Millisekunde und jeder Euro zählen.

Welche KI eignet sich am besten für die jeweilige Anwendung (Chat, Bildgenerierung, Video, Recherche, Programmierung etc.)
Verwandte Artikel:
Die beste KI für jede Aufgabe: Chat, Bild, Video, Code und mehr