DeepSeek V3.2-Exp: Perhatian yang Jarang, Konteks Panjang, dan API yang Lebih Murah

Pembaharuan Terakhir: 30/09/2025
penulis: Isaac
  • V3.2‑Exp memperkenalkan DSA: Perhatian yang sangat rinci dan jarang untuk konteks yang panjang.
  • Performa yang sebanding dengan V3.1‑Terminus dan biaya API 50% lebih rendah.
  • Tersedia di aplikasi, web, dan API; lisensi MIT dan kernel terbuka.
  • Dukungan hari ke-0 dalam vLLM dan penerapan mudah dengan SGLang dan Hugging Face.

Model AI dan perhatian yang tersebar

Pada saat AI generatif tidak memberikan jeda, Pencarian Mendalam telah melakukan gerakan dengan tembakan yang ditujukan langsung pada efisiensi dan konteks jangka panjang. DeepSeek-V3.2-Kapsul Ini adalah model eksperimental yang berupaya memvalidasi perubahan signifikan dalam produksi: perhatian tersebar baru yang menjanjikan percepatan pelatihan dan inferensi tanpa menurunkan kualitas keluaran.

Model baru ini tidak dimulai dari awal; ia bergantung pada V3.1-Terminus, tetapi memperkenalkan mekanisme kunci yang disebut Perhatian Jarang DeepSeek (DSA)Dengan DSA, DeepSeek mengklaim dapat memangkas biaya komputasi dan, dalam prosesnya, turunkan harga API Anda lebih dari 50% dengan efek langsung, sambil tetap mempertahankan kinerja yang sebanding dengan pendahulunya dalam berbagai tugas.

Apa itu DeepSeek-V3.2-Exp dan mengapa itu penting

DeepSeek mendefinisikan V3.2-Exp sebagai langkah perantara menuju arsitektur berikutnya, batu loncatan yang dirancang untuk menguji dan menunjukkan pengoptimalan efisiensi spesifik dalam skenario konteks panjangMenurut perusahaan, tujuannya adalah untuk mempercepat pelatihan dan inferensi saat menangani rangkaian teks besar, di mana biaya transformator tradisional sering kali meroket.

Kuncinya adalah rilis ini adalah eksperimental, tapi bukan karena alasan anekdot itu: hal ini mencapai aplikasi, web, dan API DeepSeek sejak hari pertama, membuka pintu bagi pengembang, tim data, dan peneliti untuk mengujinya dalam kasus dunia nyata dengan konteks bervolume tinggi.

DeepSeek V3.2-Exp dalam konteks panjang

Secara teknis, V3.2-Exp mewarisi fondasi V3.1‑Terminal untuk menjaga kualitas dan memfasilitasi perbandingan yang adil. DeepSeek menunjukkan bahwa mereka sengaja menyelaraskan konfigurasi pelatihan dengan Terminus untuk mengukur dampak nyata DSA, dan tolok ukur internal menunjukkan hasil yang setara dengan pencarian, pemrograman dan matematika.

Di luar angka-angka, konteks pasar penting: pengumuman pada X menyoroti bahwa API sekarang tersedia dan pengurangan harga API lebih dari 50%. Pesannya jelasJika efisiensi meningkat, biaya turun, dan itu memberi tekanan pada pesaing di China dan luar negeri, seperti Qwen milik Alibaba atau opsi Amerika.

Apa yang diperkenalkan oleh DeepSeek Sparse Attention (DSA)

DSA adalah sebuah mekanisme perhatian yang tersebar dan berbutir halus Berfokus pada jendela konteks yang besar. Alih-alih memperlakukan semua token secara setara, metode ini memprioritaskan fragmen yang benar-benar relevan dan mengurangi pekerjaan yang tidak perlu, sekaligus mempertahankan kualitas keluaran yang hampir identik.

Untuk mencapai hal ini, DeepSeek menggabungkan modul yang disebut Pengindeks petir, yang fungsinya untuk menetapkan prioritas ke area tertentu di jendela konteks. Langkah ini mendahului perhatian dan bertindak sebagai filter cerdas yang memisahkan hal-hal penting dari hal-hal sekunder.

Setelah penyaringan pertama ini, model menerapkan proses pemilihan token yang terperinciDalam praktiknya, ini berarti tidak semua token bersaing untuk mendapatkan perhatian: hanya token yang diidentifikasi sebagai paling informatif yang masuk ke jendela perhatian yang jarang, sehingga mengurangi memori dan konsumsi komputasi.

  5 Program Terbaik untuk Bluetooth

Efek samping positifnya adalah sistem dapat mempertimbangkan proporsi konteks yang besar dan mempertahankan beberapa alur penalaran secara bersamaan, tanpa merasa kewalahan. Hal ini sangat berguna dalam alur yang panjang, analisis dokumen yang kompleks, atau percakapan yang ekstensif dan multi-utas.

Cara kerjanya: Pengindeks Lightning dan Pemilihan Token

Alur konseptual yang menggambarkan DeepSeek dapat disederhanakan menjadi beberapa fase yang saling terkait, masing-masing dengan peran spesifik untuk memaksimalkan efisiensi dalam konteks yang panjang. Optimalisasi adalah tentang memilih yang lebih baik, bukan memproses lebih banyak..

  • Prioritas Cepat: Pengindeks petir Ia memindai jendela dan menyorot fragmen kandidat dengan relevansi semantik atau struktural yang tinggi.
  • Penyempurnaan Halus: The pemilihan token yang terperinci, yang menentukan token mana yang sebenarnya menjadi fokus perhatian yang tersebar.
  • Perawatan yang efisien: DSA menerapkan perhatian hanya pada subset yang dipilih, menghemat komputasi dan memori dibandingkan dengan perhatian padat tradisional.
  • Keluaran yang sebanding: Kualitas model dipertahankan dalam praktik, berdasarkan tolok ukur internal dengan V3.1-Terminus.

DeepSeek menekankan bahwa strategi ini bukanlah trik satu kali: tujuannya adalah memvalidasi dan menetapkan perbaikan efisiensi untuk arsitektur masa depan Anda. Dengan kata lain, V3.2-Exp adalah tempat uji coba yang sesungguhnya, tetapi sudah dapat digunakan dalam tahap produksi.

Selain itu, perusahaan mencatat bahwa pendekatan ini memungkinkan model validasi otomatis parameter tertentu selama pelatihan dalam skenario konteks panjang, secara dinamis menyesuaikan upaya komputasi dengan apa yang sebenarnya menyumbangkan informasi.

Performa, tolok ukur, dan biaya: 50% lebih murah pada API

Salah satu kesimpulan yang paling mencolok adalah bahwa kinerja V3.2-Kadaluarsa Ia setara dengan V3.1-Terminus dalam beberapa hal utama: sebagai mesin pencari, dalam tugas pengkodean, dan dalam soal matematika. Mempertahankan hasil yang serupa dengan komputasi yang lebih sedikit adalah faktor yang memungkinkan penurunan harga.

DeepSeek mengumumkan bahwa Harga API turun lebih dari 50% langsung berkat efisiensi yang dicapai dengan DSA. Keputusan ini tidak hanya memudahkan akses ke teknologi, tetapi juga membuat perbandingan menjadi lebih mahal bagi pesaing yang harus membenarkan biaya penggunaan yang lebih tinggi.

Dalam hal pengalaman praktis, peningkatannya terutama terlihat dalam skenario konteks panjang:analisis data besar, pemrosesan dokumen hukum atau teknis, proses back-office dengan riwayat panjang, dan jalur apa pun yang bergantung pada rangkaian teks yang sangat panjang.

Hipotesis DeepSeek jelas: jika modelnya bisa hadir secara selektif yang relevan, organisasi dapat menangani lebih banyak pekerjaan dengan infrastruktur yang sama, atau beban yang sama dengan biaya lebih rendah, tanpa kehilangan keandalan di pintu keluar.

Ketersediaan, sumber terbuka, dan lisensi

V3.2‑Exp tersedia di aplikasi, versi web dan API DeepSeek. Model ini dipublikasikan secara terbuka untuk dievaluasi oleh siapa pun, dan disertai dengan lisensi MIT untuk repositori dan bobot, yang mendukung penelitian dan adopsi komersial.

  Program Terbaik untuk Membuat Animasi 3D

Keterbukaan ini berbeda dengan pendekatan yang lebih tertutup, dan mendemokratisasi akses untuk kemampuan yang lebih maju. Hal ini juga memperkuat peran Tiongkok dalam perlombaan untuk IA dengan mempermudah universitas, perusahaan rintisan, serta perusahaan lokal dan internasional untuk memanfaatkan dan memodifikasi tumpukan tersebut.

Perusahaan menekankan karakter eksperimental dari rilis: Ini berfungsi sebagai pratinjau tentang apa yang mungkin akan hadir dalam arsitektur generasi berikutnya. Namun, rilis stabilnya di ketiga kanal utama menunjukkan tingkat kematangan yang memadai untuk penggunaan di dunia nyata.

Tautan referensi: repositori dan dokumentasi teknis di GitHub, model di Wajah Memeluk dan kontak dukungan di layanan@deepseek.com. Seluruh paket ini bertujuan untuk memfasilitasi adopsi oleh komunitas.

Panduan cepat untuk menjalankannya secara lokal

DeepSeek menyediakan demo inferensi terbaru yang bertujuan untuk mempercepat boot dan memungkinkan masyarakat memahami arsitekturnya. Alur dengan Hugging Face dan konversi berat sangatlah mudah. dan pertimbangkan paralelisme model berdasarkan GPU Anda.

cd inference
export EXPERTS=256
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}

export CONFIG=config_671B_v3.2.json
torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

Bagi mereka yang lebih suka menyajikan model dengan SGLang, tersedia gambar Docker siap pakai untuk berbagai arsitektur. Labelnya meliputi NVIDIA GPU, ROCm dan NPU, termasuk varian tertentu.

# H200
docker pull lmsysorg/sglang:dsv32
# MI350 (ROCm)
docker pull lmsysorg/sglang:dsv32-rocm
# NPUs
docker pull lmsysorg/sglang:dsv32-a2
docker pull lmsysorg/sglang:dsv32-a3

# Lanzar servidor
python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64

Jika Anda menggunakan vLLM, proyek mengumumkan dukungan hari‑0 untuk V3.2‑Kadaluarsa. Lihat resep resmi untuk detail terbaru tentang konfigurasi, paging KV, dan parameter kinerja.

Dalam semua kasus, disarankan untuk menyesuaikan MP jumlah GPU yang tersedia dan memantau penggunaan memori aktual. Hal ini mencapai keseimbangan optimal antara latensi, throughput, dan biaya per permintaan.

Kernel terbuka dan dukungan ekosistem

DeepSeek telah merilis beberapa produk yang memfasilitasi kinerja riset dan produksi. Bagi mereka yang mengutamakan keterbacaan dan desain untuk keperluan riset, kami merekomendasikan UbinLang sebagai titik awal.

Dalam kinerja murni dengan CUDA, kernel logit pengindeks (termasuk varian berhalaman) tersedia di DeepGEMM. Sementara itu, inti perhatian yang tersebar telah dipublikasikan di Bahasa Indonesia: FlashMLA, ditujukan untuk memaksimalkan efisiensi pada GPU modern.

Pendekatan modular ini memungkinkan komponen untuk digabungkan sesuai kebutuhan: keterbacaan untuk pembuatan prototipe dan pengajaran, atau kernel berkinerja tinggi untuk inferensi yang menuntut di bawah beban dunia nyata. Inilah yang Anda butuhkan untuk bermigrasi dari pengujian ke produksi tanpa perlu mengerjakan ulang seluruh alur kerja.

Selain itu, penerbitan kernel ini dengan penekanan pada konteks panjang melengkapi dorongan DSA, menutup lingkaran antara penelitian terapan, tolok ukur dan penerapan nyata.

Dampak strategis dan langkah selanjutnya

Bahwa model eksperimental mencapai Aplikasi, Web, dan API dengan pengurangan harga langsung Ini adalah pernyataan niat. DeepSeek tidak hanya mengeksplorasi serangkaian riset; ia menerjemahkannya menjadi sebuah produk dan meneruskan penghematannya kepada pengguna akhir.

  Panduan Utama untuk 3 Paket Codec Terbaik untuk Windows 11

Langkah ini menambah tekanan pada pesaing di ekosistem Tiongkok, seperti Qwen dari Alibaba, sudah setara dengan rekan-rekan mereka di Amerika. Jika kinerja tetap setara dengan alternatif yang lebih mahal, faktor harga dapat memengaruhi keseimbangan di sektor-sektor yang sensitif terhadap biaya.

Turunan lainnya adalah efek sumber terbukaLisensi yang permisif, kernel publik, dan dukungan yang luas mempercepat adopsi dan memfasilitasi audit, pembelajaran, dan kontribusi. Hal ini berbeda dengan model tertutup dan membuka peluang bagi UKM dan laboratorium universitas untuk ikut serta.

Pada tingkat naratif, menarik bagaimana DeepSeek membingkai V3.2-Exp sebagai sekilas ke masa depanMekanisme perhatian tersebar yang terperinci divalidasi, dan dampaknya dibandingkan, dengan semua faktor lain tetap konstan. Ketelitian komparatif ini memberikan kredibilitas pada hasil.

Sudut beberapa baris pemikiran secara bersamaanMampu mempertahankan beberapa rangkaian penalaran tanpa meningkatkan biaya membuka peluang bagi agen yang kompleks, penalaran multi-langkah, dan sistem yang menggabungkan pencarian, sintesis, dan verifikasi.

Referensi, kutipan dan kontak

Bagi mereka yang ingin lebih mendalami, DeepSeek terhubung ke model di Hugging Face Laporan teknisnya sudah tersedia di GitHub. Laporan ini juga menyediakan blok sitasi dalam format BibTeX dan alamat email kontak untuk dukungan dan pertanyaan.

@misc{deepseekai2024deepseekv32,
  title={DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention},
  author={DeepSeek-AI},
  year={2025}
}

Saluran X perusahaan merangkum pengumuman tersebut: presentasi DeepSeek-V3.2-Kapsul, ketersediaan di Aplikasi, Web, dan API, dengan penurunan harga API lebih dari 50%. Fokus kembali pada konteks jangka panjang dan efisiensi menyeluruh.

Pada saat yang sama, media teknologi mengangkat peluncuran ini, menempatkannya sebagai gerakan yang relevan setelah dampak V3 dan R1, dan menunjukkan bahwa, jika hal ini mengkonsolidasikan janjinya, akan meningkatkan persaingan dalam hal kualitas-harga dibandingkan dengan pemain utama di sektor tersebut.

Untuk menutup lingkaran, ada baiknya mengingat kerangka waktu terkini: dari lepas landas ChatGPT di 2022 AI generatif telah berkembang dengan kecepatan yang belum pernah terjadi sebelumnya. V3.2-Exp sesuai dengan tren tersebut: lebih banyak konteks, lebih hemat biaya, dan arsitektur yang belajar dari eksperimennya sendiri.

V3.2-Exp diposisikan sebagai opsi untuk dipertimbangkan untuk proyek yang membutuhkan konteks besar, kecepatan dan kontrol biayaPendekatannya yang terperinci dan perhatian yang tersebar, dukungan ekosistem (vLLM, SGLang, kernel terbuka), dan lisensi MIT menjadikannya sangat menarik baik untuk penelitian terapan maupun penerapan perusahaan, di mana setiap milidetik dan setiap euro berarti.

Apa AI terbaik untuk setiap aplikasi (obrolan, pembuatan gambar, video, penelitian, pemrograman, dll.)
Artikel terkait:
AI terbaik untuk setiap tugas: obrolan, gambar, video, kode, dan banyak lagi