DeepSeek V3.2-Exp: Chú ý thưa thớt, ngữ cảnh dài và API rẻ hơn

Cập nhật lần cuối: 30/09/2025
tác giả: Isaac
  • V3.2‑Exp ra mắt DSA: Sự chú ý thưa thớt chi tiết cho bối cảnh dài.
  • Hiệu suất tương đương với V3.1‑Terminus và chi phí API thấp hơn 50%.
  • Có sẵn trên ứng dụng, web và API; giấy phép MIT và kernel mở.
  • Hỗ trợ ngay từ đầu trong vLLM và triển khai dễ dàng với SGLang và Hugging Face.

Mô hình AI và sự chú ý phân tán

Vào thời điểm mà Trí tuệ nhân tạo không cho sự nghỉ ngơi, tìm kiếm sâu đã có động thái với cú đánh nhắm trực tiếp vào hiệu quả và bối cảnh dài hạn. DeepSeek-V3.2-Exp Đây là một mô hình thử nghiệm nhằm xác thực một thay đổi đáng kể trong sản xuất: một sự chú ý phân tán mới hứa hẹn sẽ đẩy nhanh quá trình đào tạo và suy luận mà không làm giảm chất lượng đầu ra.

Mô hình mới không bắt đầu từ con số 0; nó dựa trên V3.1-Terminus, nhưng nó giới thiệu một cơ chế quan trọng được gọi là DeepSeek Sparse Attention (DSA)Với DSA, DeepSeek tuyên bố sẽ cắt giảm chi phí điện toán và trong quá trình đó, giảm giá API của bạn hơn 50% có hiệu lực ngay lập tức, đồng thời vẫn duy trì hiệu suất tương đương với phiên bản tiền nhiệm trong nhiều tác vụ.

DeepSeek-V3.2-Exp là gì và tại sao nó lại quan trọng

DeepSeek định nghĩa V3.2-Exp là bước trung gian hướng tới kiến ​​trúc tiếp theo của nó, một bước đệm được thiết kế để thử nghiệm và chứng minh các tối ưu hóa hiệu quả cụ thể trong các kịch bản ngữ cảnh dàiTheo công ty, mục tiêu là tăng tốc cả quá trình đào tạo và suy luận khi xử lý chuỗi văn bản lớn, trong khi các bộ chuyển đổi truyền thống thường có giá thành tăng vọt.

Điều quan trọng là bản phát hành này là thử nghiệm, nhưng không phải vì lý do đó mà là giai thoại: nó đạt đến ứng dụng, web và API DeepSeek ngay từ ngày đầu tiên, mở ra cánh cửa cho các nhà phát triển, nhóm dữ liệu và nhà nghiên cứu thử nghiệm trong các trường hợp thực tế với khối lượng ngữ cảnh lớn.

DeepSeek V3.2-Exp trong bối cảnh dài

Về mặt kỹ thuật, V3.2-Exp kế thừa nền tảng của V3.1‑Terminus để duy trì chất lượng và tạo điều kiện so sánh công bằng. DeepSeek cho biết họ đã cố tình liên kết các cấu hình đào tạo với Terminus để đo lường tác động thực sự của DSA và chuẩn mực nội bộ hiển thị kết quả ngang bằng với tìm kiếm, lập trình và toán học.

Ngoài các con số, bối cảnh thị trường cũng rất quan trọng: thông báo trên X nhấn mạnh rằng sản phẩm hiện đã có sẵn và giá API đã giảm hơn 50%. Thông điệp rõ ràngNếu hiệu quả được cải thiện, chi phí sẽ giảm và điều đó sẽ gây áp lực lên các đối thủ ở Trung Quốc và nước ngoài, chẳng hạn như Qwen của Alibaba hoặc các lựa chọn của Mỹ.

DeepSeek Sparse Attention (DSA) giới thiệu những gì

DSA là một cơ chế của sự chú ý phân tán hạt mịn Tập trung vào các cửa sổ ngữ cảnh lớn. Thay vì xử lý tất cả các mã thông báo như nhau, nó ưu tiên các đoạn thực sự liên quan và giảm thiểu công việc không cần thiết, đồng thời duy trì chất lượng đầu ra gần như giống hệt nhau.

Để đạt được điều này, DeepSeek kết hợp một mô-đun có tên là Chỉ số sét, có chức năng gán mức độ ưu tiên cho các khu vực cụ thể của cửa sổ ngữ cảnh. Bước này diễn ra trước khi chú ý và hoạt động như một bộ lọc thông minh giúp phân tách phần thiết yếu khỏi phần thứ yếu.

Sau lần sàng lọc đầu tiên này, mô hình áp dụng một quy trình lựa chọn mã thông báo chi tiếtTrên thực tế, điều này có nghĩa là không phải tất cả các mã thông báo đều cạnh tranh để thu hút sự chú ý: chỉ những mã thông báo được xác định là cung cấp nhiều thông tin nhất mới được chuyển vào cửa sổ chú ý thưa thớt, do đó làm giảm bộ nhớ và mức tiêu thụ tính toán.

  Làm thế nào để đặt câu hỏi DeepSeek hiệu quả hơn

Một tác dụng phụ tích cực là hệ thống có thể xem xét tỷ lệ lớn của bối cảnh và duy trì nhiều luồng suy luận cùng lúc mà không bị quá tải. Điều này đặc biệt hữu ích trong các luồng suy luận dài, phân tích tài liệu phức tạp hoặc các cuộc hội thoại đa luồng, kéo dài.

Cách thức hoạt động: Lightning Indexer và Token Selection

Quy trình khái niệm mô tả DeepSeek có thể được đơn giản hóa thành nhiều giai đoạn liên kết, mỗi giai đoạn có vai trò cụ thể để tối đa hóa hiệu quả trong bối cảnh dài. Tối ưu hóa là lựa chọn tốt hơn chứ không phải xử lý nhiều hơn..

  • Ưu tiên nhanh chóng: Chỉ số sét Nó quét cửa sổ và làm nổi bật các đoạn ứng viên có liên quan cao về mặt ngữ nghĩa hoặc cấu trúc.
  • Sự tinh tế tinh tế: lựa chọn mã thông báo chi tiết, trong đó chỉ rõ mã thông báo nào thực sự được chú ý phân tán.
  • Chăm sóc hiệu quả: DSA chỉ áp dụng sự chú ý vào tập hợp con đã chọn, tiết kiệm tính toán và bộ nhớ so với sự chú ý dày đặc truyền thống.
  • Đầu ra có thể so sánh: Chất lượng mô hình được duy trì trong thực tế, dựa trên các tiêu chuẩn nội bộ với V3.1-Terminus.

DeepSeek nhấn mạnh rằng chiến lược này không phải là một thủ thuật một lần: mục đích là xác nhận và thiết lập các cải tiến Hiệu quả cho kiến ​​trúc tương lai của bạn. Nói cách khác, V3.2-Exp là một nền tảng thử nghiệm thực sự, nhưng đã có thể sử dụng trong sản xuất.

Ngoài ra, công ty lưu ý rằng cách tiếp cận này cho phép mô hình tự động xác thực một số tham số nhất định trong quá trình đào tạo theo các tình huống ngữ cảnh dài, điều chỉnh động lực tính toán theo những gì thực sự đóng góp thông tin.

Hiệu suất, điểm chuẩn và chi phí: Giảm 50% trên API

Một trong những kết luận nổi bật nhất là hiệu suất của V3.2-Exp Nó ngang bằng với V3.1-Terminus ở những khía cạnh chính: công cụ tìm kiếm, tác vụ mã hóa và các bài toán. Việc duy trì kết quả tương tự với ít tính toán hơn chính là yếu tố giúp giảm giá thành.

DeepSeek đã thông báo rằng Giá API giảm hơn 50% ngay lập tức nhờ hiệu quả đạt được với DSA. Quyết định này không chỉ tạo điều kiện thuận lợi cho việc tiếp cận công nghệ mà còn khiến việc so sánh trở nên tốn kém hơn đối với các đối thủ cạnh tranh, những người phải biện minh cho chi phí sử dụng cao hơn.

Về mặt kinh nghiệm thực tế, sự cải thiện đặc biệt đáng chú ý trong các tình huống bối cảnh dài: phân tích dữ liệu lớn, xử lý tài liệu pháp lý hoặc kỹ thuật, quy trình văn phòng có lịch sử lâu dài và bất kỳ quy trình nào dựa trên chuỗi văn bản rất dài.

Giả thuyết của DeepSeek rất rõ ràng: nếu mô hình có thể tham dự có chọn lọc liên quan, tổ chức có thể xử lý nhiều công việc hơn với cùng một cơ sở hạ tầng hoặc cùng một khối lượng công việc với chi phí thấp hơn mà không bị mất mát độ tin cậy ở lối ra.

Tính khả dụng, mã nguồn mở và cấp phép

V3.2‑Exp có sẵn trên ứng dụng, phiên bản web và API DeepSeek. Mô hình được công bố công khai để bất kỳ ai cũng có thể đánh giá và kèm theo giấy phép MIT cho kho lưu trữ và trọng số, có lợi cho việc nghiên cứu và áp dụng thương mại.

  DeepSeek-R1 hiện có sẵn dưới dạng mô hình được quản lý trên Amazon Bedrock

Sự cởi mở này trái ngược với những cách tiếp cận khép kín hơn, và dân chủ hóa quyền truy cập đến các khả năng tiên tiến. Nó cũng củng cố vai trò của Trung Quốc trong cuộc chạy đua giành IA bằng cách giúp các trường đại học, công ty khởi nghiệp và các công ty trong nước và quốc tế dễ dàng tận dụng và sửa đổi ngăn xếp.

Công ty nhấn mạnh vào tính cách thử nghiệm Bản phát hành: Nó đóng vai trò như một bản xem trước về những gì có thể sẽ xuất hiện trong kiến ​​trúc thế hệ tiếp theo. Tuy nhiên, bản phát hành ổn định trên cả ba kênh chính cho thấy mức độ hoàn thiện đủ để sử dụng trong thực tế.

Liên kết tham khảo: kho lưu trữ và tài liệu kỹ thuật trên GitHub, mô hình trên Ôm mặt và liên hệ hỗ trợ tại service@deepseek.com. Toàn bộ gói nhằm mục đích tạo điều kiện thuận lợi cho việc áp dụng bởi cộng đồng.

Hướng dẫn nhanh để chạy cục bộ

DeepSeek cung cấp bản demo suy luận được cập nhật nhằm mục đích tăng tốc khởi động và cho phép cộng đồng hiểu được kiến ​​trúc. Quá trình chuyển đổi giữa Hugging Face và trọng lượng rất đơn giản. và xem xét tính song song của mô hình dựa trên GPU của bạn.

cd inference
export EXPERTS=256
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}

export CONFIG=config_671B_v3.2.json
torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

Đối với những người muốn phục vụ mô hình bằng SGLang, có các hình ảnh Docker có sẵn cho nhiều kiến ​​trúc khác nhau. Các nhãn bao gồm NVIDIA-GPU, ROCm và NPU, bao gồm các biến thể cụ thể.

# H200
docker pull lmsysorg/sglang:dsv32
# MI350 (ROCm)
docker pull lmsysorg/sglang:dsv32-rocm
# NPUs
docker pull lmsysorg/sglang:dsv32-a2
docker pull lmsysorg/sglang:dsv32-a3

# Lanzar servidor
python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64

Nếu bạn sử dụng vLLM, dự án sẽ thông báo hỗ trợ ngày 0 dành cho V3.2‑Exp. Kiểm tra các công thức chính thức để biết thông tin chi tiết mới nhất về cấu hình, phân trang KV và các thông số hiệu suất.

Trong mọi trường hợp, nên điều chỉnh MP số lượng GPU khả dụng và giám sát mức sử dụng bộ nhớ thực tế. Điều này đạt được sự cân bằng tối ưu giữa độ trễ, thông lượng và chi phí cho mỗi yêu cầu.

Hỗ trợ hệ sinh thái và hạt nhân mở

DeepSeek đã phát hành nhiều sản phẩm hỗ trợ hiệu suất nghiên cứu và sản xuất. Đối với những người ưu tiên khả năng đọc và thiết kế cho mục đích nghiên cứu, sản phẩm này được khuyến nghị. NgóiLang như điểm khởi đầu.

Trong hiệu suất thuần túy với CUDA, hạt nhân logit lập chỉ mục (bao gồm các biến thể được phân trang) có sẵn tại DeepGEMM. Về phần mình, các hạt nhân chú ý phân tán đã được xuất bản trong FlashMLA, nhằm mục đích tối đa hóa hiệu quả trong GPU hiện đại.

Phương pháp tiếp cận theo mô-đun này cho phép kết hợp các thành phần khi cần thiết: khả năng đọc để tạo mẫu và giảng dạy, hoặc hạt nhân hiệu suất cao dành cho việc suy luận đòi hỏi khắt khe trong điều kiện tải trọng thực tế. Đây chính là những gì bạn cần để chuyển từ thử nghiệm sang sản xuất mà không cần phải làm lại toàn bộ quy trình.

Hơn nữa, việc xuất bản các hạt nhân này với sự nhấn mạnh vào bối cảnh dài bổ sung cho động lực thúc đẩy DSA, khép lại vòng lặp giữa nghiên cứu ứng dụng, chuẩn mực và triển khai thực tế.

Tác động chiến lược và những gì tiếp theo

Một mô hình thử nghiệm đạt đến Ứng dụng, Web và API với giảm giá ngay lập tức Đây là một tuyên bố về ý định. DeepSeek không chỉ khám phá một hướng nghiên cứu; nó còn chuyển đổi hướng nghiên cứu đó thành sản phẩm và chuyển lợi ích tiết kiệm cho người dùng cuối.

  Cách sửa chữa Bản ghi khởi động chính (MBR) trong Windows 10

Động thái này gây thêm áp lực cho các đối thủ cạnh tranh trong hệ sinh thái Trung Quốc, chẳng hạn như Qwen của Alibaba, vốn đã là các đối thủ Mỹ của họ. Nếu hiệu suất vẫn ở mức của các lựa chọn thay thế đắt tiền hơn, yếu tố giá cả có thể làm thay đổi cán cân trong các lĩnh vực nhạy cảm với chi phí.

Một dẫn xuất khác là hiệu ứng nguồn mởGiấy phép cho phép, hạt nhân công cộng và sự hỗ trợ rộng rãi giúp đẩy nhanh việc áp dụng và tạo điều kiện thuận lợi cho việc kiểm tra, học tập và đóng góp. Điều này trái ngược với các mô hình đóng và mở ra cơ hội cho các doanh nghiệp vừa và nhỏ (SME) và các phòng thí nghiệm đại học tham gia vào xu hướng này.

Ở cấp độ tường thuật, thật thú vị khi DeepSeek đóng khung V3.2-Exp như một cái nhìn thoáng qua về tương laiCác cơ chế chú ý phân tán chi tiết được xác thực và tác động của chúng được so sánh, giữ nguyên tất cả các yếu tố khác. Sự so sánh chặt chẽ này mang lại độ tin cậy cho kết quả.

Góc của nhiều dòng suy nghĩ cùng một lúcKhả năng duy trì nhiều chuỗi suy luận mà không làm tăng chi phí mở ra cơ hội cho các tác nhân phức tạp, suy luận nhiều bước và các hệ thống kết hợp tìm kiếm, tổng hợp và xác minh.

Tài liệu tham khảo, trích dẫn và liên hệ

Đối với những người muốn đi sâu hơn, DeepSeek liên kết đến người mẫu trong Ôm mặt Báo cáo kỹ thuật hiện đã có sẵn trên GitHub. Báo cáo cũng chia sẻ khối trích dẫn theo định dạng BibTeX và địa chỉ email liên hệ để được hỗ trợ và giải đáp thắc mắc.

@misc{deepseekai2024deepseekv32,
  title={DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention},
  author={DeepSeek-AI},
  year={2025}
}

Kênh X của công ty đã tóm tắt thông báo: trình bày DeepSeek-V3.2-Exp, khả dụng trên Ứng dụng, Web và API, với mức giá API giảm hơn 50%. Trọng tâm quay trở lại bối cảnh dài hạn và hiệu quả toàn diện.

Song song đó, các phương tiện truyền thông công nghệ đã đưa tin về sự ra mắt này, coi đây là một phong trào có liên quan sau tác động của V3 và R1, và chỉ ra rằng, nếu nó củng cố lời hứa của mình, sẽ tăng cường cạnh tranh về mặt chất lượng-giá cả so với các đối thủ lớn trong ngành.

Để khép lại vòng tròn, điều đáng ghi nhớ là khung thời gian gần đây: từ khi cất cánh ChatGPT trong 2022 Trí tuệ nhân tạo (AI) đã phát triển với tốc độ chưa từng có từ trước đến nay. V3.2-Exp phù hợp với xu hướng đó: nhiều ngữ cảnh hơn, chi phí thấp hơn và kiến ​​trúc học hỏi từ chính các thử nghiệm của nó.

V3.2-Exp được định vị là một lựa chọn cần xem xét cho các dự án cần bối cảnh lớn, tốc độ và kiểm soát chi phíPhương pháp tiếp cận chi tiết, tập trung phân tán, hỗ trợ hệ sinh thái (vLLM, SGLang, hạt nhân mở) và giấy phép MIT khiến nó đặc biệt hấp dẫn đối với cả nghiên cứu ứng dụng và triển khai doanh nghiệp, nơi mà từng mili giây và từng euro đều có giá trị.

AI nào là tốt nhất cho từng ứng dụng (trò chuyện, tạo hình ảnh, video, nghiên cứu, lập trình, v.v.)?
Bài viết liên quan:
AI tốt nhất cho mọi tác vụ: trò chuyện, hình ảnh, video, mã và hơn thế nữa