DeepSeek V3.2-Exp:稀疏注意力、长上下文和更便宜的 API

最后更新: 30/09/2025
作者: 艾萨克
  • V3.2‑Exp 首次推出 DSA:针对长上下文的细粒度稀疏注意力。
  • 性能与 V3.1‑Terminus 相当,但 API 成本降低 50%。
  • 可在应用程序、网络和 API 中使用;MIT 许可证和开放内核。
  • vLLM 中的 Day-0 支持以及使用 SGLang 和 Hugging Face 轻松部署。

AI模型与分散注意力

正当此时 生成式人工智能 毫不留情, DeepSeek 已经采取了直接针对效率和长远目标的行动。 DeepSeek-V3.2-Exp 这是一个实验模型,旨在验证生产中的重大变化:一种新的分散注意力,有望加速训练和推理,而不会降低输出质量。

新模型并非从零开始;它依赖于 V3.1-Terminus,但它引入了一种称为 DeepSeek 稀疏注意力 (DSA)DeepSeek 声称,通过 DSA 可以降低计算成本,并且在此过程中, 降低 API 价格 50% 以上 立即生效,同时在多项任务中保持与其前代产品相当的性能。

什么是 DeepSeek-V3.2-Exp 以及它为何重要

DeepSeek 将 V3.2-Exp 定义为迈向其下一代架构的中间步骤,旨在测试和演示以下方面的特定效率优化: 长上下文场景据该公司称,其目标是在处理大量文本序列时加速训练和推理,而传统变压器的成本往往会飙升。

关键是这个版本 试验,但不是出于这个原因的轶事:它达到了 应用程序、网络和 API 从第一天起,DeepSeek 就为开发人员、数据团队和研究人员打开了大门,让他们可以在具有大量上下文的真实案例中对其进行测试。

长上下文中的 DeepSeek V3.2-Exp

从技术上讲,V3.2-Exp 继承了 V3.1‑终端 以保持质量并促进公平比较。DeepSeek 表示,它有意将训练配置与 Terminus 保持一致,以衡量 DSA 的实际影响,并且 内部基准 显示与搜索相同的结果, 编程 和数学。

除了数字之外,市场背景也很重要:X 上的公告强调它现已可用,并且 API 价格降低超过 50%。 信息很明确如果效率提高,成本就会下降,这会给国内外的竞争对手带来压力,比如阿里巴巴的 Qwen 或美国的选择。

DeepSeek 稀疏注意力 (DSA) 的引入

DSA 是一种机制 细粒度分散注意力 专注于大型上下文窗口。它不会平等对待所有标记,而是优先处理真正相关的片段,减少不必要的工作,同时保持几乎相同的输出质量。

为了实现这一点,DeepSeek 引入了一个名为 闪电索引器其功能是为上下文窗口的特定区域分配优先级。此步骤先于关注,并充当智能过滤器,将重要信息与次要信息区分开来。

经过第一次筛选后,该模型应用了 细粒度的令牌选择实际上,这意味着并非所有标记都会争夺注意力:只有那些被认定为信息量最大的标记才会进入稀疏注意力窗口,从而减少内存和计算消耗。

  现代显卡中的加速度计和陀螺仪有什么用途?

一个积极的副作用是系统可以考虑 大量背景信息 并同时维持多条推理线索,而不会感到不知所措。这在长流程、复杂文档分析或大规模多线程对话中尤其有用。

工作原理:闪电索引器和代币选择

描述 DeepSeek 的概念管道可以简化为几个相互关联的阶段,每个阶段都有特定的作用,以在长上下文中最大限度地提高效率。 优化是选择更好的,而不是处理更多。.

  • 快速确定优先级: 闪电索引器 它扫描窗口并突出显示具有高度语义或结构相关性的候选片段。
  • 精细加工: 细粒度的令牌选择,它指定哪些标记实际上成为分散注意力的焦点。
  • 高效护理: DSA 仅将注意力集中在选定的子集上,与传统的密集注意力相比,节省了计算和内存。
  • 可比输出:基于 V3.1-Terminus 的内部基准,在实践中保持模型质量。

DeepSeek 强调,这一策略并非一次性的伎俩:其目的是 验证并建立改进 为您未来的架构带来更高的效率。换句话说,V3.2-Exp 是一个真正的试验场,但已经可以在生产环境中使用。

此外,该公司指出,该方法允许模型 自动验证某些参数 在长上下文场景的训练期间,动态调整计算工作量以适应实际提供的信息。

性能、基准和成本:API 价格降低 50%

最引人注目的结论之一是 V3.2-Exp 它在搜索引擎、编码任务和数学问题等关键领域与 V3.1-Terminus 相当。以更少的计算量保持相似的结果,是其价格下降的原因。

DeepSeek 宣布 API价格下跌超过50% 由于DSA实现了高效运行,这一举措立即生效。这一决策不仅方便了该技术的获取,也使得竞争对手的成本更高,因为他们必须证明更高的使用成本是合理的。

从实际体验来看,在以下场景的提升尤为明显: 长上下文:大数据分析、法律或技术文档处理、具有长期历史的后台流程以及任何依赖于非常长的文本序列的管道。

DeepSeek 的假设很明确:如果模型能够 选择性参加 对于相关组织来说,他们可以用相同的基础设施处理更多的工作,或者用更少的成本处理相同的负载,而不会损失 可靠性 在出口处。

可用性、开源和许可

V3.2‑Exp 可在 应用程序、网页版和 API DeepSeek。该模型公开发布,供任何人评估,并附带许可证 麻省理工学院简介 用于存储库和权重,这有利于研究和商业采用。

  适用于资源匮乏的计算机的 10 种最佳防病毒软件

这种开放性与更为封闭的做法形成对比,并且 民主化访问 先进能力。这也加强了中国在 IA 通过使大学、初创公司以及本地和国际公司更容易利用和修改堆栈。

该公司强调性格 试验 从发布版本来看:它只是下一代架构的预览版。尽管如此,它在三大主流渠道上的稳定发布表明其已经足够成熟,可以投入实际使用。

参考链接:GitHub 上的存储库和技术文档,模型 拥抱脸 并联系支持人员 service@deepseek.com. 整个方案旨在促进采用 由社区。

本地运行的快速指南

DeepSeek 提供了一个更新的推理演示,旨在加速 引导 并让社区了解该架构。 Hugging Face 和重量转换的流程很简单。 并根据您的 GPU 考虑模型并行性。

cd inference
export EXPERTS=256
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}

export CONFIG=config_671B_v3.2.json
torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

对于那些喜欢使用 SGLang 来服务模型的人来说,有针对不同架构的现成的 Docker 镜像。 标签覆盖 NVIDIA GPU、ROCm 和 NPU,包括特定变体。

# H200
docker pull lmsysorg/sglang:dsv32
# MI350 (ROCm)
docker pull lmsysorg/sglang:dsv32-rocm
# NPUs
docker pull lmsysorg/sglang:dsv32-a2
docker pull lmsysorg/sglang:dsv32-a3

# Lanzar servidor
python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64

如果你使用 vLLM,该项目会宣布 第 0 天支持 适用于 V3.2‑Exp。请查看官方配方,了解有关配置、KV 分页和性能参数的最新详细信息。

在所有情况下,建议调整 MP 可用 GPU 数量并监控实际内存使用情况。这实现了延迟、吞吐量和每个请求成本之间的最佳平衡。

开放内核和生态系统支持

DeepSeek 发布了多款有助于提升研究和生产性能的作品。对于那些优先考虑可读性和研究设计的人来说,推荐 瓦朗 作为一个起点。

在纯 CUDA 性能方面, 索引器逻辑核 (包括分页版本)可在 DeepGEMM。就其本身而言,分散注意力内核已在 FlashMLA,旨在最大限度地提高现代 GPU 的效率。

这种模块化方法允许根据需要组合组件:原型设计和教学的可读性,或 高性能内核 适用于在实际负载下进行高要求的推理。它正是您从测试迁移到生产环境所需的,无需重新构建整个流程。

此外,这些强调长上下文的内核的发布补充了 DSA 的推动,从而形成了闭环 应用研究、基准和实际部署。

战略影响及下一步

实验模型可以覆盖 App、Web 和 API 立即降价 这是一份意向声明。DeepSeek 不仅仅是探索某一研究方向;它将其转化为产品,并将节省的成本回馈给最终用户。

  如何在他们不知情的情况下保存 Snapchat 照片

此举给中国生态系统中的竞争对手增加了压力,例如 阿里巴巴的Qwen,已经与美国同行竞争。如果性能保持在更昂贵的替代品的水平,价格因素可能会在成本敏感的行业中打破平衡。

另一个衍生品是 开源效应宽松的许可证、公共内核和广泛的支持加速了采用,并促进了审计、学习和贡献。这与封闭模式形成了鲜明对比,为中小企业和大学实验室打开了加入潮流的大门。

从叙事层面来看,DeepSeek 如何将 V3.2-Exp 定义为 展望未来在所有其他因素保持不变的情况下,我们验证了细粒度分散注意力机制,并比较了它们的影响。这种比较的严谨性增强了结果的可信度。

的角度 同时思考多个问题能够在不增加成本的情况下维持多条推理链,为复杂代理、多步骤推理以及结合搜索、合成和验证的系统开辟了机会。

参考文献、引文和联系方式

对于那些想要深入了解的人,DeepSeek 链接到 《拥抱的脸》中的模特 技术报告已在 GitHub 上发布。报告还分享了 BibTeX 格式的引用块以及用于支持和解答疑问的联系邮箱地址。

@misc{deepseekai2024deepseekv32,
  title={DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention},
  author={DeepSeek-AI},
  year={2025}
}

该公司的X频道总结了该公告:介绍 DeepSeek-V3.2-Exp,可在App、Web和API中使用,API价格下降超过50%。 焦点重新回到长期背景 以及端到端的效率。

与此同时,科技媒体也对此次发布进行了报道,将其定位为继 V3 和 R1 之后的又一重要举措,并指出,如果这款腕表能够巩固其承诺, 将会增加竞争 与该行业的主要参与者相比,其质量价格比更高。

为了结束这个循环,值得回顾一下最近的时间框架:从 ChatGPT 在2022 生成式人工智能 (Generic AI) 的发展速度前所未有。V3.2-Exp 顺应了这一趋势:更丰富的情境、更低的成本,以及能够从自身实验中学习的架构。

V3.2-Exp 定位为需要以下项目的一个选项: 大背景、速度和成本控制它的细粒度、分散注意力方法、生态系统支持(vLLM、SGLang、开放内核)和 MIT 许可证使其对于应用研究和企业部署特别有吸引力,因为每一毫秒和每一欧元都很重要。

每个应用程序(聊天、图像生成、视频、研究、编程等)的最佳人工智能是什么?
相关文章:
适用于每项任务的最佳 AI:聊天、图像、视频、代码等