- V3.2‑Exp에서는 DSA가 처음 선보입니다. 긴 맥락에 대한 세분화된 희소 주의력입니다.
- V3.1‑Terminus와 비슷한 성능을 제공하고 API 비용은 50% 낮습니다.
- 앱, 웹, API로 사용 가능하며, MIT 라이센스와 오픈 커널을 따릅니다.
- vLLM에서 Day-0 지원이 가능하며 SGLang과 Hugging Face를 통해 쉽게 배포할 수 있습니다.

당시에는 생성 적 AI 휴식을 주지 않는다, DeepSeek 효율성과 장기적인 맥락을 직접적으로 겨냥한 샷을 선보였습니다. 딥시크-V3.2-Exp 이는 생산에 있어서 중요한 변화를 검증하고자 하는 실험적 모델입니다. 즉, 출력 품질을 저하시키지 않고 훈련과 추론을 가속화할 것을 약속하는 새로운 분산된 주의입니다.
새로운 모델은 처음부터 시작하지 않습니다. V3.1-Terminus에 의존하지만 다음과 같은 핵심 메커니즘을 도입합니다. DeepSeek 스파스 어텐션(DSA)DeepSeek은 DSA를 통해 컴퓨팅 비용을 절감하고 그 과정에서 API 가격을 50% 이상 낮추세요 즉각적인 효과가 있으며, 여러 작업에서 이전 제품과 비슷한 성능을 유지합니다.
DeepSeek-V3.2-Exp란 무엇이며 왜 중요한가요?
DeepSeek은 V3.2-Exp를 다음 아키텍처를 향한 중간 단계로 정의하며 특정 효율성 최적화를 테스트하고 시연하기 위해 설계된 디딤돌입니다. 긴 맥락 시나리오이 회사에 따르면, 목표는 대량의 텍스트 시퀀스를 처리할 때 학습과 추론을 모두 가속화하는 것입니다. 기존 변환기는 비용이 엄청나게 많이 드는 경우가 많습니다.
이 릴리스의 핵심은 실험그러나 그 이유는 일화적이지 않습니다. 앱, 웹 및 API DeepSeek은 첫날부터 개발자, 데이터 팀, 연구자에게 대용량 컨텍스트를 사용하여 실제 사례에서 테스트할 수 있는 기회를 제공했습니다.

기술적으로 V3.2-Exp는 다음의 기초를 계승합니다. V3.1‑종료 품질을 유지하고 공정한 비교를 용이하게 하기 위해 DeepSeek은 DSA의 실제 효과를 측정하기 위해 Terminus와 의도적으로 훈련 구성을 조정했다고 밝혔으며, 내부 벤치마크 검색과 동일한 결과를 표시합니다. 프로그래밍 그리고 수학.
숫자 너머로 시장 상황이 중요합니다. X에 대한 발표는 이제 X가 출시되었고 API 가격이 50% 이상 인하되었다는 사실을 강조합니다. 메시지는 명확합니다효율성이 향상되면 비용이 감소하고, 이는 알리바바의 Qwen이나 미국 옵션 등 중국과 해외의 경쟁업체에 압박을 가합니다.
DeepSeek Sparse Attention(DSA)이 도입하는 것
DSA는 다음의 메커니즘입니다. 세밀하게 분산된 주의 넓은 컨텍스트 윈도우에 초점을 맞춥니다. 모든 토큰을 동등하게 처리하는 대신, 진정으로 관련성 있는 조각의 우선순위를 정하고 불필요한 작업을 줄이는 동시에 사실상 동일한 출력 품질을 유지합니다.
이를 달성하기 위해 DeepSeek에는 다음과 같은 모듈이 통합되어 있습니다. 번개 인덱서, 컨텍스트 창의 특정 영역에 우선순위를 지정하는 기능을 합니다. 이 단계는 주의보다 앞서며, 필수적인 부분과 부차적인 부분을 구분하는 지능형 필터 역할을 합니다.
이 첫 번째 스크리닝 후 모델은 다음 프로세스를 적용합니다. 세분화된 토큰 선택실제로 이는 모든 토큰이 주의를 끌기 위해 경쟁하는 것은 아니라는 것을 의미합니다. 가장 유익한 것으로 식별된 토큰만 희소한 주의 창으로 이동하여 메모리와 계산 소비를 줄입니다.
긍정적인 부작용은 시스템이 다음을 고려할 수 있다는 것입니다. 맥락의 큰 비율 여러 논리를 동시에 전개하면서도 압도당하지 않습니다. 이는 특히 긴 흐름, 복잡한 문서 분석 또는 광범위하고 다중 스레드로 이루어진 대화에 유용합니다.
작동 방식: Lightning Indexer 및 토큰 선택
DeepSeek을 설명하는 개념적 파이프라인은 여러 개의 연결된 단계로 단순화할 수 있으며, 각 단계는 장기적 맥락에서 효율성을 극대화하기 위한 특정 역할을 갖습니다. 최적화란 더 많이 처리하는 것이 아니라 더 나은 것을 선택하는 것입니다..
- 빠른 우선순위 지정: 번개 인덱서 창을 스캔하여 의미적 또는 구조적 관련성이 높은 후보 조각을 강조 표시합니다.
- 세밀한 정제: 세분화된 토큰 선택이는 실제로 분산된 주의의 초점에 어떤 토큰이 들어오는지 지정합니다.
- 효율적인 관리: DSA 기존의 고밀도 주의에 비해 선택된 하위 집합에만 주의를 기울여 계산과 메모리를 절약합니다.
- 비교 가능한 출력: V3.1-Terminus의 내부 벤치마크를 기반으로 실제로 모델 품질이 유지됩니다.
DeepSeek은 이 전략이 일회성 전략이 아니라는 점을 강조합니다. 검증하고 개선 사항을 확립합니다. 미래 아키텍처를 위한 효율성을 제공합니다. 다시 말해, V3.2-Exp는 실제 테스트 환경이지만 이미 운영 환경에서 사용 가능합니다.
또한 회사는 이 접근 방식이 모델을 허용한다고 언급합니다. 특정 매개변수 자동 검증 장기 맥락 시나리오에서 훈련하는 동안 실제로 정보에 기여하는 부분에 맞춰 계산 노력을 동적으로 조정합니다.
성능, 벤치마크 및 비용: API에서 50% 감소
가장 눈에 띄는 결론 중 하나는 다음과 같습니다. V3.2-Exp 검색 엔진, 코딩 작업, 수학 문제 등 주요 영역에서 V3.1-Terminus와 동등한 성능을 제공합니다. 더 적은 계산량으로 유사한 결과를 유지할 수 있다는 점이 가격 인하의 원동력입니다.
DeepSeek은 다음과 같이 발표했습니다. API 가격이 50% 이상 하락했습니다. DSA를 통해 달성된 효율성 덕분에 즉시 이러한 결과가 나타났습니다. 이러한 결정은 기술 접근성을 높일 뿐만 아니라, 더 높은 사용 비용을 정당화해야 하는 경쟁사에게는 비교 비용이 더 높아지게 됩니다.
실제 경험 측면에서 개선은 특히 다음과 같은 시나리오에서 눈에 띄게 나타납니다. 긴 맥락: 대용량 데이터 분석, 법률 또는 기술 문서 처리, 오랜 역사를 가진 백오피스 프로세스, 매우 긴 텍스트 시퀀스에 의존하는 모든 파이프라인.
DeepSeek의 가설은 명확합니다. 모델이 가능하다면 선택적으로 참석하다 관련 조직은 동일한 인프라로 더 많은 작업을 처리하거나 더 적은 비용으로 동일한 부하를 처리할 수 있으며 손실도 없습니다. 신뢰성 출구에서.
가용성, 오픈 소스 및 라이선싱
V3.2‑Exp는 다음에서 사용 가능합니다. 애플리케이션, 웹 버전 및 API DeepSeek. 이 모델은 누구나 평가할 수 있도록 공개되어 있으며 라이선스가 함께 제공됩니다. MIT 연구와 상업적 도입에 유리한 저장소와 가중치를 제공합니다.
이러한 개방성은 보다 폐쇄적인 접근 방식과 대조됩니다. 접근성을 민주화하다 고급 역량으로. 또한 경쟁에서 중국의 역할을 강화합니다. IA 이를 통해 대학, 스타트업, 국내 및 국제 기업이 스택을 활용하고 수정하기 쉬워집니다.
회사는 캐릭터를 강조합니다 실험 출시 소식: 이는 차세대 아키텍처에 적용될 기능을 미리 보여주는 예고편입니다. 그럼에도 불구하고, 세 가지 주요 채널 모두에서 안정적으로 출시되었다는 점은 실제 사용에 충분한 수준의 성숙도를 보여줍니다.
참조 링크: GitHub의 저장소 및 기술 문서, 모델 포옹하는 얼굴 및 지원 연락처 service@deepseek.com. 전체 패키지는 채택을 촉진하는 것을 목표로 합니다. 커뮤니티에 의해.
로컬로 실행하기 위한 빠른 가이드
DeepSeek는 추론 속도를 높이기 위한 업데이트된 추론 데모를 제공합니다. 부팅 그리고 지역 사회가 건축물을 이해할 수 있도록 합니다. 허깅 페이스와 체중 변환의 흐름은 간단합니다. GPU에 기반한 모델 병렬 처리를 고려하세요.
cd inference
export EXPERTS=256
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}
export CONFIG=config_671B_v3.2.json
torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive
SGLang으로 모델을 제공하는 것을 선호하는 사람들을 위해 다양한 아키텍처에 맞는 기성 Docker 이미지가 있습니다. 라벨은 다음을 포함합니다. NVIDIA GPU, ROCm 및 NPU특정 변형을 포함하여.
# H200
docker pull lmsysorg/sglang:dsv32
# MI350 (ROCm)
docker pull lmsysorg/sglang:dsv32-rocm
# NPUs
docker pull lmsysorg/sglang:dsv32-a2
docker pull lmsysorg/sglang:dsv32-a3
# Lanzar servidor
python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64
vLLM을 사용하면 프로젝트가 발표됩니다. 0일차 지원 V3.2‑Exp. 구성, KV 페이징 및 성능 매개변수에 대한 최신 정보는 공식 레시피를 확인하세요.
모든 경우에 조정하는 것이 좋습니다. MP 사용 가능한 GPU 수를 모니터링하고 실제 메모리 사용량을 모니터링합니다. 이를 통해 지연 시간, 처리량, 요청당 비용 간의 최적의 균형을 달성합니다.
오픈 커널 및 생태계 지원
DeepSeek은 연구 및 제작 성과를 향상시키는 여러 제품을 출시했습니다. 연구 목적으로 가독성과 디자인을 중시하는 분들에게는 타일랭 출발점으로.
CUDA를 사용한 순수한 성능에서 인덱서 로짓 커널 (페이지가 매겨진 변형 포함)은 다음에서 사용 가능합니다. 딥젬. 그들의 입장에서는 분산된 주의 커널이 출판되었습니다. 플래시MLA최신 GPU의 효율성을 극대화하는 것을 목표로 합니다.
이 모듈식 접근 방식을 사용하면 필요에 따라 구성 요소를 결합할 수 있습니다. 즉, 프로토타입 제작 및 교육을 위한 가독성을 확보할 수 있습니다. 고성능 커널 실제 부하 상황에서 까다로운 추론을 처리합니다. 전체 파이프라인을 재작업하지 않고도 테스트 환경에서 운영 환경으로 마이그레이션하는 데 필요한 모든 기능을 제공합니다.
또한, 긴 맥락에 중점을 둔 이러한 커널의 출판은 DSA 추진을 보완하여 루프를 닫습니다. 응용 연구, 벤치마크 및 실제 배포.
전략적 영향과 다음 단계
실험적 모델이 앱, 웹 및 API에 도달합니다. 즉각적인 가격 인하 이는 의도를 담은 선언입니다. DeepSeek은 단순히 연구 분야를 탐구하는 데 그치지 않습니다. 이를 제품으로 구현하여 최종 사용자에게 비용 절감 효과를 제공합니다.
이러한 움직임은 중국 생태계의 경쟁자들에게 압박을 가합니다. 알리바바의 큐웬이미 미국 기업들과 경쟁하고 있습니다. 만약 실적이 더 비싼 대안들과 비슷한 수준을 유지한다면, 가격 요인이 비용에 민감한 부문의 균형을 깨뜨릴 수 있습니다.
또 다른 파생물은 오픈소스 효과관대한 라이선스, 공개 커널, 그리고 광범위한 지원은 도입을 가속화하고 감사, 학습, 그리고 기여를 용이하게 합니다. 이는 폐쇄형 모델과 대조적이며, 중소기업과 대학 연구실이 이러한 흐름에 동참할 수 있는 기회를 제공합니다.
내러티브 수준에서 DeepSeek이 V3.2-Exp를 어떻게 구성하는지는 흥미롭습니다. 미래를 엿보다세밀하게 분산된 주의 메커니즘을 검증하고, 다른 모든 요인을 일정하게 유지한 채 그 영향을 비교합니다. 이러한 비교 엄격성은 결과에 신뢰성을 부여합니다.
각도 동시에 여러 가지 생각을 하다비용을 증가시키지 않고도 여러 추론 체인을 유지할 수 있게 되면 복잡한 에이전트, 다단계 추론, 검색, 합성, 검증을 결합한 시스템에 대한 기회가 열립니다.
참고문헌, 인용 및 연락처
더 깊이 알고 싶은 분들을 위해 DeepSeek 링크가 추가되었습니다. 허깅 페이스의 모델 기술 보고서는 이미 GitHub에 게시되어 있습니다. BibTeX 형식의 인용 블록과 지원 및 문의를 위한 이메일 주소도 함께 제공됩니다.
@misc{deepseekai2024deepseekv32,
title={DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention},
author={DeepSeek-AI},
year={2025}
}
회사의 X 채널은 발표 내용을 요약했습니다. 딥시크-V3.2-Exp앱, 웹, API에서 사용 가능하며, API 가격은 50% 이상 하락했습니다. 초점은 다시 장기적 맥락으로 돌아갑니다. 그리고 종단간 효율성.
동시에 기술 미디어는 V3와 R1의 영향 이후 관련 운동으로 출시를 포착하고 이를 약속을 공고히 한다면 경쟁이 증가할 것이다 업계의 주요 기업과 비교했을 때 품질과 가격 면에서 우수합니다.
원을 닫으려면 최근의 시간 프레임을 기억하는 것이 좋습니다. ChatGPT 2022에서 생성적 AI는 지금까지 전례 없는 속도로 발전해 왔습니다. V3.2-Exp는 이러한 추세에 부합합니다. 더 많은 맥락, 더 낮은 비용, 그리고 자체 실험을 통해 학습하는 아키텍처를 갖추고 있습니다.
V3.2-Exp는 다음이 필요한 프로젝트를 고려할 수 있는 옵션으로 자리 잡았습니다. 대규모 컨텍스트, 속도 및 비용 제어세분화된 분산된 주의 접근 방식, 생태계 지원(vLLM, SGLang, 오픈 커널), MIT 라이선스 덕분에 밀리초와 유로가 중요한 응용 연구와 기업 배포에 특히 매력적입니다.
바이트와 기술 전반에 관한 세계에 대한 열정적인 작가입니다. 나는 글쓰기를 통해 내 지식을 공유하는 것을 좋아하며 이것이 바로 이 블로그에서 할 일이며 가젯, 소프트웨어, 하드웨어, 기술 동향 등에 관한 가장 흥미로운 모든 것을 보여 드리겠습니다. 제 목표는 여러분이 간단하고 재미있는 방식으로 디지털 세계를 탐색할 수 있도록 돕는 것입니다.
