DeepSeek 发布 V3.2-Exp 实验版:引入稀疏注意力 DSA,提升长文本效率
2025 年 9 月 29 日,DeepSeek 发布实验版 V3.2-Exp,引入 DeepSeek 稀疏注意力(DSA),在长上下文场景下提升计算效率,为后续正式版的效率优化铺路。
DeepSeek 发布 V3.2-Exp 实验版:引入稀疏注意力 DSA,提升长文本效率
2025 年 9 月 29 日,
DeepSeek 发布实验版
图:DeepSeek 官网对话界面。V3.2-Exp 于 2025 年 9 月 29 日在 Hugging Face 发布,首次引入 DeepSeek 稀疏注意力(DSA),其机制源自团队 2025 年 2 月发表的原生稀疏注意力(Native Sparse Attention)论文成果。
版本速览
| 项目 | 内容 |
|---|---|
| 模型名称 | DeepSeek-V3.2-Exp(实验版) |
| 发布时间 | 2025 年 9 月 29 日 |
| 核心技术 | DeepSeek 稀疏注意力(DSA) |
| 优化目标 | 长上下文计算效率 |
| 技术来源 | 原生稀疏注意力研究(2025-02) |
| 定位 | 实验性迭代,面向验证与评测 |
本次发布亮点
- 引入 DSA:DeepSeek Sparse Attention,提升注意力计算效率。
- 基于既有研究:源自此前发表的原生稀疏注意力论文成果。
- 面向长上下文:主要验证新机制在长文档、长对话场景下的效率表现。
标准注意力 vs 稀疏注意力(DSA)
| 维度 | 标准注意力 | 稀疏注意力(DSA) |
|---|---|---|
| 计算复杂度 | 随序列长度快速增长 | 更优的长序列扩展性 |
| 长上下文成本 | 较高 | 降低 |
| 适用场景 | 通用 | 长文档、长对话 |
DeepSeek 版本演进时间线
| 版本 | 发布日期 | 定位 | 关键特性 |
|---|---|---|---|
| DeepSeek-V2 | 2024-05 | 架构奠基 | MLA + MoE,128K 上下文 |
| DeepSeek-V3 | 2024-12-26 | 旗舰基座 | 671B MoE,多 token 预测 |
| DeepSeek-R1 | 2025-01-20 | 推理特化 | 强化学习驱动,对标 o1 |
| DeepSeek-R1-0528 | 2025-05-28 | 推理升级 | 数学基准增强,幻觉更少 |
| DeepSeek-V3.1 | 2025-08-21 | 混合推理 | 思考 / 非思考双模式 |
| DeepSeek-V3.2-Exp ✅ 本文 | 2025-09-29 | 效率实验 | 稀疏注意力(DSA) |
| DeepSeek-V3.2 | 2025-12-01 | 正式迭代 | 通用增强 + Speciale |
| DeepSeek-V4(预览) | 2026-04-24 | 新一代 | Pro 1.6T / Flash 284B,百万上下文 |
重点影响解读
V3.2-Exp 是一次面向效率的探索性发布。稀疏注意力可在长文档、长对话等场景降低计算开销,为后续正式版本的效率优化铺路。作为实验版,它更适合研究与评测,而非直接用于关键生产链路。
随后于 2025 年 12 月 1 日,DeepSeek 发布正式版
对开发者的影响
关注长上下文成本的团队可在评测环境体验 DSA 带来的效率变化,对比相同任务下的时延与资源占用,为后续是否迁移到正式版提供依据。
常见问题(FAQ)
Q:DSA 是什么? A:DeepSeek Sparse Attention,一种更高效的稀疏注意力机制,源自原生稀疏注意力研究。
Q:为什么叫「实验版」? A:V3.2-Exp 主要用于验证新机制在长上下文场景下的效果,更适合研究与评测。
Q:稀疏注意力带来什么收益? A:在长文档、长对话等场景降低计算开销,改善长序列下的效率。
参考链接
版权声明:本文内容来自
DeepSeek 官方
。本平台对该内容进行了编译和整理,仅用于信息传播和学习交流之用。如有侵权,请联系我们进行处理。
用户评价