DeepSeek 发布 V3.2-Exp 实验版：引入稀疏注意力 DSA，提升长文本效率

2025-09-29

AIStarMap 编辑部

2025 年 9 月 29 日，DeepSeek 发布实验版 V3.2-Exp，引入 DeepSeek 稀疏注意力（DSA），在长上下文场景下提升计算效率，为后续正式版的效率优化铺路。

2025 年 9 月 29 日，DeepSeek 发布实验版，重点验证新的注意力机制。

图：DeepSeek 官网对话界面。V3.2-Exp 于 2025 年 9 月 29 日在 Hugging Face 发布，首次引入 DeepSeek 稀疏注意力（DSA），其机制源自团队 2025 年 2 月发表的原生稀疏注意力（Native Sparse Attention）论文成果。

版本速览

V3.2-Exp 是一次面向效率的探索性发布。稀疏注意力可在长文档、长对话等场景降低计算开销，为后续正式版本的效率优化铺路。作为实验版，它更适合研究与评测，而非直接用于关键生产链路。

随后于 2025 年 12 月 1 日，DeepSeek 发布正式版，并提供侧重推理的 V3.2-Speciale 变体。

关注长上下文成本的团队可在评测环境体验 DSA 带来的效率变化，对比相同任务下的时延与资源占用，为后续是否迁移到正式版提供依据。

Q：DSA 是什么？ A：DeepSeek Sparse Attention，一种更高效的稀疏注意力机制，源自原生稀疏注意力研究。

Q：为什么叫「实验版」？ A：V3.2-Exp 主要用于验证新机制在长上下文场景下的效果，更适合研究与评测。

Q：稀疏注意力带来什么收益？ A：在长文档、长对话等场景降低计算开销，改善长序列下的效率。