DeepSeek 发布 V3.1:引入混合推理架构,思考/非思考双模式一键切换
2025 年 8 月 21 日,DeepSeek 以 MIT 协议发布 V3.1,采用思考/非思考双模式混合架构,在 V3 基础上额外训练超 800B tokens,在 SWE-bench、Terminal-bench 等基准上较前代大幅提升,并增强 Agent 能力。
DeepSeek 发布 V3.1:引入混合推理架构,思考/非思考双模式一键切换
2025 年 8 月 21 日,
DeepSeek 以 MIT 协议发布
*图:DeepSeek 官网对话界面。V3.1 在 V3 基础上额外训练超 800B tokens,采用思考/非思考双模式混合架构,在 SWE-bench、Terminal-bench 等基准上较前代提升逾 40%,并于 9 月 22 日更新为 V3.1-Terminus。*
## 版本速览
| 项目 | 内容 |
|---|---|
| 模型名称 | DeepSeek-V3.1 / V3.1-Base |
| 发布时间 | 2025 年 8 月 21 日 |
| 核心特性 | 思考 / 非思考双模式混合架构 |
| 增量训练 | 在 V3 基础上额外训练 800B+ tokens |
| 增强方向 | 编码、Agent、长程任务 |
| 开源许可 | MIT License |
| 后续迭代 | V3.1-Terminus(2025-09-22) |
本次发布亮点
- 混合推理架构:同一模型提供「思考模式」与「非思考模式」,兼顾快速响应与深度推理。
- 更大增量训练:在 V3 基础上额外训练超过 800B tokens,能力进一步增强。
- 基准大幅提升:在 SWE-bench、Terminal-bench 等基准上较 V3 与 R1 提升明显。
- Agent 能力增强:更适合工具调用、代码修复与多步任务编排。
双模式对比
| 模式 | 适用场景 | 特点 |
|---|---|---|
| 非思考模式 | 简单问答、即时响应 | 低时延、低成本 |
| 思考模式 | 复杂推理、编码、Agent | 更深推理、更高质量 |
DeepSeek 版本演进时间线
| 版本 | 发布日期 | 定位 | 关键特性 |
|---|---|---|---|
| DeepSeek-V2 | 2024-05 | 架构奠基 | MLA + MoE,128K 上下文 |
| DeepSeek-V3 | 2024-12-26 | 旗舰基座 | 671B MoE,多 token 预测 |
| DeepSeek-R1 | 2025-01-20 | 推理特化 | 强化学习驱动,对标 o1 |
| DeepSeek-R1-0528 | 2025-05-28 | 推理升级 | 数学基准增强,幻觉更少 |
| DeepSeek-V3.1 ✅ 本文 | 2025-08-21 | 混合推理 | 思考 / 非思考双模式 |
| DeepSeek-V3.2-Exp | 2025-09-29 | 效率实验 | 稀疏注意力(DSA) |
| DeepSeek-V3.2 | 2025-12-01 | 正式迭代 | 通用增强 + Speciale |
| DeepSeek-V4(预览) | 2026-04-24 | 新一代 | Pro 1.6T / Flash 284B,百万上下文 |
重点影响解读
V3.1 将「快速回答」与「深度思考」统一到同一模型中,用户无需在不同模型之间切换即可按需调用推理深度,这对成本与体验的平衡具有现实意义,尤其利好编码与 Agent 工作流场景。
2025 年 9 月 22 日,DeepSeek 进一步发布
对开发者的影响
对于代码修复、终端操作、工具调用等任务,V3.1 的双模式与更强 Agent 能力可减少模型切换成本。建议结合实际任务评估「思考模式」开启策略,在质量与时延之间取得平衡。
常见问题(FAQ)
Q:V3.1 的「混合架构」是什么意思? A:同一模型内置思考与非思考两种模式,可按任务需要在快速响应与深度推理之间切换。
Q:V3.1 在哪些任务上提升明显? A:在 SWE-bench、Terminal-bench 等编码与 Agent 相关基准上较 V3、R1 提升明显。
Q:V3.1 与 V3.1-Terminus 有何区别? A:Terminus 在 V3.1 基础上进一步缓解中英文混杂与异常字符,并优化 Agent 能力。
参考链接
版权声明:本文内容来自
DeepSeek 官方
。本平台对该内容进行了编译和整理,仅用于信息传播和学习交流之用。如有侵权,请联系我们进行处理。
用户评价