DeepSeek 发布 V3.1：引入混合推理架构，思考/非思考双模式一键切换

2025-08-21

AIStarMap 编辑部

2025 年 8 月 21 日，DeepSeek 以 MIT 协议发布 V3.1，采用思考/非思考双模式混合架构，在 V3 基础上额外训练超 800B tokens，在 SWE-bench、Terminal-bench 等基准上较前代大幅提升，并增强 Agent 能力。

2025 年 8 月 21 日，DeepSeek 以 MIT 协议发布，带来混合推理架构。

*图：DeepSeek 官网对话界面。V3.1 在 V3 基础上额外训练超 800B tokens，采用思考/非思考双模式混合架构，在 SWE-bench、Terminal-bench 等基准上较前代提升逾 40%，并于 9 月 22 日更新为 V3.1-Terminus。* ## 版本速览

本次发布亮点

模式	适用场景	特点
非思考模式	简单问答、即时响应	低时延、低成本
思考模式	复杂推理、编码、Agent	更深推理、更高质量

V3.1 将「快速回答」与「深度思考」统一到同一模型中，用户无需在不同模型之间切换即可按需调用推理深度，这对成本与体验的平衡具有现实意义，尤其利好编码与 Agent 工作流场景。

2025 年 9 月 22 日，DeepSeek 进一步发布，重点缓解中英文混杂与异常字符问题，并优化 Agent 能力。

对于代码修复、终端操作、工具调用等任务，V3.1 的双模式与更强 Agent 能力可减少模型切换成本。建议结合实际任务评估「思考模式」开启策略，在质量与时延之间取得平衡。

Q：V3.1 的「混合架构」是什么意思？ A：同一模型内置思考与非思考两种模式，可按任务需要在快速响应与深度推理之间切换。

Q：V3.1 在哪些任务上提升明显？ A：在 SWE-bench、Terminal-bench 等编码与 Agent 相关基准上较 V3、R1 提升明显。

Q：V3.1 与 V3.1-Terminus 有何区别？ A：Terminus 在 V3.1 基础上进一步缓解中英文混杂与异常字符，并优化 Agent 能力。