DeepSeek 发布 V3 大模型:671B MoE 基座,性能对标 GPT-4o 与 Claude 3.5
2024 年 12 月 26 日,DeepSeek 发布 671B 参数的 MoE 基座模型 DeepSeek-V3,单 token 激活约 37B,新增多 token 预测并采用 FP8 混合精度训练,性能对标 GPT-4o 与 Claude 3.5 Sonnet,并以极低训练成本引发业界关注。
DeepSeek 发布 V3 大模型:671B MoE 基座,性能对标 GPT-4o 与 Claude 3.5
2024 年 12 月 26 日,
DeepSeek 发布
图:DeepSeek 官网对话界面。V3 在 14.8T tokens 多语言语料上预训练,采用 FP8 混合精度并在 H800 集群上训练,官方披露总训练成本约 557.6 万美元(约 278.8 万 GPU 小时)。
版本速览
| 项目 | 内容 |
|---|---|
| 模型名称 | DeepSeek-V3 / DeepSeek-V3-Base |
| 发布时间 | 2024 年 12 月 26 日 |
| 总参数 / 激活参数 | 671B / 约 37B(单 token) |
| 核心架构 | MoE + MLA + 多 token 预测(MTP) |
| 预训练语料 | 14.8T tokens 多语言语料 |
| 上下文长度 | 128K |
| 训练精度 | FP8 混合精度 |
| 开源许可 | 开放权重(V3-0324 为 MIT) |
本次发布亮点
- 671B MoE 基座:单 token 激活约 37B,沿用 V2 的 MLA 与 MoE 设计。
- 多 token 预测(MTP):可选地提升解码速度,优化推理效率。
- 14.8T tokens 预训练:多语言语料,数学与编程占比更高,上下文扩展至 128K。
- FP8 混合精度训练:大量底层工程优化显著提升训练效率、降低成本。
核心技术解读
多 token 预测(MTP)
图:DeepSeek-V3 的多 token 预测(MTP)机制。模型在主预测之外并行预测后续多个 token,可选地加速解码并提升训练信号密度。图片来源:Wikimedia Commons,作者 DeepSeek,许可 MIT License。
FP8 混合精度训练
图:DeepSeek-V3 技术报告中的混合精度框架。前向计算大量采用 8 位浮点(FP8),优化器状态使用 BF16,在精度与效率间取得平衡,是其低训练成本的关键工程之一。图片来源:Wikimedia Commons,作者 DeepSeek,许可 MIT License。
性能与对比
| 对比对象 | DeepSeek-V3 表现 |
|---|---|
| Llama 3.1 | 多项基准超越 |
| Qwen 2.5 | 多项基准超越 |
| GPT-4o | 综合能力相当 |
| Claude 3.5 Sonnet | 综合能力相当 |
注:以上为第三方评测的综合结论,具体分数以官方技术报告与公开榜单为准。
DeepSeek 版本演进时间线
| 版本 | 发布日期 | 定位 | 关键特性 |
|---|---|---|---|
| DeepSeek-V2 | 2024-05 | 架构奠基 | MLA + MoE,128K 上下文 |
| DeepSeek-V3 ✅ 本文 | 2024-12-26 | 旗舰基座 | 671B MoE,多 token 预测 |
| DeepSeek-R1 | 2025-01-20 | 推理特化 | 强化学习驱动,对标 o1 |
| DeepSeek-R1-0528 | 2025-05-28 | 推理升级 | 数学基准增强,幻觉更少 |
| DeepSeek-V3.1 | 2025-08-21 | 混合推理 | 思考 / 非思考双模式 |
| DeepSeek-V3.2-Exp | 2025-09-29 | 效率实验 | 稀疏注意力(DSA) |
| DeepSeek-V3.2 | 2025-12-01 | 正式迭代 | 通用增强 + Speciale |
| DeepSeek-V4(预览) | 2026-04-24 | 新一代 | Pro 1.6T / Flash 284B,百万上下文 |
重点影响解读
第三方评测显示,V3 在多项基准上超越 Llama 3.1 与 Qwen 2.5,并与 GPT-4o、Claude 3.5 Sonnet 相当。DeepSeek 公布的训练成本远低于同级别闭源模型,引发业界对训练效率与算力投入的广泛讨论。
V3 不仅是一款强基座,更直接成为后续
对开发者的影响
对于希望在本地或私有环境运行前沿能力模型的团队,V3 的开源权重与高效推理特性提供了高性价比选择,适合复杂问答、代码生成与长文档处理等场景。
常见问题(FAQ)
Q:DeepSeek-V3 的参数规模是多少? A:671B 总参数的 MoE 架构,单 token 激活约 37B。
Q:V3 的性能对标哪些模型? A:第三方评测显示其综合能力与 GPT-4o、Claude 3.5 Sonnet 相当,并超越 Llama 3.1、Qwen 2.5。
Q:V3 为何备受关注? A:在对标顶级模型的同时,DeepSeek 公布的训练成本远低于同级别闭源模型。
用户评价