DeepSeek 发布 V3 大模型:671B MoE 基座,性能对标 GPT-4o 与 Claude 3.5

2024 年 12 月 26 日,DeepSeek 发布 671B 参数的 MoE 基座模型 DeepSeek-V3,单 token 激活约 37B,新增多 token 预测并采用 FP8 混合精度训练,性能对标 GPT-4o 与 Claude 3.5 Sonnet,并以极低训练成本引发业界关注。

DeepSeek 发布 V3 大模型:671B MoE 基座,性能对标 GPT-4o 与 Claude 3.5

2024 年 12 月 26 日,DeepSeek 发布 ,一款 671B 参数的 MoE 基座模型,奠定了后续系列的能力基础。

DeepSeek-V3 671B MoE 开源大模型发布概览

图:DeepSeek 官网对话界面。V3 在 14.8T tokens 多语言语料上预训练,采用 FP8 混合精度并在 H800 集群上训练,官方披露总训练成本约 557.6 万美元(约 278.8 万 GPU 小时)。

版本速览

项目 内容
模型名称 DeepSeek-V3 / DeepSeek-V3-Base
发布时间 2024 年 12 月 26 日
总参数 / 激活参数 671B / 约 37B(单 token)
核心架构 MoE + MLA + 多 token 预测(MTP)
预训练语料 14.8T tokens 多语言语料
上下文长度 128K
训练精度 FP8 混合精度
开源许可 开放权重(V3-0324 为 MIT)

本次发布亮点

  • 671B MoE 基座:单 token 激活约 37B,沿用 V2 的 MLA 与 MoE 设计。
  • 多 token 预测(MTP):可选地提升解码速度,优化推理效率。
  • 14.8T tokens 预训练:多语言语料,数学与编程占比更高,上下文扩展至 128K。
  • FP8 混合精度训练:大量底层工程优化显著提升训练效率、降低成本。

核心技术解读

多 token 预测(MTP)

DeepSeek-V3 多 token 预测(Multi-Token Prediction)机制示意

图:DeepSeek-V3 的多 token 预测(MTP)机制。模型在主预测之外并行预测后续多个 token,可选地加速解码并提升训练信号密度。图片来源:Wikimedia Commons,作者 DeepSeek,许可 MIT License。

FP8 混合精度训练

DeepSeek-V3 FP8 混合精度训练框架示意

图:DeepSeek-V3 技术报告中的混合精度框架。前向计算大量采用 8 位浮点(FP8),优化器状态使用 BF16,在精度与效率间取得平衡,是其低训练成本的关键工程之一。图片来源:Wikimedia Commons,作者 DeepSeek,许可 MIT License。

性能与对比

对比对象 DeepSeek-V3 表现
Llama 3.1 多项基准超越
Qwen 2.5 多项基准超越
GPT-4o 综合能力相当
Claude 3.5 Sonnet 综合能力相当

注:以上为第三方评测的综合结论,具体分数以官方技术报告与公开榜单为准。

DeepSeek 版本演进时间线

版本 发布日期 定位 关键特性
DeepSeek-V2 2024-05 架构奠基 MLA + MoE,128K 上下文
DeepSeek-V3 ✅ 本文 2024-12-26 旗舰基座 671B MoE,多 token 预测
DeepSeek-R1 2025-01-20 推理特化 强化学习驱动,对标 o1
DeepSeek-R1-0528 2025-05-28 推理升级 数学基准增强,幻觉更少
DeepSeek-V3.1 2025-08-21 混合推理 思考 / 非思考双模式
DeepSeek-V3.2-Exp 2025-09-29 效率实验 稀疏注意力(DSA)
DeepSeek-V3.2 2025-12-01 正式迭代 通用增强 + Speciale
DeepSeek-V4(预览) 2026-04-24 新一代 Pro 1.6T / Flash 284B,百万上下文

重点影响解读

第三方评测显示,V3 在多项基准上超越 Llama 3.1 与 Qwen 2.5,并与 GPT-4o、Claude 3.5 Sonnet 相当。DeepSeek 公布的训练成本远低于同级别闭源模型,引发业界对训练效率与算力投入的广泛讨论。

V3 不仅是一款强基座,更直接成为后续 的初始化基础,串联起 DeepSeek 的推理模型路线。2025 年 3 月,DeepSeek 进一步发布 DeepSeek-V3-0324(MIT 协议),提升推理、代码与中文写作能力。

对开发者的影响

对于希望在本地或私有环境运行前沿能力模型的团队,V3 的开源权重与高效推理特性提供了高性价比选择,适合复杂问答、代码生成与长文档处理等场景。

常见问题(FAQ)

Q:DeepSeek-V3 的参数规模是多少? A:671B 总参数的 MoE 架构,单 token 激活约 37B。

Q:V3 的性能对标哪些模型? A:第三方评测显示其综合能力与 GPT-4o、Claude 3.5 Sonnet 相当,并超越 Llama 3.1、Qwen 2.5。

Q:V3 为何备受关注? A:在对标顶级模型的同时,DeepSeek 公布的训练成本远低于同级别闭源模型。

参考链接

版权声明:本文内容来自 DeepSeek 官方 。本平台对该内容进行了编译和整理,仅用于信息传播和学习交流之用。如有侵权,请联系我们进行处理。

用户评价

  • 加载评价中...