DeepSeek 发布 V3 大模型：671B MoE 基座，性能对标 GPT-4o 与 Claude 3.5

2024-12-26

AIStarMap 编辑部

2024 年 12 月 26 日，DeepSeek 发布 671B 参数的 MoE 基座模型 DeepSeek-V3，单 token 激活约 37B，新增多 token 预测并采用 FP8 混合精度训练，性能对标 GPT-4o 与 Claude 3.5 Sonnet，并以极低训练成本引发业界关注。

2024 年 12 月 26 日，DeepSeek 发布，一款 671B 参数的 MoE 基座模型，奠定了后续系列的能力基础。

图：DeepSeek 官网对话界面。V3 在 14.8T tokens 多语言语料上预训练，采用 FP8 混合精度并在 H800 集群上训练，官方披露总训练成本约 557.6 万美元（约 278.8 万 GPU 小时）。

版本速览

图：DeepSeek-V3 的多 token 预测（MTP）机制。模型在主预测之外并行预测后续多个 token，可选地加速解码并提升训练信号密度。图片来源：Wikimedia Commons，作者 DeepSeek，许可 MIT License。

图：DeepSeek-V3 技术报告中的混合精度框架。前向计算大量采用 8 位浮点（FP8），优化器状态使用 BF16，在精度与效率间取得平衡，是其低训练成本的关键工程之一。图片来源：Wikimedia Commons，作者 DeepSeek，许可 MIT License。

注：以上为第三方评测的综合结论，具体分数以官方技术报告与公开榜单为准。

第三方评测显示，V3 在多项基准上超越 Llama 3.1 与 Qwen 2.5，并与 GPT-4o、Claude 3.5 Sonnet 相当。DeepSeek 公布的训练成本远低于同级别闭源模型，引发业界对训练效率与算力投入的广泛讨论。

V3 不仅是一款强基座，更直接成为后续的初始化基础，串联起 DeepSeek 的推理模型路线。2025 年 3 月，DeepSeek 进一步发布 DeepSeek-V3-0324（MIT 协议），提升推理、代码与中文写作能力。

对于希望在本地或私有环境运行前沿能力模型的团队，V3 的开源权重与高效推理特性提供了高性价比选择，适合复杂问答、代码生成与长文档处理等场景。

Q：DeepSeek-V3 的参数规模是多少？ A：671B 总参数的 MoE 架构，单 token 激活约 37B。

Q：V3 的性能对标哪些模型？ A：第三方评测显示其综合能力与 GPT-4o、Claude 3.5 Sonnet 相当，并超越 Llama 3.1、Qwen 2.5。

Q：V3 为何备受关注？ A：在对标顶级模型的同时，DeepSeek 公布的训练成本远低于同级别闭源模型。