DeepSeek 发布 V2 开源大模型:首创 MLA 架构,236B MoE 主打高性价比

2024 年 5 月,DeepSeek 发布 DeepSeek-V2 系列开源大模型,首次引入多头潜在注意力(MLA)与 MoE 稀疏架构,236B 总参数、单 token 激活约 21B,以极低推理成本对标主流模型,奠定后续 V3、R1 的高效路线。

DeepSeek 发布 V2 开源大模型:首创 MLA 架构,236B MoE 主打高性价比

2024 年 5 月,DeepSeek 发布 系列开源大模型。作为 AI 智能助手 赛道的代表性开源模型,V2 首次将多头潜在注意力(MLA)与 Mixture of Experts(MoE)结合,成为 DeepSeek 系列演进的关键技术里程碑。

DeepSeek-V2 开源大模型 MLA 与 MoE 架构概览

图:DeepSeek 官网首页与对话入口。V2 预训练语料约 8.1T tokens,采用 YaRN 将上下文从 4K 扩展至 128K,并以 MLA 压缩 KV 缓存,据《金融时报》报道其每百万输出 token 价格低至 2 元人民币。

版本速览

项目 内容
模型名称 DeepSeek-V2 / DeepSeek-V2-Lite
发布时间 2024 年 5 月
总参数 / 激活参数 约 236B / 约 21B(单 token)
核心架构 MLA(多头潜在注意力)+ MoE 稀疏专家
上下文长度 128K
开源许可 开源开放权重
定位 高性价比开源大模型

本次发布亮点

  • 首创 MLA 架构:通过压缩潜在向量大幅降低 KV 缓存与显存占用,是 V2 最核心的技术创新。
  • MoE 稀疏激活:旗舰版本总参数约 236B,单 token 仅激活约 21B,兼顾能力与成本。
  • 128K 长上下文:覆盖长文档、长对话与检索增强场景。
  • 多规格开源:同时发布 DeepSeek-V2、V2-Lite 等版本,便于研究与工程落地。

关键技术解读:MLA + MoE 如何降本

技术 作用 价值
多头潜在注意力(MLA) 用低秩潜在向量替代标准多头注意力的 KV 缓存 显著降低显存占用与推理成本
混合专家(MoE) 仅激活部分"专家"网络 在大参数规模下保持低激活成本
共享专家机制 常用能力由共享专家承载 缓解专家负载不均、提升稳定性
DeepSeek-V2 架构示意图:共享/路由 MoE 与多头潜在注意力 MLA

图:DeepSeek-V2 论文 Figure 2,左侧为共享专家 + 路由专家的 MoE 结构,右侧为多头潜在注意力(MLA)对 KV 缓存的压缩设计。图片来源:Wikimedia Commons,作者 DeepSeek,许可 MIT License。

DeepSeek 版本演进时间线

版本 发布日期 定位 关键特性
DeepSeek-V2 ✅ 本文 2024-05 架构奠基 MLA + MoE,128K 上下文
DeepSeek-V3 2024-12-26 旗舰基座 671B MoE,多 token 预测
DeepSeek-R1 2025-01-20 推理特化 强化学习驱动,对标 o1
DeepSeek-R1-0528 2025-05-28 推理升级 数学基准增强,幻觉更少
DeepSeek-V3.1 2025-08-21 混合推理 思考 / 非思考双模式
DeepSeek-V3.2-Exp 2025-09-29 效率实验 稀疏注意力(DSA)
DeepSeek-V3.2 2025-12-01 正式迭代 通用增强 + Speciale
DeepSeek-V4(预览) 2026-04-24 新一代 Pro 1.6T / Flash 284B,百万上下文

重点影响解读

V2 是 DeepSeek 在架构路线上的奠基性版本。MLA 与 MoE 的组合,使模型在保持强能力的同时大幅压低推理成本,为后续 的高效路线奠定了技术基础。

据媒体报道,V2 以极具竞争力的 token 价格进入市场,推动了国内大模型的价格调整,被视为开源高性价比模型的代表之一。

对开发者的影响

对于关注成本与吞吐的团队,V2 的低显存占用与稀疏激活机制意味着在相同硬件条件下可承载更高并发,适合检索增强、批量内容生成、企业知识问答等场景的自建部署与二次研究。

常见问题(FAQ)

Q:DeepSeek-V2 的最大创新是什么? A:首次引入多头潜在注意力(MLA),通过压缩 KV 缓存显著降低显存与推理成本。

Q:V2 的参数规模有多大? A:旗舰版本总参数约 236B,单 token 激活约 21B,采用 MoE 稀疏架构。

Q:V2 是否开源、可否商用? A:DeepSeek-V2 以开放权重形式发布,具体授权范围以官方仓库许可为准。

参考链接

版权声明:本文内容来自 DeepSeek 官方 。本平台对该内容进行了编译和整理,仅用于信息传播和学习交流之用。如有侵权,请联系我们进行处理。

用户评价

  • 加载评价中...