DeepSeek 发布 R1 推理模型:MIT 开源对标 OpenAI o1,引发全球 AI 震动

2025 年 1 月 20 日,DeepSeek 以 MIT 协议开源 DeepSeek-R1 推理模型,从 V3-Base 初始化、以强化学习驱动训练,数学与编程推理对标 OpenAI o1 且免费可用,应用迅速登顶美国 App Store 并引发市场震动。

DeepSeek 发布 R1 推理模型:MIT 开源对标 OpenAI o1,引发全球 AI 震动

2025 年 1 月 20 日,DeepSeek 以 MIT 协议开源 推理模型,成为 DeepSeek 系列影响力最大的一次发布。

DeepSeek-R1 开源推理模型对标 OpenAI o1 发布概览

图:DeepSeek 官网首页与对话界面。基于 R1 的 DeepSeek 应用于 2025 年 1 月免费上线 iOS 与 Android,1 月 27 日登顶美国 App Store 免费榜,相关研究于 2025 年 9 月登上《自然》(Nature)期刊。

版本速览

项目 内容
模型名称 DeepSeek-R1 / R1-Zero / R1-Distill
发布时间 2025 年 1 月 20 日
初始化基础 DeepSeek-V3-Base(共享其架构)
训练方法 强化学习(GRPO)
能力定位 逻辑推理、数学、编程
开源许可 MIT License
对标对象 OpenAI o1

本次发布亮点

  • 从 V3-Base 初始化:共享 V3 架构,专注逻辑推理与数学求解。
  • 强化学习驱动:采用 GRPO,R1-Zero 仅用规则化奖励、无 SFT 冷启动。
  • 对标 o1:官方称在 AIME、MATH 等基准对标 OpenAI o1。
  • 丰富蒸馏版本:同步开源基于 Llama、Qwen 的蒸馏模型,便于小规模硬件部署。

R1 与 R1-Zero 训练路线对比

维度 DeepSeek-R1-Zero DeepSeek-R1
冷启动 SFT 有(千级冷启动数据)
奖励类型 纯规则化(准确率 + 格式) 规则化 + 模型奖励
语言一致性 存在中英混杂问题 引入语言一致性奖励
可读性 较弱 显著改善
DeepSeek-R1 多阶段训练流水线:R1-Zero、冷启动 SFT、GRPO 强化学习与蜗馏

图:DeepSeek-R1 的多阶段训练流水线。从 DeepSeek-V3-Base 出发,经 R1-Zero 纯强化学习、冷启动长思维链 SFT、多轮 GRPO 强化学习(准确率 + 格式 + 语言一致性奖励)逐步得到 DeepSeek-R1。图片来源:Wikimedia Commons,出自 DeepSeek-R1 论文(Guo et al.),许可 CC BY 4.0。

DeepSeek 版本演进时间线

版本 发布日期 定位 关键特性
DeepSeek-V2 2024-05 架构奠基 MLA + MoE,128K 上下文
DeepSeek-V3 2024-12-26 旗舰基座 671B MoE,多 token 预测
DeepSeek-R1 ✅ 本文 2025-01-20 推理特化 强化学习驱动,对标 o1
DeepSeek-R1-0528 2025-05-28 推理升级 数学基准增强,幻觉更少
DeepSeek-V3.1 2025-08-21 混合推理 思考 / 非思考双模式
DeepSeek-V3.2-Exp 2025-09-29 效率实验 稀疏注意力(DSA)
DeepSeek-V3.2 2025-12-01 正式迭代 通用增强 + Speciale
DeepSeek-V4(预览) 2026-04-24 新一代 Pro 1.6T / Flash 284B,百万上下文

重点影响解读

R1 的开源与低成本特性,被多家媒体形容为人工智能领域的「斯普特尼克时刻」。基于 R1 的 DeepSeek 应用免费上线 iOS 与 Android,1 月 27 日登顶美国 App Store 免费榜,并一度引发英伟达等科技股大幅波动。

这次发布让「低成本也能做出顶级推理模型」的路线获得广泛验证,并推动国内多家厂商跟进调整模型价格。R1 相关研究后续登上《自然》期刊。

对开发者的影响

对于需要强推理能力的应用,R1 提供了可自由商用的开源权重与丰富的蒸馏版本,覆盖从云端到本地的多种部署需求,适合数学求解、代码生成、复杂任务链等场景。

常见问题(FAQ)

Q:DeepSeek-R1 对标哪款模型? A:官方称其在 AIME、MATH 等推理与数学基准上对标 OpenAI o1。

Q:R1 是否免费、能否商用? A:R1 以 MIT 协议开源,可自由使用与商用,并提供多个蒸馏版本。

Q:R1 为何引发「斯普特尼克时刻」之说? A:它以远低于同级别闭源模型的成本实现顶级推理能力,并开源开放,冲击了既有格局。

参考链接

版权声明:本文内容来自 DeepSeek 官方 。本平台对该内容进行了编译和整理,仅用于信息传播和学习交流之用。如有侵权,请联系我们进行处理。

用户评价

  • 加载评价中...