DeepSeek 识图模式正式上线:多模态能力产品化迈出关键一步

DeepSeek 识图模式在网页和App端正式上线,采用 Thinking with Visual Primitives 框架,与"快速模式""专家模式"并列,标志着多模态能力从研发进入产品化阶段。

DeepSeek 识图模式正式上线:多模态能力产品化迈出关键一步

DeepSeek 多模态研究员 Xiaokang Chen 宣布,DeepSeek 的识图模式已在网页和 App 端正式上线。"识图模式"与"快速模式""专家模式"并列,开启后用户可直接上传图片让 DeepSeek 理解视觉内容,其能力边界远超简单的文字提取(OCR)。

DeepSeek识图模式

此次识图模式上线的底层技术框架,是 DeepSeek 今年 4 月公开的 "Thinking with Visual Primitives"(以视觉原语思考) 核心框架。该框架的核心理念是让模型像人类一样将视觉信息分解为"原语"进行推理,而非简单地端到端映射图像到文字。这一技术路线在国内多模态模型中具有独特性。

视觉原语框架

识图模式的上线,是 DeepSeek 从"纯文本推理之王"走向"多模态全能选手"的关键一步。此前 DeepSeek 的核心竞争力集中在数学推理、代码生成和长文本处理,视觉能力一直是其与豆包等竞品较量中的明显短板。

上线当天还出现了一个颇具戏剧性的插曲——据澎湃新闻报道,DeepSeek 识图模式无法正确识别创始人梁文锋的照片,而是将其识别为董宇辉、张雪峰甚至雷军。而雷军的照片则被准确识别。一种解释是梁文锋行事极其低调,网络公开照片和信息稀少,模型难以形成稳定的识别特征。这一"不识老板"的乌龙恰好反向证明了 DeepSeek 没有针对自家老板做特殊识别优化——模型的人脸识别能力建立在公开训练数据的分布之上,而非内部特权。

此番识图模式的正式发布,配合 V4 系列模型的整体升级,让 DeepSeek 的多模态拼图趋于完整。后续值得关注的是视觉理解在实际场景中的表现能否达到 V4 系列推理能力的同等水准,以及是否会与 V4.1 计划中的多模态版本形成能力重叠。

版权声明:本文内容来自 IT之家 。本平台对该内容进行了编译和整理,仅用于信息传播和学习交流之用。如有侵权,请联系我们进行处理。

用户评价

  • 加载评价中...