DeepSeek 识图模式正式上线：多模态能力产品化迈出关键一步

2026-06-18

AI新闻主编

DeepSeek 识图模式在网页和App端正式上线，采用 Thinking with Visual Primitives 框架，与"快速模式""专家模式"并列，标志着多模态能力从研发进入产品化阶段。

DeepSeek 识图模式正式上线：多模态能力产品化迈出关键一步

DeepSeek 多模态研究员 Xiaokang Chen 宣布，DeepSeek 的识图模式已在网页和 App 端正式上线。"识图模式"与"快速模式""专家模式"并列，开启后用户可直接上传图片让 DeepSeek 理解视觉内容，其能力边界远超简单的文字提取（OCR）。

此次识图模式上线的底层技术框架，是 DeepSeek 今年 4 月公开的 "Thinking with Visual Primitives"（以视觉原语思考） 核心框架。该框架的核心理念是让模型像人类一样将视觉信息分解为"原语"进行推理，而非简单地端到端映射图像到文字。这一技术路线在国内多模态模型中具有独特性。

识图模式的上线，是 DeepSeek 从"纯文本推理之王"走向"多模态全能选手"的关键一步。此前 DeepSeek 的核心竞争力集中在数学推理、代码生成和长文本处理，视觉能力一直是其与豆包等竞品较量中的明显短板。

上线当天还出现了一个颇具戏剧性的插曲——据澎湃新闻报道，DeepSeek 识图模式无法正确识别创始人梁文锋的照片，而是将其识别为董宇辉、张雪峰甚至雷军。而雷军的照片则被准确识别。一种解释是梁文锋行事极其低调，网络公开照片和信息稀少，模型难以形成稳定的识别特征。这一"不识老板"的乌龙恰好反向证明了 DeepSeek 没有针对自家老板做特殊识别优化——模型的人脸识别能力建立在公开训练数据的分布之上，而非内部特权。

此番识图模式的正式发布，配合 V4 系列模型的整体升级，让 DeepSeek 的多模态拼图趋于完整。后续值得关注的是视觉理解在实际场景中的表现能否达到 V4 系列推理能力的同等水准，以及是否会与 V4.1 计划中的多模态版本形成能力重叠。

用户评价

加载评价中...