DeepSeek 终于能用眼睛看世界了!6月18日,DeepSeek多模态研究员Xiaokang Chen在社交平台宣布,DeepSeek的识图模式已在网页和App端正式上线。这意味着你可以直接上传图片,让DeepSeek帮你分析、描述、提取信息,而不仅仅是对图片中的文字做OCR。
DeepSeek识图模式是什么?
DeepSeek识图模式是DeepSeek新增的一个功能模式,与原有的“快速模式”和“专家模式”并列。开启后,你可以上传图片,DeepSeek会“看”懂图片内容,并进行描述、分析、问答等。这不仅仅是OCR(光学字符识别),而是真正的多模态理解——能识别物体、场景、人物动作、图表、公式等。
根据官方介绍,该模式背后的核心技术是“Thinking with Visual Primitives(以视觉原语思考)”,这是一种让AI先识别图片中的基础视觉元素(如形状、颜色、纹理),再组合推理的框架。相比直接端到端训练的多模态模型,这种方法在复杂场景下更准确、更可解释。
怎么用?网页和App端操作指南
目前网页端已正式上线,App端仍显示“图片理解功能内测中”,但据IT之家测试,功能实际上已可用。具体操作如下:
- 网页端:打开DeepSeek对话界面,在输入框上方找到模式切换按钮,选择“识图模式”。然后点击上传按钮,选择图片(支持常见格式如JPG、PNG、WEBP),输入你的问题或直接让AI描述图片。
- App端:同样在对话界面切换模式,上传图片。如果看到“内测中”提示,可尝试刷新或等待官方全面开放。
注意:识图模式目前可能对图片大小和分辨率有限制,建议上传清晰、不过大的图片。另外,该模式与快速模式、专家模式互斥,切换后之前的对话上下文可能丢失,建议新建对话。
识图模式能做什么?实际场景测试
识图模式的能力远不止提取文字。你可以用它做这些事:
- 识别物体和场景:上传一张风景照,让DeepSeek描述画面中的建筑、植物、天气等。
- 分析图表和数据:上传一张折线图或表格,让DeepSeek解读趋势、提取数据点。
- 理解手写笔记:拍一张手写笔记,DeepSeek能识别并整理成文字。
- 解答数学题:上传一道几何题,DeepSeek能看懂图形并给出解题步骤。
- 识别菜品、商品等:拍一张食物照片,让DeepSeek猜这是什么菜。
相比ChatGPT的识图功能,DeepSeek在中文场景下可能更准确,尤其对手写中文、中文图表等有优势。不过,ChatGPT Plus的识图功能更成熟,支持多轮对话和更复杂的推理。
DeepSeek识图 vs ChatGPT识图:哪个更强?
目前主流AI中,ChatGPT(GPT-4o)和Claude 3.5 Sonnet都支持图片理解。以下是简单对比:
| 功能 | DeepSeek识图模式 | ChatGPT Plus识图 | Claude Pro识图 |
|---|---|---|---|
| 上线时间 | 2025年6月(新上线) | 2023年(已成熟) | 2024年 |
| 中文支持 | 优秀(原生中文模型) | 良好(但中文场景偶有偏差) | 良好 |
| 手写识别 | 强(针对中文优化) | 一般 | 一般 |
| 复杂推理 | 中等(新功能,有待打磨) | 强(多模态推理成熟) | 强 |
| 价格 | 免费(目前) | 约20美元/月 | 约20美元/月 |
如果你主要处理中文图片(如手写笔记、中文图表),DeepSeek的免费优势很明显。但如果你需要更复杂的多模态推理(如医学影像分析、复杂图表解读),ChatGPT或Claude可能更可靠。
避坑注意:识图模式的几个限制
虽然识图模式很强大,但作为新功能,有几个地方需要注意:
- App端仍显示“内测中”:如果你在App上遇到提示,不要慌,可以尝试切换网络或等待官方推送更新。
- 图片隐私:上传的图片会被AI处理,敏感信息(如身份证、银行卡)建议打码后再上传。
- 准确性有限:AI识图并非100%准确,尤其对模糊图片、艺术画作、抽象图形等可能出错。重要信息请人工复核。
- 模式切换丢失上下文:从识图模式切回其他模式,之前的对话记录可能丢失,建议每个任务新建对话。
国内怎么开通?DeepSeek免费可用,但高级功能需会员
DeepSeek目前在国内可直接使用,网页版和App都无需翻墙。识图模式也是免费功能,无需付费。但如果你需要更高的调用次数、更快的响应速度或专家模式,DeepSeek可能会推出付费会员。目前官方尚未公布具体价格,预计约几十元人民币/月,以官方为准。
如果你同时需要ChatGPT、Claude等海外AI的识图功能,国内用户常面临支付难题——海外信用卡无法绑定。这时你可以通过靠谱的第三方代充服务开通,支持支付宝、微信支付,人民币计价,无需海外卡。比如ChatGPT Plus充值或Claude Pro充值,都可以在GPT68找到便捷通道。价格随汇率浮动,约以官方为准。
另外,如果你在多个AI之间犹豫,可以看看2026主流AI工具怎么选,帮你按场景做决定。
信息来源:www.ithome.com。本文为基于公开资讯的原创整理与解读,非原文转载。