DeepSeek终于能看图了我第一时间用它算命

刚刚，DeepSeek的多模态能力已经开启灰度测试。现在，被选中的用户会发现，DeepSeek首页多了一个“识图模式”的入口。上传图片后，DeepSeek能像人一样理解画面，不管是物体还是场景，而不是像过去仅能识别文字。

多位DeepSeek研究员第一时间发文宣传了这一新功能。DeepSeek研究员陈德里称，这一功能来自DeepSeek的“天才多模态同事们”，小鲸鱼现在有了看见世界的能力。

▲DeepSeek多位研究员宣布识图模式的灰度上线（图源：X平台）

我们也有幸被灰度到了，并迅速进行了一波测试。

首先是基本的识物能力，我们上传了一张兔子的照片，识图模式下DeepSeek一眼就判断出兔子的品种，并且可以描述这只兔子的姿态。

我们给DeepSeek上了点难度，上传了一张来自它老家杭州知名景点灵隐寺的照片，图中仅有右下角的路灯上有草书写就的“灵隐寺”字样，不过对人类来说这些字样也有点难懂。我们要求DeepSeek判断这是哪里，并报出图城市的经纬度。

根据建筑风格和路灯上的字样，DeepSeek很快判断出这里是灵隐寺，给出的坐标准确无误。其生成速度也很快，未开启思考模式时，一眨眼的功夫就好了。

我们又上传了一张包含视觉陷阱的图片，这张图中几个物品的摆放很容易让人误以为图中有个人坐在椅子上。

这样的题目同样没能难倒DeepSeek，它判断图中有墙面修补痕迹、垃圾收集区、杂物等等，没有被视觉陷阱蒙骗。

DeepSeek的视觉模式支持深度思考，我们上传了一张随手拍的照片，图中没有任何文字参考，看看DeepSeek能否根据蛛丝马迹判断出位置。

开启推理后，DeepSeek的视觉能力明显增强了。它可以分步骤拆解画面信息，能看到前景、中景、背景的所有信息，然后将地标特征与地理区域匹配，直接判断出山脉是燕山山脉、建筑风格在北京昌平等郊区很常见。

最后它直接把范围收窄到北京昌平区或者海淀山后地区，其中某些猜测选项离我的实际距离已经不到10公里。未来如果接入联网搜索，DeepSeek很可能就顺着网线把我家地址给开盒了。

我们还尝试了热门的看手相玩法，上传后，DeepSeek第一眼先把左右手看错了，我们上传的图片是左手，它判断成了右手。

进入实际分析后，DeepSeek对手相形态的描述基本符合事实，分析得也是头头是道，不过具体该相信多少，这就见仁见智了。

结语：DeepSeek多模态拼图，终于补齐

在过去很长一段时间里，DeepSeek多模态能力的缺失一直是一个遗憾。DeepSeek一直维持着多模态的相关研究，并曾在早期发布开源多模态模型Janus等成果。不过，DeepSeek一直未在其产品中向公众提供多模态能力。

AI走向多模态已经成为不可逆转的大趋势。多模态内容所蕴藏的丰富信息可以扩展AI认知这一世界的触角，也更贴近人类本身理解世界的方式。目前，DeepSeek的识图模式还只是一个测试功能，不过它已经让我们看到了其在视觉解析与跨模态推理上的潜力。