李飞飞团队最新作！高分≠可靠：那些跑分第一的多模态模型，可能只是在“猜”

张开发

• 2026/4/16 9:37:47 • 15 分钟阅读

分享文章

你有没有想过你面前的AI可能正在一本正经地“假装看见”不是比喻。是真的在描述一张不存在的图像——分析它的细节推理它的特征甚至据此做出诊断、给出建议从头到尾语气笃定逻辑自洽。而你完全看不出任何破绽。这不是科幻。这是刚刚浮出水面的“海市蜃楼效应”。01看不见却说得比谁都真由斯坦福大学李飞飞团队发表的《海市蜃楼视觉理解的幻象MIRAGE: The Illusion of Visual Understanding》一文给整个多模态AI领域投下了一颗深水炸弹。研究者们发现当前最前沿的AI模型——包括GPT-5、Gemini-3-Pro、Claude Sonnet 4.5等——在面对“本应配有图像”的问题时即便图像从未上传它们也超过60%的情况会自信地描述出“不存在的画面”。更令人不安的是如果提示中带有“请根据图像回答”之类的常见指令这一比例可以飙升至90%以上。这不是传统意义上的“幻觉”——那种在真实框架里编造细节。这是凭空构建一个虚假的认知前提AI不是“回答错了”而是“以为自己看见了”。一张根本没给过的脑部MRI它能描述出结节的位置一段从未上传的心电图它能判断为心肌梗死一幅不存在的皮肤照片它能诊断为黑色素瘤。而且在它输出的推理链条里你看不到任何犹豫、任何“我不确定”的痕迹。它说得那么具体那么流畅那么像一个真正在分析图像的专家。02高分不等于看见这还不是最棘手的。研究者用这些模型去跑主流的多模态基准测试——MMMU-Pro、VQA-Rad、MicroVQA这些被业界广泛用来衡量“视觉理解能力”的考试。结果令人震惊在没有图像的情况下这些模型依然能拿下70%到80% 的“原始成绩”。换句话说它们的高分很大一部分根本与“看见”无关。更极致的证据是研究者用了一个纯文本模型Qwen2.5-3B仅用去除图像后的问答对进行训练结果这个“超级猜测器”在胸部X光影像问答任务上超越了所有前沿多模态模型也超过了放射科医生的平均水平。一个连图像都看不见的模型却在“视觉问答”中击败了所有对手。这意味着什么意味着我们以为在测试“视觉理解”的基准其实很大一部分可以被文本模式、统计规律、数据集结构——被那些隐藏在问题背后的“捷径”——轻松攻克。为什么说这比“犯错”更危险我们习惯了担心AI答错。但海市蜃楼效应带来的是一种更隐蔽的风险它不犯错它“正确”地欺骗你。在医学场景中研究者发现模型在幻像模式下生成的诊断显著偏向严重病理。STEMI、黑色素瘤、需要紧急手术的结节……这些“惊心动魄”的结果被模型以不容置疑的口吻抛出。如果这张图像只是上传失败了呢如果API链路中图像被丢弃了呢如果AI在某个智能体工作流中“以为”自己看到了图像呢它不会说“我缺了张图请重试。”它会说“根据这张图像我的诊断是……”它甚至会在推理中写满专业术语、层层逻辑像极了一位经验丰富的医生。你无法通过“读它的思路”来发现破绽——因为那条思路本身就是为“假装看见”而精心铺设的。准确率掩盖不了根基的虚无。推理链无法证明“看见”真的发生。03专业判断AI之外不可退让的那一步这一发现把我们拉回到一个更根本的问题上在AI时代什么才是真正的“可信”答案恰恰落在最上方那篇文章的主题里——专业判断。AI可以生成答案但它无法为自己的“认知前提”负责。它不知道什么是“图确实没传上来”什么是“这个数据分布不可靠”什么是“这种情况不应该用历史统计来推”。它只知道怎么接下一个词能让答案看起来最正确。而专业判断是那个会在“看似完美”的推理链条前停下来问一句的人· “这个结论是基于证据还是基于惯性”· “你描述的那些细节我为什么没看到”· “如果图像不存在你的推理还成立吗”这正是论文中揭示的“猜谜模式”与“幻像模式”之间的分野——当AI被明确告知“没有图你猜一下”时它的准确率显著下降。因为它不再能“假装看见”只能老实动用文本知识。但在真实场景中没有人会替用户加那句“其实没图”。那个提醒“前提可能不成立”的责任最终落在专业判断的肩上。04我们该如何应对论文最后给出了几项重要建议它们不仅是对AI开发者的提醒也为我们每一个人提供了判断的尺度第一把“缺图测试”变成常规体检。就像我们不会相信一个不看病人的医生我们也不应该信任一个“假装看见”的AI。在评估任何一个多模态系统时问一句去掉图像它还能剩下什么第二警惕“绝对准确率”的幻象。一个在基准上跑出高分、排名靠前的模型未必真的“理解”了视觉内容。真正值得关注的是“有图”与“无图”之间的差距——那才是“视觉依赖”的真实刻度。第三在关键决策中永远保留“人类判断”的最后一道闸口。尤其在医疗、安全、法律等高风险领域AI的输出只能作为参考不能替代专业审视。因为只有人类判断才具备那种“质疑前提”的能力——不只看答案对不对更看这个答案是在什么框架下生成的。05结语技术可以模拟看见但只有判断知道真假“海市蜃楼”这个词本身就带着一种古老而诚实的隐喻沙漠中的人看到的是真实的光影却不是真实的水源。今天的AI正在以惊人的语言能力构建出越来越“像真的”幻像。它可能比人更快、更流畅、更“专家”但它永远缺少一个东西——对自己认知框架的自觉。那个自觉那个停下来说“等等我确定我看见了什么吗’”的能力至今仍然只属于专业判断。AI可以延伸我们的能力可以提速我们的决策但它无法替代那个在幻像面前保持清醒的人。技术可以模拟看见但只有专业判断知道什么是真的。我们比任何时候都更需要它。

李飞飞团队最新作！高分≠可靠：那些跑分第一的多模态模型，可能只是在“猜”

最新文章

终极指南：如何用Zotero Citation插件三步搞定Word文献引用难题

梦幻动漫魔法工坊快速部署指南：5分钟搭建你的专属二次元生成器

红队实战：HackademicRTB1靶机渗透全流程解析（vulnhub）

如何用Blender 3MF插件打造专业级3D打印工作流

Chrome Skills 来了：把你的 AI 提示词变成一键工具

终极CodeceptJS HTML报告器指南：打造专业级测试可视化仪表板

推荐文章

ATCODER ABC C题解济

英雄联盟智能辅助工具League Akari：让你轻松成为游戏高手 [特殊字符]✨

同城预约上门服务系统源码：从技术架构到落地实践的深度剖析

PyTorch学习率调度器实战：从基础到高级策略全解析

python开发之路【第四章】：python程序流程控制督

跑得越慢反而越牛？你的身体其实在偷偷“扩容带宽”

相关文章

无损音乐下载与高品质音频管理：tidal-dl-ng的核心能力探索

LyricsX：让歌词如影随形的桌面歌词助手

如何利用自动化抢票工具突破大麦网90%的抢票失败率：从绝望到成功的完整指南

电子设计竞赛必备：RC、运放、TTL信号处理电路实战指南（附避坑技巧）

从RoboMaster到智能仓储：深入聊聊麦克纳姆轮底盘的那些‘坑’与最佳实践

libhv实战：从零构建一个高效的WebSocket客户端

分享文章

更多文章

别再乱赋权了！深入理解SAP权限对象、字段与角色间的‘并集’陷阱

InnoDB存储结构全解析：行页区段与单表W行的关系佳

模型版本灰度发布难，资源调度乱，SLA不达标——SITS2026认证架构师的7步标准化服务化改造路径

Cadence Virtuoso IC617版图绘制避坑指南：从Layout XL到Calibre DRC/LVS/PEX的完整实战流程

仅限首批500名技术负责人的AI原生社区启动包：含法律合规模板、贡献者激励计算器、模型权重共享审计清单

【AI原生研发敏捷适配白皮书】：20年架构师亲授3大范式迁移路径与5个不可绕过的反模式陷阱

AI原生软件的“心脏手术”：如何在不中断线上服务前提下，完成特征管道热替换与模型灰度切流（附eBPF级可观测性注入方案）

PVE网络进阶：构建NAT与桥接混合模式的虚拟化网络架构

4.3《堆内存管理：内核堆与用户堆深度解析》

别急着报修！华为CT3200云桌面终端的3个自检妙招：信号灯诊断+VGA线材避坑指南

002、YOLOv11改进策略全景图：方法论总览

LiDAR360 9.0 LiDAR360 MLS 9.0雷达点云数据处理软件