【2026 CVPR】Asking like Socrates: Socrates helps VLMs understand remote sensing images

张开发
2026/4/18 21:31:55 15 分钟阅读

分享文章

【2026 CVPR】Asking like Socrates: Socrates helps VLMs understand remote sensing images
RS-EoT (Remote Sensing Evidence-of-Thought)研究旨在解决视觉语言模型(VLM)在处理遥感图像时的“虚假推理”问题 。文章目录核心问题核心思想核心方法A. 数据合成:SocraticAgentData StatisticsB. 训练策略:两阶段渐进式强化学习 (RL)C. 训练策略实验验证主要贡献核心问题尽管现有的视觉语言模型能够生成显式的推理链,但在遥感(RS)任务中往往表现出虚假推理 (Pseudo Reasoning)。一瞥效应 (Glance Effect):模型仅通过一次粗略的感知(一瞥)就进行推理,这在处理大尺度、细节丰富且具有稀疏视觉线索的遥感图像时是不够的 。结果:由于缺乏足够的视觉证据,模型的推理过程往往演变成一种维持语言自洽的叙述,而非基于真实视觉细节的逻辑推导,这甚至会导致模型性能低于不进行推理的基础模型 。核心思想为了克服Glance Effect,作者借鉴了苏格拉底教学法 (Socratic Method),提出了RS-EoT范式。核心理念:推理应是一个“推理-感知”循环的迭代过程,由语言驱动模型不断重新审视图像,根据不断演进的推理逻辑去主动寻找新的局部视觉线索 。模拟人类专家:该思想模拟了专业遥感解译员在分析复杂图像时,通过反复观察和细节验证来逐步得出结论的过程 。

更多文章