加州大学洛杉矶分校出手:让AI同时看懂数学题和地图

张开发
2026/4/18 5:09:40 15 分钟阅读

分享文章

加州大学洛杉矶分校出手:让AI同时看懂数学题和地图
这项由加利福尼亚大学洛杉矶分校UCLA人工智能与语言处理团队主导完成的研究以预印本形式发布于2026年4月论文编号为arXiv:2604.08539题为《OpenVLThinkerV2面向多领域视觉任务的通用多模态推理模型》感兴趣的读者可通过该编号在arXiv平台查阅完整论文。如果你曾经被一道数学几何题难住或者想让AI帮你从一张卫星图上找到某个具体的物体你大概能体会到不同的事情对人脑的考验是完全不一样的。做数学需要一步一步推理找图里的东西则需要你的眼睛足够精准。对AI来说这两件事同样是两种截然不同的挑战——而如何让一个AI模型同时把这两件事都做好正是这篇论文想要解决的核心问题。UCLA的研究团队发现当前最先进的AI视觉语言模型也就是那些既能看图又能回答问题的AI简称MLLM在训练过程中面临一个深层的公平性危机。这个危机不是关于社会公正的而是关于AI训练机制本身不同类型的题目给AI提供的奖励信号差别极大导致训练过程严重失衡就像一场考试里有些科目满分100分、有些科目满分1000分但老师偏偏直接把所有分数加在一起排名结果高分科目的学生永远占优势。为了解决这个问题研究团队提出了一套名为OpenVLThinkerV2的完整训练方案其核心发明是一种叫做高斯GRPO简称G?RPO的全新训练目标并配套设计了两种辅助机制最终让AI在18个不同的测试基准上全面超越了包括GPT-4o在内的多个强大对手甚至在文档理解和空间推理领域打败了GPT-5和Gemini 2.5 Pro。一、AI训练中的偏心考官问题要理解这篇研究的出发点先从当前最流行的AI强化学习训练方式说起。研究团队使用的基础框架叫做GRPO组相对策略优化这是一种让AI通过做题、得分、调整的循环不断进步的训练方法类似于学生反复刷题、根据对错调整策略的学习过程。问题在于不同类型的题目给出的分数差异悬殊。做一道数学选择题AI要么全对要么全错得分非0即1这是典型的稀疏信号。但如果AI在做视觉定位任务——比如在图片里框出一只猫的位置——它得到的分数是一个连续的数字表示它框出来的区域和正确答案重叠了多少百分比这是密集信号。还有一些任务比如识别图片上的文字给出的分数既不是0/1也不是完全连续而是介于两者之间。标准GRPO的做法是把同一道题的多个AI回答收集起来用这些回答的平均分和标准差来归一化每个回答的得分让分数变成一个可比较的相对优势值。但这里有个严重问题如果这道题的所有回答得分都非常接近比如0.81、0.81、0.82、0.82、0.83这样密集的分布那么归一化之后每个答案的优势值差异极小整个训练步骤几乎没有学到任何东西反之如果有一个回答偶然得了极高的分它就会把整个标准差拉高使得其他所有回答看起来都像在平均水平以下。后来出现了一种改进版叫做DR.GRPO它干脆去掉了按组归一化的步骤直接用原始分数减去平均分。这解决了组内偏差问题但又引入了任务间的不公平高方差任务比如定位任务分数波动很大产生的梯度更新幅度远大于低方差任务比如选择题导致AI在训练中对某些类型的题目过度反应而对另一些题目几乎无动于衷。更新一代的EMA-GRPO则尝试用历史数据的指数移动平均来估计每种任务的正常方差以此调整归一化比例。这个思路更接近正确答案但它依然依赖线性变换——也就是说它只能调整分数的平均值和方差却无法改变分数分布的整体形状。如果某个任务的分数分布本来就是两极化的比如大量0分加上偶尔几个满分线性调整后依然是两极化只是换了一个数值范围。一个偶发的超级高分依然会在历史记录里长期发酵持续压制后续正常回答的学习信号。二、用正态分布当裁判G?RPO的核心思想研究团队的核心洞察是与其反复修补线性调整的漏洞不如彻底换一种归一化机制——用数学上最公平、最稳健的分布作为所有任务共同的标准这就是正态分布也叫高斯分布就是那个对称的钟形曲线。正态分布有几个特别适合用来当裁判的性质。首先它是对称的这意味着表现比平均水平好的回答和比平均水平差的回答会得到数值上对称的奖励和惩罚不存在鼓励多惩罚少或相反的偏差。其次它对极端值有天然的压制不管某个回答的原始分数高到多离谱经过映射后都会被限制在一个合理范围内不会造成梯度爆炸。第三由于所有任务的优势值都被强制映射到同一个正态分布每种任务对训练过程的影响力天然相同不存在哪类任务声音更大的问题。具体的实现方式借用了数学里最优运输Optimal Transport的概念。你可以把它理解成这样一个场景AI做了一批题得到了一堆原始分数这些分数的分布形状千奇百怪可能是两极分化的哑铃形可能是偏向一侧的斜坡形也可能是有个别极高分的长尾形。G?RPO要做的事就是找到一种最省力的搬运方式把这些分数的分布形状变成标准正态分布的形状。在一维空间里这个最省力的搬运方案有一个非常优雅的数学闭合解只需要三步。第一步把所有原始分数从低到高排序计算每个分数的相对排名比如5个回答里排第3的它的排名概率就是(3-0.5)/50.5。第二步把这个排名概率输入正态分布的反函数即分位函数直接得到它对应的正态分布值。第三步处理并列的情况如果多个回答得分完全相同就给它们分配这几个位置所对应的正态分布值的平均值确保相同表现得到相同的学习信号。举一个具体的例子来感受这种变换的效果。假设5个AI回答的原始分数是[0, 0, 0, 0, 1]——四个全错、一个全对这是典型的稀疏二值奖励。标准GRPO会给最后那个全对的回答一个极其突出的高优势值因为它远超其他所有人产生一个重击式的梯度更新。而G?RPO则会把这5个回答的优势值映射成大约[-0.9, -0.9, -0.9, -0.9, 1.28]让那个全对的回答依然是正值得到鼓励但不会高得离谱同时让四个全错的回答得到适度的负值惩罚。整个更新过程稳定而有节制。同样如果5个回答的原始分数是[0.81, 0.81, 0.82, 0.82, 0.83]——这种几乎没有差别的密集分布标准GRPO会因为标准差极小而产生微乎其微的优势值相当于白训练了一步。而G?RPO会把它们映射成[-0.9, -0.9, 0.26, 0.26, 1.28]人为拉开了这些本来差异很小的回答之间的区别让训练依然能从中提取有效信号。三、训练失衡的另一面AI在不同题型里的个性差异解决了奖励信号的归一化问题之后研究团队把目光转向了另一个更细腻的挑战不同类型的任务不只是奖励信号形态不同它们还会驱动AI产生截然不同的行为模式。研究团队在训练过程中仔细观察了AI生成回答的长度变化规律发现了一个有趣的性格分裂现象。对于需要多步推理的任务比如数学题、科学问答AI的回答长度会在训练初期先短暂缩短因为它在适应新的训练环境然后逐渐回升最终稳定在一个比起点更长的水平——这符合直觉越复杂的问题越需要更多的思考步骤。但对于视觉感知型任务比如图片里的文字识别、物体定位AI的回答长度则单调下降越训练越简短。这也合乎道理定位一个物体不需要长篇大论直接给出坐标就行多说反而容易出错。问题在于在混合训练的环境里这两种截然相反的趋势会互相干扰推理任务需要AI多说话但感知任务又在训练AI少说话两边拉扯之下AI可能会陷入一种尴尬的中间状态既没有足够的推理深度也没有简洁的感知输出。研究团队的解决方案是按任务定制响应长度。具体来说他们为每种任务设计了一个梯形的奖励区间如果AI的回答长度落在某个合适的范围内就得到额外奖励过短或过长都会被软性惩罚超过极限则不得分。对于数学推理任务这个合适范围被设置得比较长鼓励AI展开完整的推理链条对于视觉定位任务这个范围则很短要求AI直接给出答案不要拖泥带水。通过这种方式两类任务各自走向适合自己的最优长度不再相互干扰。与响应长度问题伴随出现的是另一个叫做熵的现象。在信息论里熵衡量的是系统的不确定性或随机程度。对AI生成文本来说高熵意味着AI在生成每个词的时候选项很多、很不确定输出内容更随机低熵则意味着AI非常笃定地选择了某几个高概率的词输出内容高度固定。研究团队发现在强化学习训练过程中不同任务会驱使AI的熵向两个方向极端漂移。推理型任务容易引发熵爆炸AI为了探索更多可能的推理路径开始越来越随机地生成词语最终输出一些语义混乱、词不达意的文本。感知型任务则容易引发熵坍缩AI过于自信地反复使用同几个高概率词语停止探索回答变得机械且缺乏灵活性。最极端的情况出现在空间推理这类既复杂又超出AI训练分布的任务上AI的熵会飙升到极高的水平几乎等同于随机输出。应对这一问题的机制叫做任务级熵塑形为每种任务设置一个允许的熵值区间当AI的熵超过上限时增加一个惩罚项把它往下拉当熵低于下限时增加一个惩罚项把它往上推始终把AI的探索强度维持在一个合理的范围内。这个机制不改变任务本身的奖励结构只是在旁边加了一道防护栏确保AI不会因为某类任务的特殊性质而训练失控。四、实验结果在18个测试上打败了谁研究团队基于Qwen3-VL-Instruct-8B这个已有的视觉语言模型作为起点使用OneThinker-600k数据集的筛选子集进行了强化学习训练整个训练过程在AWS的Trainium专用芯片上运行了大约三天。最终得到的OpenVLThinkerV2在18个涵盖六大类任务的测试基准上接受了全面评测。在通用多模态问答方向OpenVLThinkerV2在MMMU基准上达到了71.6%的准确率在MMBench上达到88.2%在MMStar上达到73.8%。相比之下GPT-4o在MMMU上只有70.7%OpenVLThinkerV2对其实现了超越。与此同时它的基础模型Qwen3-VL-Instruct在MMMU上只有60.2%相对提升幅度接近19%这个进步幅度是相当显著的。数学视觉推理是近年来AI能力竞赛的热门赛场。OpenVLThinkerV2在MathVista上达到79.5%在MathVerse上达到65.8%在MathVision上达到53.4%均超过了同类开源模型中的佼佼者包括最近颇受关注的OneThinker-8BMathVista上得77.6%。图表理解方面OpenVLThinkerV2在ChartQA上达到87.4%超过了Gemini 2.5 Pro的83.3%在CharXiv推理类问题上达到53.0%同样高于Gemini 2.5 Pro的47.1%。文档理解是AI视觉能力的重要组成部分包括从扫描文件、表单、信息图中提取信息。OpenVLThinkerV2在DocVQA上达到96.7%在OCRBench上达到911分在InfoVQA上达到86.4%。其中OCRBench的911分超过了DeepEyesV2的882分——后者是一个专门针对文档解析设计的模型甚至内置了动态放大缩小的zoom-in工具来提升文字识别精度。同时911分也远高于GPT-5810分和Gemini 2.5 Pro866分。空间推理测试的是AI理解三维空间关系、方向、距离等概念的能力这对机器人、自动驾驶等应用至关重要。OpenVLThinkerV2在EmbSpatial基准上达到83.1%超过GPT-582.9%在RefSpatial上达到44.6%在RoboSpatial上达到63.2%均超过Gemini 2.5 Pro分别为36.5%和47.5%。值得一提的是空间推理领域有一个专门针对机器人任务微调的专家模型RoboRefer-8B-SFT在RefSpatial上的得分是48.4%比OpenVLThinkerV2高一些。但OpenVLThinkerV2并没有专门在这类数据上微调过能接近专家模型的表现已经相当不错。视觉定位Grounding测试AI能否准确在图片中框出特定对象的位置通常用IoU交并比衡量框的准确程度。OpenVLThinkerV2在RefCOCO上达到93.4%在RefCOCO上达到88.2%在RefCOCOg上达到90.4%全面超越了Grounding DINO90.6%、88.2%、86.1%——后者是这个领域长期以来的专用模型标杆。五、消融实验每个组件各贡献了多少研究团队还专门做了拆分测试逐个开关各个训练组件来单独衡量每个创新点的贡献大小。基础的Qwen3-VL-Instruct模型在六大类任务的综合得分分别是通用问答71.3、数学59.2、图表69.9、定位87.1、文档理解86.8、空间推理60.9。仅加入G?RPO这一个改变六项分数就跃升至76.9、64.8、74.5、90.2、90.6、62.3每项都有显著提升这证明奖励分布归一化机制是所有改进中最核心的一步好比在一场混乱的考试中终于引入了公平的评分标准。在G?RPO基础上进一步加入熵塑形机制六项得分变为77.0、65.1、75.3、90.4、90.8、62.8推理类任务数学、图表的提升更为明显而定位和空间推理这类视觉密集型任务的提升相对较小——这与理论预测一致因为熵控制对于容易发生探索失控的推理任务效果更显著。将熵塑形替换为响应长度塑形得分变为77.4、65.7、75.4、90.5、91.1、63.2可以看到长度塑形对定位和文档理解的提升比熵塑形更大这是因为控制输出长度直接影响了感知型任务的准确性——短而精的回答减少了AI在视觉任务中想太多而产生幻觉的概率。最终把熵塑形和长度塑形两者都加上六项得分达到最优的77.9、66.2、76.0、90.7、91.4、63.6两种机制的效果是互补而非重叠的。六、训练过程中的稳定性对比研究团队还记录了G?RPO、标准GRPO和GDPO在整个训练过程中四类奖励指标的变化曲线提供了更直观的稳定性对比。在准确率奖励方面三种方法在训练开始时表现接近但大约到100步之后G?RPO的准确率曲线开始稳定攀升最终停留在约0.70-0.71的水平而GRPO在0.685到0.695之间来回震荡没有明显的进步趋势GDPO甚至在250步附近出现了一次明显下跌说明训练过程的稳定性不如G?RPO。长度奖励的对比更加直观G?RPO全程保持最高的长度奖励最终超过0.50GRPO和GDPO则停留在更低的水平且波动更大。这说明G?RPO的响应长度塑形机制确实引导AI找到了最优的回答长度区间而对照组的训练则没能做到这一点。格式奖励要求AI用固定的思考标签和答案标签包裹输出和结构奖励要求特定任务如定位用规定格式输出坐标上GDPO在训练初期表现最好但随着训练推进它的格式和结构奖励逐渐下滑G?RPO则持续稳定最终在两项指标上都保持最优。说到底这项研究的意义在于它重新思考了一个在AI训练中一直被忽视的问题当你同时教一个学生做数学题、认字、看地图、理解图表用同一把尺子衡量所有进步是公平的吗研究团队用数学工具给出了一个清晰的答案——不公平而且这种不公平会深刻影响最终的学习效果。他们提出的解决方案并不复杂核心思想可以用一句话概括不管原来的分数长什么形状最终都把它变成同一种最稳定的分布让所有任务在训练中享有平等的话语权。配合上针对不同任务特点定制的回答长度和探索强度控制机制最终训练出了一个在众多任务上表现均衡、且在多项指标上超越更大规模专有模型的开源系统。对普通人来说这项研究的直接意义在于未来你使用的AI助手无论你是让它帮你解一道物理题、识别一张收据上的金额、还是告诉你一张室内照片里沙发在哪里它都有更大的概率给出准确答案——因为训练它的方式更加公平没有让它偏科。对研究者来说G?RPO提供的这种基于最优运输的归一化框架原则上适用于任何需要混合多种差异悬殊的奖励信号的强化学习场景不限于视觉语言模型在代码生成、GUI操作等领域同样可能有用。有兴趣深入了解技术细节的读者可以通过arXiv编号2604.08539找到完整论文其中附录B还提供了G?RPO完整的梯度推导过程对于希望复现或改进这套方法的研究者来说是很好的参考材料。QAQ1G?RPO和普通GRPO的最大区别是什么A普通GRPO用线性的均值方差归一化来计算AI回答的优势值这在不同任务的奖励分布差异很大时会造成严重的训练不平衡。G?RPO则用最优运输方法把任何形状的奖励分布强制映射成标准正态分布让每种任务对训练过程的影响力保持一致同时天然压制了极端异常值对训练的冲击。Q2OpenVLThinkerV2在哪些任务上超过了GPT-5和Gemini 2.5 ProAOpenVLThinkerV2在文档理解DocVQA得96.7%、OCRBench得911分、InfoVQA得86.4%和空间推理EmbSpatial得83.1%超过GPT-5的82.9%RoboSpatial得63.2%超过Gemini 2.5 Pro的47.5%这两大类别上显著超越了两个大型专有模型同时在图表理解的ChartQA上也超过了Gemini 2.5 Pro。Q3响应长度塑形和熵塑形分别解决了什么问题A响应长度塑形解决的是不同类型任务对回答长度需求截然相反的问题——推理任务需要长回答、感知任务需要短回答通过给每种任务设置专属的最优长度区间让两类任务各自找到最适合的输出习惯。熵塑形解决的是训练过程中AI探索程度失控的问题防止推理任务引发随机性爆炸熵爆炸或感知任务导致过度保守熵坍缩。两者配合使用效果优于单独使用任意一种。

更多文章