2025_NIPS_First SFT, Second RL, Third UPT: Continual Improving Multi-Modal LLM Reasoning via Unsu...

张开发
2026/4/19 22:46:40 15 分钟阅读

分享文章

2025_NIPS_First SFT, Second RL, Third UPT: Continual Improving Multi-Modal LLM Reasoning via Unsu...
文章核心总结与翻译一、主要内容本文针对多模态大语言模型(MLLMs)后训练阶段依赖昂贵标注数据的问题,提出了一种无监督后训练范式(Unsupervised Post-Training, UPT),作为监督微调(SFT)和强化学习(RL)之后的第三阶段优化方案。核心框架为MM-UPT(Multi-Modal Unsupervised Post-Training),基于GRPO算法,通过多响应多数投票生成伪标签作为自奖励信号,无需外部监督即可实现模型推理能力的持续提升。具体内容包括:技术框架:以GRPO为基础,用多数投票替代传统奖励信号,对无标签多模态数据(图像+问题)采样多个模型响应,将最频繁的响应作为伪标签,对一致响应给予正奖励、分歧响应给予惩罚,引导模型收敛到稳定一致的输出。数据生成策略:扩展至数据自生成场景,设计两种策略:上下文内合成(基于原始样本生成语义不同的新问题)和直接合成(仅基于图像自由生成新问题),进一步提升方法的可扩展性。实验验证:在MathVision、MathVista等多模态数学推理基准上验证,Qwen2.5VL-7B模型经MM-UPT优化后,MathVista准确率从66.3%提升至72.9%,We-Math从62.9%提升至68.7%;在合成数据上训练的模型性能与原始无标签数据相当,且可适配不同规模的MLLMs及纯语言数学推理任务。局限性分析:当模型对目标领域缺乏足够先验知识时,多数投票可能放

更多文章