小红书开源高性能多模态强化学习框架Relax

张开发

• 2026/4/17 6:25:26 • 15 分钟阅读

分享文章

### Relax定位RelaxReinforcementEngineLeveragingAgenticX-modality是小红书 AI 平台开源的高性能多模态强化学习后训练框架基于 Ray Serve 构建服务化架构。是一个大模型强化学习RL后训练框架——用于在模型基座训练完成后进一步提升模型能力如数学推理、视觉理解、Agent 交互等。一句话场景你有一个 Qwen3-4B 基座模型想让它数学题做得更好 → 用 Relax GRPO 算法训练 → 得到更强的数学模型。Relax服务架构┌─────────────────────────────────────────────────────────┐ │ Layer 1: Entrypoints — train.py 入口、信号处理、Ray 连接 │ ├─────────────────────────────────────────────────────────┤ │ Layer 2: Orchestration — Controller训练循环 Service │ ├─────────────────────────────────────────────────────────┤ │ Layer 3: Components — Actor/Rollout/Critic/GenRM 等 │ ├─────────────────────────────────────────────────────────┤ │ Layer 4: Engine — SGLang Rollout Reward Hub │ ├─────────────────────────────────────────────────────────┤ │ Layer 5: Backends — Megatron-LM (训练) SGLang (推理) │ ├─────────────────────────────────────────────────────────┤ │ Layer 6: Distributed — DCS Ray Actor Groups │ └─────────────────────────────────────────────────────────┘Relax的亮点特性说明全异步训练通过 TransferQueue 实现 Rollout/Actor/Ref 完全并行流式数据交换弹性扩缩容HTTP REST API 动态增减推理引擎支持同集群/跨集群模式Agentic RL多轮交互 loss masking VLM 上下文累积多模态支持文本、视觉、音频统一框架Qwen3-Omni 等权重同步DCS 通过 NCCL 广播异步同步到推理集群Relax支持的 RL 算法算法类型说明GRPO策略优化Group Relative Policy OptimizationGSPO策略优化Group Sample Policy OptimizationSAPO策略优化Sample-Aware Policy OptimizationOn-Policy Distillation知识迁移基于 KL 惩罚的师生蒸馏Relax结构路径职责relax/core/controller.py训练循环编排、HealthManager、全局重启relax/components/Actor/Rollout/Critic/Advantages/GenRM 服务实现relax/backends/megatron/Megatron-LM 训练后端TP/PP/CP/EP 并行relax/backends/sglang/SGLang 推理引擎管理relax/engine/rewards/可插拔奖励函数DeepScaler、DAPO、GenRM 等relax/distributed/Ray 集群管理、DCS 权重同步服务⚙️ 执行模式Colocate同步Actor 与 Rollout 共享 GPU严格 on-policyFully Async全异步各角色运行在独立 GPU 集群通过 TransferQueue 流式交换数据Relax解决了什么问题传统 RL 训练的致命缺陷GPU 空闲传统流程是这样的Rollout (推理生成数据) → 等待 → Training (训练) → 等待 → Rollout → ...在 Rollout 阶段Training 的 GPU 完全空闲Training 阶段Rollout 的 GPU 空闲。60-70% 的时间 GPU 都在等待。Relax 的解法全异步架构Rollout ──并行──▶ Training │ │ ▼ ▼ TransferQueue ← DCS 权重同步Rollout 和 Training 同时运行在不同 GPU 集群上通过 TransferQueue 流式交换数据通过 DCS 异步同步权重。GPU 利用率从 30-50% 提升到 70-90%。和 veRL / OpenRLHF 比有什么优势维度RelaxveRL / OpenRLHF架构服务化每个角色是独立 Ray Serve Deployment单体式架构训练模式支持 Fully Async完全并行串行/共享 GPUGPU 利用率70-90%异步并行30-50%串行等待多模态原生支持文本图像视频音频有限支持权重同步DCSNCCL 广播与训练重叠共享内存或手动同步弹性扩缩HTTP API 动态增减推理引擎固定配置核心差异Relax 是第一个将训练-推理完全解耦做到产品级的开源框架。veRL 也有异步思路但没有 TransferQueue DCS 这套完整的数据流和权重同步机制。

更多文章

前端开发 2026/4/17 6:22:00

Figma设计数据双向转换：如何实现设计文件与JSON格式的高效互转

Figma设计数据双向转换：如何实现设计文件与JSON格式的高效互转【免费下载链接】figma-to-json 💾 Read/Write Figma Files as JSON 项目地址: https://gitcode.com/gh_mirrors/fi/figma-to-json 在当今设计驱动开发的生态系统中，Figm…

上一篇文章我们学习了 Nacos 的基本使用，很多小伙伴私信我说："单机 Nacos 用着挺香的，但是万一挂了怎么办？"确实，单机 Nacos 存在两个致命问题：数据丢失：Nacos 默认用嵌入式数据库 De…

张开发

前端开发 2026/4/17 6:06:12

GLM-4.1V-9B-Base快速部署：免conda环境+预加载模型的轻量级方案

GLM-4.1V-9B-Base快速部署：免conda环境预加载模型的轻量级方案 1. 模型概述 GLM-4.1V-9B-Base是智谱开源的一款视觉多模态理解模型，专为图像内容分析任务设计。这个9B参数的模型在中文视觉理解任务上表现出色，能够准确识别图片内容、描述场…

张开发

小红书开源高性能多模态强化学习框架Relax

最新文章

OpenVAS_gsm_4.3.14在VirtualBox中的部署与配置指南

Ubuntu 22.04离线部署Vivado 2023.1：从镜像准备到环境验证的完整指南

2026 年 K12 英语小程序测评：凭什么成为家长首选？

HunyuanVideo-Foley部署案例：影视工作室私有化音效生成平台建设

从淘宝广告数据里，我发现了凌晨5点的流量密码：一份给运营的Pyecharts可视化分析报告

雷军再次回应“1300 公里中间只充一次电”

推荐文章

ATCODER ABC C题解济

英雄联盟智能辅助工具League Akari：让你轻松成为游戏高手 [特殊字符]✨

同城预约上门服务系统源码：从技术架构到落地实践的深度剖析

PyTorch学习率调度器实战：从基础到高级策略全解析

python开发之路【第四章】：python程序流程控制督

跑得越慢反而越牛？你的身体其实在偷偷“扩容带宽”

相关文章

无损音乐下载与高品质音频管理：tidal-dl-ng的核心能力探索

LyricsX：让歌词如影随形的桌面歌词助手

如何利用自动化抢票工具突破大麦网90%的抢票失败率：从绝望到成功的完整指南

电子设计竞赛必备：RC、运放、TTL信号处理电路实战指南（附避坑技巧）

从RoboMaster到智能仓储：深入聊聊麦克纳姆轮底盘的那些‘坑’与最佳实践

libhv实战：从零构建一个高效的WebSocket客户端

分享文章

更多文章

Figma设计数据双向转换：如何实现设计文件与JSON格式的高效互转

Day01 实战学习计划｜阿里云ACP大模型解决方案专家

GTE-Base-ZH模型管理利器：ComfyUI可视化工作流搭建

辉夜巫女AI绘画落地案例：Z-Image-Turbo镜像在中小企业内容创作中的应用

风雪高原，稳如磐石灼识熔接机高海拔挑战实录

STC89C52单片机+LCD1602：手把手教你做一个低成本电机转速表（附完整代码）

避开矩阵论学习中的那些“坑”：关于最小多项式、广义逆与向量化算子的常见误区解析

Windows Defender Remover：彻底释放系统性能的专业解决方案

2026年集团办公软件哪家口碑好？上海集团办公软件推荐

Python 协程池限速调度机制

Nacos 进阶：持久化 + 集群搭建，让你的服务稳如老狗！

GLM-4.1V-9B-Base快速部署：免conda环境+预加载模型的轻量级方案