023、RLHF实战:基于人类偏好数据微调大模型

张开发
2026/4/20 8:37:23 15 分钟阅读

分享文章

023、RLHF实战:基于人类偏好数据微调大模型
RLHF实战:基于人类偏好数据微调大模型一、凌晨三点的日志报错上周三深夜,盯着屏幕里这句输出发愣:KL散度爆炸了,当前值: nan,策略更新已终止。这已经是本周第三次在RLHF训练过程中遇到数值不稳定。项目里那个70亿参数的对话模型,在人类偏好数据上刚跑了不到100步,reward模型给出的分数就开始飘忽不定,接着KL惩罚项直接崩成NaN。团队里新来的同事小声问:“是不是reward模型没训好?”——他可能说对了一半,但RLHF的坑,从来不是单一原因挖成的。二、RLHF不是“三步走”,是动态平衡很多教程把RLHF简化成三步:监督微调(SFT)、奖励模型训练(RM)、强化学习优化(RL)。实际跑起来才发现,这三步是互相咬合的齿轮,任何一个齿歪了,整个系统就卡壳。监督微调阶段,我们常犯的错是“教得太细”。给模型喂太多人工编写的标准回答,反而让它失去了生成多样性。我习惯在这里加个温度系数监控:# 别这样写:温度固定死output=model.generate(input_ids,temperature=0.7)# 试试动态调整current_epoch=...temperature=max(0.3,

更多文章