人类反馈强化学习中的奖励建模与策略优化
技术领域:RLHF / 对齐技术
RLHF使大模型能够遵循人类偏好。其技术链条包括偏好收集、奖励建模、强化学习优化三个核心环节。
-
偏好数据建模:收集人类对两个模型输出的比较结果(A优于B、B优于A、平局)。常用的偏好模型是Bradley-Terry模型:
P(A胜于B) = σ(r(A) - r(B))
其中σ是sigmoid函数,r(·)是奖励模型的标量输出。训练时最大化偏好数据的对数似然:
L_R = - Σ log σ(r(win) - r(lose))
-
奖励模型架构:通常从基座模型(如LLaMA、Qwen)的最后一个Transformer层之上添加一个线性头,输出标量奖励。为了稳定训练,奖励模型与基座模型共享大部分参数,仅在头部进行微调。另外,常用技巧是加入边际(margin)项——当对比结果较接近时,强制让奖励差大于某个阈值,防止模型对模糊偏好过度拟合。
-
强化学习算法:PPO:使用近端策略优化(Proximal Policy Optimization)优化语言模型策略π。损失函数包含三部分:
-
奖励项:
E[ r(x, y) - baseline ],基线常采用价值网络的输出或移动平均。 -
KL散度惩罚:
β * KL(π || π_ref),防止模型偏离原始分布太远。β在训练中动态调整:当KL超出目标范围,β增大;低于范围,β减小。 -
策略裁剪:限制新旧策略的概率比在
[1-ε, 1+ε]内,默认ε=0.2。
-
-
替代方法:DPO:直接偏好优化(Direct Preference Optimization)绕过了奖励模型,将偏好学习转化为二分类问题。其损失函数为:
L_DPO = -log σ( β * ( log(π(y_win|x)/π_ref(y_win|x)) - log(π(y_lose|x)/π_ref(y_lose|x)) ) )
优点是不需要训练单独的奖励模型和价值网络,节省显存和训练稳定性,但在偏好数据质量较差时性能低于PPO。
-
实践调参要点:RLHF对超参数敏感。学习率通常设为1e-6(比SFT低一个数量级);KL惩罚系数β初始值0.1,每100步检查KL值,若超过6则加倍β;PPO的mini-batch大小设置为32~64,避免模型遗忘原始能力。