找找AI 原创出品技术

人类反馈强化学习中的奖励建模与策略优化

原创标识

技术领域：RLHF / 对齐技术

RLHF使大模型能够遵循人类偏好。其技术链条包括偏好收集、奖励建模、强化学习优化三个核心环节。

偏好数据建模：收集人类对两个模型输出的比较结果（A优于B、B优于A、平局）。常用的偏好模型是Bradley-Terry模型：
```
P(A胜于B) = σ(r(A) - r(B))
```
其中σ是sigmoid函数，r(·)是奖励模型的标量输出。训练时最大化偏好数据的对数似然：
```
L_R = - Σ log σ(r(win) - r(lose))
```
奖励模型架构：通常从基座模型（如LLaMA、Qwen）的最后一个Transformer层之上添加一个线性头，输出标量奖励。为了稳定训练，奖励模型与基座模型共享大部分参数，仅在头部进行微调。另外，常用技巧是加入边际（margin）项——当对比结果较接近时，强制让奖励差大于某个阈值，防止模型对模糊偏好过度拟合。
强化学习算法：PPO：使用近端策略优化（Proximal Policy Optimization）优化语言模型策略π。损失函数包含三部分：
- 奖励项：E[ r(x, y) - baseline ]，基线常采用价值网络的输出或移动平均。
- KL散度惩罚：β * KL(π || π_ref)，防止模型偏离原始分布太远。β在训练中动态调整：当KL超出目标范围，β增大；低于范围，β减小。
- 策略裁剪：限制新旧策略的概率比在 [1-ε, 1+ε] 内，默认ε=0.2。
替代方法：DPO：直接偏好优化（Direct Preference Optimization）绕过了奖励模型，将偏好学习转化为二分类问题。其损失函数为：
```
L_DPO = -log σ( β * ( log(π(y_win|x)/π_ref(y_win|x)) - log(π(y_lose|x)/π_ref(y_lose|x)) ) )
```
优点是不需要训练单独的奖励模型和价值网络，节省显存和训练稳定性，但在偏好数据质量较差时性能低于PPO。
实践调参要点：RLHF对超参数敏感。学习率通常设为1e-6（比SFT低一个数量级）；KL惩罚系数β初始值0.1，每100步检查KL值，若超过6则加倍β；PPO的mini-batch大小设置为32~64，避免模型遗忘原始能力。