找找AI 原创出品 技术

人类反馈强化学习中的奖励建模与策略优化

原创标识

技术领域:RLHF / 对齐技术Mnn找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

RLHF使大模型能够遵循人类偏好。其技术链条包括偏好收集、奖励建模、强化学习优化三个核心环节。Mnn找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • 偏好数据建模:收集人类对两个模型输出的比较结果(A优于B、B优于A、平局)。常用的偏好模型是Bradley-Terry模型:Mnn找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

     
    P(A胜于B) = σ(r(A) - r(B))

    其中σ是sigmoid函数,r(·)是奖励模型的标量输出。训练时最大化偏好数据的对数似然:Mnn找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

     
    L_R = - Σ log σ(r(win) - r(lose))
  • 奖励模型架构:通常从基座模型(如LLaMA、Qwen)的最后一个Transformer层之上添加一个线性头,输出标量奖励。为了稳定训练,奖励模型与基座模型共享大部分参数,仅在头部进行微调。另外,常用技巧是加入边际(margin)项——当对比结果较接近时,强制让奖励差大于某个阈值,防止模型对模糊偏好过度拟合。Mnn找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • 强化学习算法:PPO:使用近端策略优化(Proximal Policy Optimization)优化语言模型策略π。损失函数包含三部分:Mnn找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

    • 奖励项E[ r(x, y) - baseline ],基线常采用价值网络的输出或移动平均。Mnn找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

    • KL散度惩罚β * KL(π || π_ref),防止模型偏离原始分布太远。β在训练中动态调整:当KL超出目标范围,β增大;低于范围,β减小。Mnn找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

    • 策略裁剪:限制新旧策略的概率比在 [1-ε, 1+ε] 内,默认ε=0.2。Mnn找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • 替代方法:DPO:直接偏好优化(Direct Preference Optimization)绕过了奖励模型,将偏好学习转化为二分类问题。其损失函数为:Mnn找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

     
    L_DPO = -log σ( β * ( log(π(y_win|x)/π_ref(y_win|x)) - log(π(y_lose|x)/π_ref(y_lose|x)) ) )

    优点是不需要训练单独的奖励模型和价值网络,节省显存和训练稳定性,但在偏好数据质量较差时性能低于PPO。Mnn找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • 实践调参要点:RLHF对超参数敏感。学习率通常设为1e-6(比SFT低一个数量级);KL惩罚系数β初始值0.1,每100步检查KL值,若超过6则加倍β;PPO的mini-batch大小设置为32~64,避免模型遗忘原始能力。Mnn找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

AI问答

国内AI最近犯过什么事儿吗?
说出来你可能不信,已经有人因为AI亏钱而在法院起诉了。
听说AI又在安全上捅娄子了?
这几天的安全新闻一个比一个惊悚。
有没有什么牛X的新模型发布?
看几个硬指标:编程测试SWE-Bench Pro,它直接干到了69.2% ,比GPT-5.5的58.6%高出10个百分点;金融分析测试也是53.9% ,同样领先所有对手。更狠的是,不但性能上去了,快速模式的速度快了一倍多,成本直接砍到原来的三分之一。
不听不听,我就想知道OpenAI权斗和马斯克互撕的大结局是啥?
前CTO Mira Murati出庭作证,对着奥特曼就是一顿锤。她直接在法庭上说,奥特曼在模型安全审批上误导过她,还说此人有个“大招”——给不同高管传递不同版本的事实,让大家谁都没法掌握全貌,决策权永远回到他自己手里。这不是外人瞎编,是亲信在法庭上当着全世界说的。
AI安全最近又出新问题了?听说有人用AI换脸直接盗号了?
对,而且是真事儿,5月30号央视刚曝出来的。一家国内公司好好的账号突然自己发了一篇“即将停更”的公告,后台密码也改了,连法人信息都被人篡改了。最后查出来,是有人伪造了以假乱真的动态“AI人脸”视频,直接骗过了平台的身份验证系统,顺利登陆进去了。
嵌入向量:AI把文字转换成数字的秘密
AI不认识文字,它只认识数字。为了让AI处理语言,第一步必须把每个字或词转换成一串数字,这串数字叫嵌入向量。
微调是怎样让通用模型变成专家模型的
一个通用大模型什么都能聊几句,但让它在某个专业领域表现得像专家,就需要做微调。微调的原理是:在已经训练好的模型基础上,用少量专业数据继续训练一小段时间。
为什么模型越大效果越好?
AI圈有一个经验规律:模型参数量每增加10倍,性能会稳定提升。这被称为规模定律。但为什么大模型就一定更聪明呢?
Transformer中的注意力机制是怎么“注意”的
大模型的核心技术叫注意力机制。简单说,模型在读一段文字时,会给每个词分配不同的“关注程度”。
查看更多问答 →