找找AI 原创出品 技术

旋转位置编码的外推能力增强:NTK缩放与YaRN

原创标识

技术领域:位置编码 / 长文本外推REW找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

RoPE(Rotary Position Embedding)当前占据主导地位,但直接外推到训练长度之外的文本时,注意力分数会异常升高(称为“注意力熵崩溃”)。以下两种方法可让RoPE支持数倍于训练长度的上下文。REW找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • NTK感知缩放:核心观察是RoPE的高频维度(旋转速度快)在长距离外推时变化过于剧烈,导致相对位置信息失准。NTK(神经正切核)方法对不同维度使用不同的缩放因子:REW找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

    • 低频维度(低索引i)分配更小的缩放因子(接近1),保持远距离感知能力。REW找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

    • 高频维度(高索引i)分配更大的缩放因子(如√(L_test/L_train)),使旋转角度随位置变化更平缓。REW找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
      具体实现:将原始RoPE的基值θ_i = 10000^{-2i/d} 修改为 θ'_i = θ_i * (λ)^{2i/d},其中λ = L_test/L_train。高频i对应大指数,因此被拉伸更明显。REW找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • YaRN(Yet another RoPE extensioN):在NTK基础上增加两个技巧:REW找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

    1. 温度系数:对注意力分数量子除以一个温度参数t(通常t∈[0.1, 0.5]),使软最大值更平坦,缓解外推时的注意力尖峰。REW找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

    2. 长度插值微调:用少量长文本数据(500~2000步)继续训练模型,损失函数中加入外推位置的自适应权重。REW找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
      YaRN能将训练长度为2k的模型无损扩展到128k,在困惑度测试中优于直接NTK约0.3 PPL。REW找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • 混合位置编码:将RoPE与ALiBi(AliBi通过相对距离减法偏置注意力)结合。在低层使用RoPE(保留相对旋转信息),高层使用ALiBi偏置项(增强距离单调性)。这种混合设计对超长外推(>1M)尤其有效。REW找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • 注意力logits的温度调节:外推时,计算每个位置的相对距离d,对注意力logits乘以 1 / sqrt(1 + γ * (d / L_train)^2),其中γ是可调参数(默认1.0)。这种软性缩放降低了远距离token之间的相关性,避免模型对未见过的位置过度自信。REW找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • 实践基准:对于训练长度为4k的模型,若需外推至32k:优先尝试YaRN(缩放因子λ=8,温度t=0.2),配合500步微调,无额外数据时F1分数保持在原始内插范围的97%以上。REW找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

AI问答

国内AI最近犯过什么事儿吗?
说出来你可能不信,已经有人因为AI亏钱而在法院起诉了。
听说AI又在安全上捅娄子了?
这几天的安全新闻一个比一个惊悚。
有没有什么牛X的新模型发布?
看几个硬指标:编程测试SWE-Bench Pro,它直接干到了69.2% ,比GPT-5.5的58.6%高出10个百分点;金融分析测试也是53.9% ,同样领先所有对手。更狠的是,不但性能上去了,快速模式的速度快了一倍多,成本直接砍到原来的三分之一。
不听不听,我就想知道OpenAI权斗和马斯克互撕的大结局是啥?
前CTO Mira Murati出庭作证,对着奥特曼就是一顿锤。她直接在法庭上说,奥特曼在模型安全审批上误导过她,还说此人有个“大招”——给不同高管传递不同版本的事实,让大家谁都没法掌握全貌,决策权永远回到他自己手里。这不是外人瞎编,是亲信在法庭上当着全世界说的。
AI安全最近又出新问题了?听说有人用AI换脸直接盗号了?
对,而且是真事儿,5月30号央视刚曝出来的。一家国内公司好好的账号突然自己发了一篇“即将停更”的公告,后台密码也改了,连法人信息都被人篡改了。最后查出来,是有人伪造了以假乱真的动态“AI人脸”视频,直接骗过了平台的身份验证系统,顺利登陆进去了。
嵌入向量:AI把文字转换成数字的秘密
AI不认识文字,它只认识数字。为了让AI处理语言,第一步必须把每个字或词转换成一串数字,这串数字叫嵌入向量。
微调是怎样让通用模型变成专家模型的
一个通用大模型什么都能聊几句,但让它在某个专业领域表现得像专家,就需要做微调。微调的原理是:在已经训练好的模型基础上,用少量专业数据继续训练一小段时间。
为什么模型越大效果越好?
AI圈有一个经验规律:模型参数量每增加10倍,性能会稳定提升。这被称为规模定律。但为什么大模型就一定更聪明呢?
Transformer中的注意力机制是怎么“注意”的
大模型的核心技术叫注意力机制。简单说,模型在读一段文字时,会给每个词分配不同的“关注程度”。
查看更多问答 →