找找AI 原创出品 技术

分层循环模型HRM-Text:用极少量计算颠覆Transformer预训练范式

原创标识

大语言模型的预训练正越来越依赖少数拥有充足算力和数据资源的机构。训练一个有竞争力的基础模型,往往需要数万亿token、数千张GPU,甚至上千万美元的算力投入。然而,当前的训练模式并不高效,大量计算都消耗在了提示词、格式填充等无关内容上。ghH找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
ghH找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
清华团队提出的分层循环模型HRM-Text重新设计了架构和训练目标。该模型采用双时间尺度的分层结构,把计算拆分为慢速的H模块和快速的L模块。标准Transformer对每个token只做一次前向传播,HRM则会在同一token上进行多轮递归更新,在不增加参数量的前提下提高了计算深度。训练目标也不再沿用标准的全文自回归预训练,而是直接在指令-回答对上训练,只对回答部分计算损失,并配合PrefixLM掩码,让指令部分双向注意、回答部分按因果掩码生成。ghH找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
ghH找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
为了提升递归训练的稳定性,研究团队引入了MagicNorm和Warmup Deep Credit Assignment。MagicNorm是一种混合归一化策略,利用截断反向传播下前向与反向计算深度的不对称性,在模块内部采用PreNorm并在模块出口额外加入归一化,从而提升深层递归训练的稳定性。Warmup Deep Credit Assignment则在训练初期仅对最后2个递归步骤回传梯度,随后线性扩展至最后5步,让模型在较短的信用路径上稳定收敛,再逐步引入更长的依赖关系。ghH找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
ghH找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
实验结果表明,在仅使用比标准模型少约100至900倍的训练token、96至432倍的估计计算量的情况下,HRM-Text依然实现了可媲美2B至7B参数开源模型的性能表现。使用1B参数、40B非重复token,并以约1500美元的训练成本,该模型在MMLU、ARC-C、GSM8K等基准测试上分别取得了60.7%、81.9%、84.5%的成绩。

AI问答

国内AI最近犯过什么事儿吗?
说出来你可能不信,已经有人因为AI亏钱而在法院起诉了。
听说AI又在安全上捅娄子了?
这几天的安全新闻一个比一个惊悚。
有没有什么牛X的新模型发布?
看几个硬指标:编程测试SWE-Bench Pro,它直接干到了69.2% ,比GPT-5.5的58.6%高出10个百分点;金融分析测试也是53.9% ,同样领先所有对手。更狠的是,不但性能上去了,快速模式的速度快了一倍多,成本直接砍到原来的三分之一。
不听不听,我就想知道OpenAI权斗和马斯克互撕的大结局是啥?
前CTO Mira Murati出庭作证,对着奥特曼就是一顿锤。她直接在法庭上说,奥特曼在模型安全审批上误导过她,还说此人有个“大招”——给不同高管传递不同版本的事实,让大家谁都没法掌握全貌,决策权永远回到他自己手里。这不是外人瞎编,是亲信在法庭上当着全世界说的。
AI安全最近又出新问题了?听说有人用AI换脸直接盗号了?
对,而且是真事儿,5月30号央视刚曝出来的。一家国内公司好好的账号突然自己发了一篇“即将停更”的公告,后台密码也改了,连法人信息都被人篡改了。最后查出来,是有人伪造了以假乱真的动态“AI人脸”视频,直接骗过了平台的身份验证系统,顺利登陆进去了。
嵌入向量:AI把文字转换成数字的秘密
AI不认识文字,它只认识数字。为了让AI处理语言,第一步必须把每个字或词转换成一串数字,这串数字叫嵌入向量。
微调是怎样让通用模型变成专家模型的
一个通用大模型什么都能聊几句,但让它在某个专业领域表现得像专家,就需要做微调。微调的原理是:在已经训练好的模型基础上,用少量专业数据继续训练一小段时间。
为什么模型越大效果越好?
AI圈有一个经验规律:模型参数量每增加10倍,性能会稳定提升。这被称为规模定律。但为什么大模型就一定更聪明呢?
Transformer中的注意力机制是怎么“注意”的
大模型的核心技术叫注意力机制。简单说,模型在读一段文字时,会给每个词分配不同的“关注程度”。
查看更多问答 →