找找AI 原创出品
技术
三模式大语言模型:在自回归、扩散与自推测解码之间统一切换
原创标识
传统大语言模型主要采用自回归解码方式,逐字从左到右生成文本。这种模式准确率高,但在低并发场景下严重受限于内存带宽——每生成一个token都需要将海量模型权重从高带宽内存移动到缓存,GPU算力常常无法被充分利用。与之相对,扩散模型能够并行生成多个token,但由于训练时平等对待所有token位置,缺乏自回归模型天然的从左到右语言先验,生成质量一直落后。
英伟达提出的三模式大语言模型打破了这两种范式之间的隔阂。该模型在训练时同时优化自回归损失和扩散损失,采用两阶段训练策略,并引入全局损失平均技术,大幅降低了扩散模型训练中因随机掩码导致的梯度激增问题。训练完成后,模型在推理时无需修改架构或添加额外参数,只需简单更改注意力模式和掩码,即可在三种解码模式之间任意切换。
自回归模式下,模型保留完整的因果注意力机制,逐字生成,适合高并发、计算密集型的云端服务场景。扩散模式下,模型采用分块去噪策略,利用双流注意力机制在块内进行大规模并行token生成,token吞吐量最多可提升4倍。自推测解码模式则融合了两者优势:模型先利用自身的扩散模式并行起草多个候选token,再在自回归模式下使用相同的键值缓存对它们进行验证,既获得了扩散模型的并行生成速度,又保留了自回归模型的严格准确性。这一方法相比传统的Eagle或MTP方法具有更高的接受率,且无需额外权重即可获得更高的推理效率。
AI问答
国内AI最近犯过什么事儿吗?
说出来你可能不信,已经有人因为AI亏钱而在法院起诉了。
听说AI又在安全上捅娄子了?
这几天的安全新闻一个比一个惊悚。
有没有什么牛X的新模型发布?
看几个硬指标:编程测试SWE-Bench Pro,它直接干到了69.2% ,比GPT-5.5的58.6%高出10个百分点;金融分析测试也是53.9% ,同样领先所有对手。更狠的是,不但性能上去了,快速模式的速度快了一倍多,成本直接砍到原来的三分之一。
不听不听,我就想知道OpenAI权斗和马斯克互撕的大结局是啥?
前CTO Mira Murati出庭作证,对着奥特曼就是一顿锤。她直接在法庭上说,奥特曼在模型安全审批上误导过她,还说此人有个“大招”——给不同高管传递不同版本的事实,让大家谁都没法掌握全貌,决策权永远回到他自己手里。这不是外人瞎编,是亲信在法庭上当着全世界说的。
AI安全最近又出新问题了?听说有人用AI换脸直接盗号了?
对,而且是真事儿,5月30号央视刚曝出来的。一家国内公司好好的账号突然自己发了一篇“即将停更”的公告,后台密码也改了,连法人信息都被人篡改了。最后查出来,是有人伪造了以假乱真的动态“AI人脸”视频,直接骗过了平台的身份验证系统,顺利登陆进去了。
嵌入向量:AI把文字转换成数字的秘密
AI不认识文字,它只认识数字。为了让AI处理语言,第一步必须把每个字或词转换成一串数字,这串数字叫嵌入向量。
微调是怎样让通用模型变成专家模型的
一个通用大模型什么都能聊几句,但让它在某个专业领域表现得像专家,就需要做微调。微调的原理是:在已经训练好的模型基础上,用少量专业数据继续训练一小段时间。
为什么模型越大效果越好?
AI圈有一个经验规律:模型参数量每增加10倍,性能会稳定提升。这被称为规模定律。但为什么大模型就一定更聪明呢?
Transformer中的注意力机制是怎么“注意”的
大模型的核心技术叫注意力机制。简单说,模型在读一段文字时,会给每个词分配不同的“关注程度”。