找找AI 原创出品 技术

推理阶段键值缓存压缩算法:面向超长上下文的多头潜在注意力

原创标识

技术领域:长上下文推理 / 注意力机制xy0找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
xy0找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
大模型处理超长序列(>100万tokens)时,键值缓存(KV Cache)占用的显存会超过模型权重本身。多头潜在注意力(MLA)及其衍生压缩算法是目前的主流解法:xy0找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
xy0找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
核心思想:传统多头注意力的每个头都存储独立的K和V,产生 seq_len × num_heads × head_dim 的缓存。MLA对K和V做低秩分解:先压缩到一个低维潜在向量 c = W_down @ [K; V](维度从 d_model 降至 r,通常 r = d_model/8),再从潜在向量解压出各头的K、V。xy0找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
xy0找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
推理流程:xy0找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
xy0找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
每生成一个新token,只计算该token对应的 c_new。xy0找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
将 c_new 追加到潜在向量的缓存中,缓存量仅为原方案的1/8。xy0找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
从所有已缓存的 c 中动态恢复各头的K、V用于注意力计算。xy0找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
实际压缩比:对于32头、head_dim=128的模型,原KV缓存大小为 seq × 32 × 128 × 2。MLA压缩后为 seq × (d_model/8),以d_model=4096为例,压缩比达到 (32×128×2) / (4096/8) = 8192 / 512 = 16倍。xy0找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
xy0找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
注意力误差:由于压缩与解压均为线性投影,恢复后的K、V与原始的余弦相似度可保持在0.98以上。长序列任务(如文档问答)的准确率损失小于2%。xy0找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
xy0找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
硬件友好:压缩后的缓存是连续的向量序列,访存模式规整,在GPU上可实现更高的带宽利用率。xy0找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
xy0找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
该技术是如今百万级上下文窗口模型能够落地推理的核心工程突破。

AI问答

国内AI最近犯过什么事儿吗?
说出来你可能不信,已经有人因为AI亏钱而在法院起诉了。
听说AI又在安全上捅娄子了?
这几天的安全新闻一个比一个惊悚。
有没有什么牛X的新模型发布?
看几个硬指标:编程测试SWE-Bench Pro,它直接干到了69.2% ,比GPT-5.5的58.6%高出10个百分点;金融分析测试也是53.9% ,同样领先所有对手。更狠的是,不但性能上去了,快速模式的速度快了一倍多,成本直接砍到原来的三分之一。
不听不听,我就想知道OpenAI权斗和马斯克互撕的大结局是啥?
前CTO Mira Murati出庭作证,对着奥特曼就是一顿锤。她直接在法庭上说,奥特曼在模型安全审批上误导过她,还说此人有个“大招”——给不同高管传递不同版本的事实,让大家谁都没法掌握全貌,决策权永远回到他自己手里。这不是外人瞎编,是亲信在法庭上当着全世界说的。
AI安全最近又出新问题了?听说有人用AI换脸直接盗号了?
对,而且是真事儿,5月30号央视刚曝出来的。一家国内公司好好的账号突然自己发了一篇“即将停更”的公告,后台密码也改了,连法人信息都被人篡改了。最后查出来,是有人伪造了以假乱真的动态“AI人脸”视频,直接骗过了平台的身份验证系统,顺利登陆进去了。
嵌入向量:AI把文字转换成数字的秘密
AI不认识文字,它只认识数字。为了让AI处理语言,第一步必须把每个字或词转换成一串数字,这串数字叫嵌入向量。
微调是怎样让通用模型变成专家模型的
一个通用大模型什么都能聊几句,但让它在某个专业领域表现得像专家,就需要做微调。微调的原理是:在已经训练好的模型基础上,用少量专业数据继续训练一小段时间。
为什么模型越大效果越好?
AI圈有一个经验规律:模型参数量每增加10倍,性能会稳定提升。这被称为规模定律。但为什么大模型就一定更聪明呢?
Transformer中的注意力机制是怎么“注意”的
大模型的核心技术叫注意力机制。简单说,模型在读一段文字时,会给每个词分配不同的“关注程度”。
查看更多问答 →