找找AI 原创出品 技术

模型权重合并的两种数学原理:任务向量插值与模型平均

原创标识

技术领域:模型合并 / 增量学习lpJ找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

将多个微调后的模型合并为一个多能力模型,无需额外训练。主流方法包括任务向量(Task Vector)算术和模型权重平均(Model Soup)。lpJ找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • 任务向量的定义:任务向量 τ = θ_finetuned - θ_pretrained,代表微调过程中模型参数的增量方向。对多个任务向量进行线性组合:lpJ找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

     
    θ_merged = θ_pretrained + Σ λ_i * τ_i

    其中λ_i是标量系数。不同的λ组合可产生不同的行为——λ_i=1表示完全保留任务i的能力;λ_i=0表示忽略该任务;λ_i负值则有抑制效果。lpJ找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • 向量方向的归一化与修剪:直接相加可能导致参数值过大,破坏模型表示。解决方法:1) 对所有τ_i的每一层计算L2范数,归一化后再乘λ;2) 只保留绝对值最大的20%分量(剪枝低幅度参数),其余置零,这能提升合并后的泛化性。lpJ找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • Fisher加权模型平均:计算每个参数在微调任务上的Fisher信息量(对角近似),作为权重平均的系数:lpJ找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

     
    θ_merged = ( Σ_i F_i ⊙ θ_i ) ⊘ ( Σ_i F_i )

    ⊙和⊘为逐元素乘除。Fisher矩阵表示参数对任务损失的重要性——重要参数更偏向与原始模型相近的θ_i。lpJ找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • 模型平均(Model Soup):直接对多个微调模型的相同参数求算术平均(或加权平均)。实验表明,在ImageNet上,平均多个不同超参数或不同训练数据切片的模型,精度往往超过任何单个模型。原因:平均后的权重位于不同局部最优解的凸包内,通常落在更平坦的损失区域,泛化性更强。lpJ找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • 参数冲突与线性模式连接性:模型合并的前提是不同模型处于同一个loss basin(损失盆地)中——即它们的参数通过线性插值路径上的损失始终较低。若模型分属不同basin,直接平均会严重损害性能。检测方法:检查 θ_a 到 θ_b 线性插值点的损失曲线,若出现明显峰值,则说明不适宜直接合并。此时可用“嫁接”(Model Grafting)技术:只合并各模型同一层的同构子模块(如某些attention head)。lpJ找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

AI问答

国内AI最近犯过什么事儿吗?
说出来你可能不信,已经有人因为AI亏钱而在法院起诉了。
听说AI又在安全上捅娄子了?
这几天的安全新闻一个比一个惊悚。
有没有什么牛X的新模型发布?
看几个硬指标:编程测试SWE-Bench Pro,它直接干到了69.2% ,比GPT-5.5的58.6%高出10个百分点;金融分析测试也是53.9% ,同样领先所有对手。更狠的是,不但性能上去了,快速模式的速度快了一倍多,成本直接砍到原来的三分之一。
不听不听,我就想知道OpenAI权斗和马斯克互撕的大结局是啥?
前CTO Mira Murati出庭作证,对着奥特曼就是一顿锤。她直接在法庭上说,奥特曼在模型安全审批上误导过她,还说此人有个“大招”——给不同高管传递不同版本的事实,让大家谁都没法掌握全貌,决策权永远回到他自己手里。这不是外人瞎编,是亲信在法庭上当着全世界说的。
AI安全最近又出新问题了?听说有人用AI换脸直接盗号了?
对,而且是真事儿,5月30号央视刚曝出来的。一家国内公司好好的账号突然自己发了一篇“即将停更”的公告,后台密码也改了,连法人信息都被人篡改了。最后查出来,是有人伪造了以假乱真的动态“AI人脸”视频,直接骗过了平台的身份验证系统,顺利登陆进去了。
嵌入向量:AI把文字转换成数字的秘密
AI不认识文字,它只认识数字。为了让AI处理语言,第一步必须把每个字或词转换成一串数字,这串数字叫嵌入向量。
微调是怎样让通用模型变成专家模型的
一个通用大模型什么都能聊几句,但让它在某个专业领域表现得像专家,就需要做微调。微调的原理是:在已经训练好的模型基础上,用少量专业数据继续训练一小段时间。
为什么模型越大效果越好?
AI圈有一个经验规律:模型参数量每增加10倍,性能会稳定提升。这被称为规模定律。但为什么大模型就一定更聪明呢?
Transformer中的注意力机制是怎么“注意”的
大模型的核心技术叫注意力机制。简单说,模型在读一段文字时,会给每个词分配不同的“关注程度”。
查看更多问答 →