找找AI 原创出品技术

利用文生图扩散模型实现无监督视觉目标跟踪

原创标识

无监督视觉目标跟踪要求在视频中跟踪任意目标，但训练过程中不使用任何人工标注的真值框。这一任务的核心挑战在于，模型仅凭第一帧给定的目标外观，就需在整个后续视频序列中持续定位该目标。现有无监督跟踪器在需要细粒度理解视频帧中语义和视觉结构信息的场景下表现不佳。

文生图扩散模型以其精准反映输入文本中描述的语义和结构的能力而闻名。这类模型通过交叉注意力机制建立了文本与图像之间的桥梁：当同时输入文本和图像时，交叉注意力图会高亮显示图像中与文本语义对齐的区域。基于这一原理，Diff-Tracking方法将预训练文生图扩散模型重新解释为文本与图像模态之间的连接器，从而实现无监督目标跟踪。

该方法包含两个主要组件：初始提示学习器和在线提示更新器。初始提示学习器根据第一帧的目标对象生成一个提示向量，使扩散模型能够识别出该目标。在线提示更新器则基于运动信息不断优化该提示，确保模型能够跨视频帧持续跟踪目标。将跟踪任务转化为“学习一个能激活目标对应区域的提示”这一问题后，预训练扩散模型中的丰富语义知识得到了充分利用。该方法在六个具有挑战性的跟踪数据集上进行了评估，结果验证了其有效性。

AI问答

国内AI最近犯过什么事儿吗？

说出来你可能不信，已经有人因为AI亏钱而在法院起诉了。

听说AI又在安全上捅娄子了？

这几天的安全新闻一个比一个惊悚。

有没有什么牛X的新模型发布？

看几个硬指标：编程测试SWE-Bench Pro，它直接干到了69.2% ，比GPT-5.5的58.6%高出10个百分点；金融分析测试也是53.9% ，同样领先所有对手。更狠的是，不但性能上去了，快速模式的速度快了一倍多，成本直接砍到原来的三分之一。

不听不听，我就想知道OpenAI权斗和马斯克互撕的大结局是啥？

前CTO Mira Murati出庭作证，对着奥特曼就是一顿锤。她直接在法庭上说，奥特曼在模型安全审批上误导过她，还说此人有个“大招”——给不同高管传递不同版本的事实，让大家谁都没法掌握全貌，决策权永远回到他自己手里。这不是外人瞎编，是亲信在法庭上当着全世界说的。

AI安全最近又出新问题了？听说有人用AI换脸直接盗号了？

对，而且是真事儿，5月30号央视刚曝出来的。一家国内公司好好的账号突然自己发了一篇“即将停更”的公告，后台密码也改了，连法人信息都被人篡改了。最后查出来，是有人伪造了以假乱真的动态“AI人脸”视频，直接骗过了平台的身份验证系统，顺利登陆进去了。

嵌入向量：AI把文字转换成数字的秘密

AI不认识文字，它只认识数字。为了让AI处理语言，第一步必须把每个字或词转换成一串数字，这串数字叫嵌入向量。

微调是怎样让通用模型变成专家模型的

一个通用大模型什么都能聊几句，但让它在某个专业领域表现得像专家，就需要做微调。微调的原理是：在已经训练好的模型基础上，用少量专业数据继续训练一小段时间。

为什么模型越大效果越好？

AI圈有一个经验规律：模型参数量每增加10倍，性能会稳定提升。这被称为规模定律。但为什么大模型就一定更聪明呢？

Transformer中的注意力机制是怎么“注意”的

大模型的核心技术叫注意力机制。简单说，模型在读一段文字时，会给每个词分配不同的“关注程度”。

查看更多问答 →