找找AI 原创出品技术

谷歌Gemini Omni：世界模型从“感知”到“物理模拟”的架构跃迁

原创标识

2026年5月20日的Google I/O大会上，谷歌发布了Gemini Omni，将其定义为“世界模型”向前迈出的关键一步——AI正从预测文本转向模拟现实。Omni构建在全模态架构基础之上，融合了谷歌三大核心技术底座：Gemini基座模型的理解能力、Nano Banana的图像生成能力、Veo的视频生成能力。

对物理定律的直观理解是本质性突破。传统视频生成模型本质上是对像素分布的高度拟合，缺乏对物理世界运行规律的深层建模。当用户输入“一个球从坡道上滚下”的提示时，传统模型可能输出视觉上合理的画面，但无法保证球的运动轨迹符合牛顿力学。Omni的突破在于其训练目标从“像素拟合”转向了“物理规律学习”——模型能够自主理解并模拟动能、重力、接触力学等物理属性，不仅能生成具有准确物理特性的视频，还支持用户通过对话直接对视频元素进行二次编辑。例如，给Omni提示词“蛋白质折叠的解说”，模型直接生成了讲解蛋白质如何从氨基酸链折叠成α螺旋、最终形成三维结构的视频，这一视频不是从素材库中拼接的，而是基于模型训练中积累的生化知识直接生成的。

全模态统一表征的底层重构。 Omni在基础模型层面实现了图像、音频、视频、文本等异构数据的底层融合训练，训练目标也区别于传统的LLM自回归预测。在模型评估阶段，团队需要同时运行视频生成、视频编辑、图像生成、文本对齐、音频同步五条独立的评估管线，体现了模型在物理认知与多模态生成上的全域覆盖能力。

AI问答

国内AI最近犯过什么事儿吗？

说出来你可能不信，已经有人因为AI亏钱而在法院起诉了。

听说AI又在安全上捅娄子了？

这几天的安全新闻一个比一个惊悚。

有没有什么牛X的新模型发布？

看几个硬指标：编程测试SWE-Bench Pro，它直接干到了69.2% ，比GPT-5.5的58.6%高出10个百分点；金融分析测试也是53.9% ，同样领先所有对手。更狠的是，不但性能上去了，快速模式的速度快了一倍多，成本直接砍到原来的三分之一。

不听不听，我就想知道OpenAI权斗和马斯克互撕的大结局是啥？

前CTO Mira Murati出庭作证，对着奥特曼就是一顿锤。她直接在法庭上说，奥特曼在模型安全审批上误导过她，还说此人有个“大招”——给不同高管传递不同版本的事实，让大家谁都没法掌握全貌，决策权永远回到他自己手里。这不是外人瞎编，是亲信在法庭上当着全世界说的。

AI安全最近又出新问题了？听说有人用AI换脸直接盗号了？

对，而且是真事儿，5月30号央视刚曝出来的。一家国内公司好好的账号突然自己发了一篇“即将停更”的公告，后台密码也改了，连法人信息都被人篡改了。最后查出来，是有人伪造了以假乱真的动态“AI人脸”视频，直接骗过了平台的身份验证系统，顺利登陆进去了。

嵌入向量：AI把文字转换成数字的秘密

AI不认识文字，它只认识数字。为了让AI处理语言，第一步必须把每个字或词转换成一串数字，这串数字叫嵌入向量。

微调是怎样让通用模型变成专家模型的

一个通用大模型什么都能聊几句，但让它在某个专业领域表现得像专家，就需要做微调。微调的原理是：在已经训练好的模型基础上，用少量专业数据继续训练一小段时间。

为什么模型越大效果越好？

AI圈有一个经验规律：模型参数量每增加10倍，性能会稳定提升。这被称为规模定律。但为什么大模型就一定更聪明呢？

Transformer中的注意力机制是怎么“注意”的

大模型的核心技术叫注意力机制。简单说，模型在读一段文字时，会给每个词分配不同的“关注程度”。

查看更多问答 →