Gemini Omni：Google的"世界模型"从概念变成产品了

今年的Google I/O 2026，Sundar Pichai和Demis Hassabis一起做了件有意思的事——他们把一个在AI圈讨论了好几年的学术概念，直接做成了产品，摆到了用户面前。

这个产品叫Gemini Omni。

如果你只看表面，可能会觉得”不就是个视频生成工具吗”。但这次真的不是。Omni的本质，是Google第一次把”世界模型”从论文里搬到了产品线上，而且它选择了一个很聪明的切入点——先用视频生成让你感受到这个东西的存在，再一步步扩展到其他模态。

世界模型到底是个什么东西

先说清楚概念。“世界模型”这个词，最早可以追溯到Yann LeCun的JEPA架构构想，后来被Google DeepMind的Genie项目不断推进。核心想法很简单但很野心：一个能理解物理世界运行规律的模型，不只是”看起来对”，而是”物理上说得通”。

举个具体例子。你让AI生成一个杯子从桌上掉下来的视频，早期模型可能会生成一个”杯子飘下去”的画面——没有加速度，没有重力感，碎裂的方式也不对。这不是画面的bug，是模型根本不懂物理。而世界模型要解决的，就是让AI在生成内容之前，先在内部”模拟”一遍物理过程——重力怎么作用、碰撞怎么发生、液体怎么流动。

Hassabis在I/O keynote上说得直白：Omni的设计目标是理解并模拟物理世界，这是迈向AGI的重要一步。注意他用的词不是”更好的视频”，是”模拟物理世界”。这是认知框架的升级，不是功能参数的堆叠。

Omni为什么不是Veo的升级版

Google之前有Veo做视频生成，有Imagen做图像生成，有Genie做交互式世界生成。Omni跟它们的关系不是替代，而是统合。

从技术架构上看，Omni把Gemini的推理能力（理解文本、分析场景、做逻辑判断）和Veo、Genie的渲染能力（生成视觉内容）融合到了一个统一模型里。结果就是一个”any-to-any”的架构——你可以扔给它文本、图片、音频、视频中的任意组合作为输入，它给你生成内容。首发的Omni Flash版本先从视频输出开始，但Google明确说了，后续会扩展到图像和文本生成。

这个设计选择的意味很深。当各种模态不再被分发到不同模型处理，而是在一个模型里统一理解、统一生成的时候，模型才真正有可能建立跨模态的”世界认知”。 比如你给它一张照片、一段背景音乐和一句文字描述，它不是分别处理这三个信号再拼在一起，而是在同一个表征空间里理解它们的关联，然后生成一段物理上说得通的视频。

这个区别听起来微妙，但它是”工具”和”世界模型”的分水岭。

物理推理才是真正的护城河

Omni最值得关注的点，其实不是”能从任意输入生成视频”这个卖点，而是它内置的物理推理能力。

根据Google展示的信息，Omni在生成视频时内置了对重力、流体力学、动力学等物理规律的理解。这意味着它生成的视频里，水会按正确的方式流动，物体会按正确的加速度坠落，碰撞会产生合理的形变和反弹。这不是靠数据量堆出来的——你见过的视频再多，不理解F=ma也生成不了物理正确的画面。这需要模型在内部构建某种对物理世界的近似模拟。

而物理推理能力一旦成立，应用的边界就远不止”生成好看的视频”了。Google在展示中提到了一个方向：Omni可以用来训练机器人和自动驾驶系统。因为一个能正确模拟物理世界的模型，本质上就是一个低成本、高保真的虚拟训练环境。Genie 3已经在做交互式世界生成了，Omni更像是在这条路上的产品化里程碑。

从学术概念到可用产品，这一步的跨越比很多人想象的要大。

产品的成熟度说明Google在认真对待

再说说产品层面的信号。Omni Flash首发放在了Gemini App、Google Flow和YouTube Shorts三个入口，不是放在某个实验性平台让你排队等邀请码。这说明Google不是在”发布论文”，是在”发布产品”。

10秒视频、自然语言编辑、自定义数字人头像——这些功能选择都很务实。特别是自然语言编辑这一点，你拍了一段视频，直接跟Omni说”把背景换成海滩”、“让这个人跑起来”，它就能改。这不是prompt engineering的胜利，是模型真正理解了视频内容之后的交互结果。

定价上，Omni包含在$20/月的AI Plus计划里，没有单独收费。这个策略很清晰：Google要的不是靠Omni赚钱，而是靠Omni把用户拉进Gemini生态。 世界模型是基础设施，不是利润中心。

判断：方向对了，但只是第一步

说了这么多，我的判断是这样的：Omni是一个正确的方向上迈出的真实一步，但还不是那个终点。

首先，Omni Flash目前只做视频输出，所谓的”any-to-any”还只是”anything-to-video”。真正的世界模型应该能生成任意模态的内容，这个还需要等后续版本。其次，物理推理的准确性能做到什么程度，现在还没有独立第三方的系统评测，Google自己说的”内置物理理解”需要打一个谨慎的问号。10秒视频也是一个比较保守的限制，虽然Google说这不是模型的上限，但用户体验就是体验。

但即便如此，Omni的意义在于它给出了一个信号：世界模型不再只是DeepMind研究人员的愿景PPT，它是可以在今天交付给普通用户使用的产品。 从论文概念到产品化，这中间的鸿沟不知道埋葬了多少好想法。Google跨过来了，跨得可能不算远，但方向很明确。

Hassabis说AGI”就在眼前”的时候，很多人觉得是PR话术。但如果把Omni放在更大的图景里看——Gemini 3.5在推理端的提升、Genie 3在交互世界上的推进、Gemini Robotics在具身智能上的布局——Google确实在从多个方向同时逼近同一个目标。

一个能理解物理世界、模拟物理世界、最终在物理世界中行动的AI。这就是世界模型要抵达的地方。

Omni是这条路上一块不大但很实的路标。