今年的Google I/O 2026,Sundar Pichai和Demis Hassabis一起做了件有意思的事——他们把一个在AI圈讨论了好几年的学术概念,直接做成了产品,摆到了用户面前。
这个产品叫Gemini Omni。
如果你只看表面,可能会觉得”不就是个视频生成工具吗”。但这次真的不是。Omni的本质,是Google第一次把”世界模型”从论文里搬到了产品线上,而且它选择了一个很聪明的切入点——先用视频生成让你感受到这个东西的存在,再一步步扩展到其他模态。
世界模型到底是个什么东西
先说清楚概念。“世界模型”这个词,最早可以追溯到Yann LeCun的JEPA架构构想,后来被Google DeepMind的Genie项目不断推进。核心想法很简单但很野心:一个能理解物理世界运行规律的模型,不只是”看起来对”,而是”物理上说得通”。
举个具体例子。你让AI生成一个杯子从桌上掉下来的视频,早期模型可能会生成一个”杯子飘下去”的画面——没有加速度,没有重力感,碎裂的方式也不对。这不是画面的bug,是模型根本不懂物理。而世界模型要解决的,就是让AI在生成内容之前,先在内部”模拟”一遍物理过程——重力怎么作用、碰撞怎么发生、液体怎么流动。
Hassabis在I/O keynote上说得直白:Omni的设计目标是理解并模拟物理世界,这是迈向AGI的重要一步。注意他用的词不是”更好的视频”,是”模拟物理世界”。这是认知框架的升级,不是功能参数的堆叠。
Omni为什么不是Veo的升级版
Google之前有Veo做视频生成,有Imagen做图像生成,有Genie做交互式世界生成。Omni跟它们的关系不是替代,而是统合。
从技术架构上看,Omni把Gemini的推理能力(理解文本、分析场景、做逻辑判断)和Veo、Genie的渲染能力(生成视觉内容)融合到了一个统一模型里。结果就是一个”any-to-any”的架构——你可以扔给它文本、图片、音频、视频中的任意组合作为输入,它给你生成内容。首发的Omni Flash版本先从视频输出开始,但Google明确说了,后续会扩展到图像和文本生成。
这个设计选择的意味很深。当各种模态不再被分发到不同模型处理,而是在一个模型里统一理解、统一生成的时候,模型才真正有可能建立跨模态的”世界认知”。 比如你给它一张照片、一段背景音乐和一句文字描述,它不是分别处理这三个信号再拼在一起,而是在同一个表征空间里理解它们的关联,然后生成一段物理上说得通的视频。
这个区别听起来微妙,但它是”工具”和”世界模型”的分水岭。
物理推理才是真正的护城河
Omni最值得关注的点,其实不是”能从任意输入生成视频”这个卖点,而是它内置的物理推理能力。
根据Google展示的信息,Omni在生成视频时内置了对重力、流体力学、动力学等物理规律的理解。这意味着它生成的视频里,水会按正确的方式流动,物体会按正确的加速度坠落,碰撞会产生合理的形变和反弹。这不是靠数据量堆出来的——你见过的视频再多,不理解F=ma也生成不了物理正确的画面。这需要模型在内部构建某种对物理世界的近似模拟。
而物理推理能力一旦成立,应用的边界就远不止”生成好看的视频”了。Google在展示中提到了一个方向:Omni可以用来训练机器人和自动驾驶系统。因为一个能正确模拟物理世界的模型,本质上就是一个低成本、高保真的虚拟训练环境。Genie 3已经在做交互式世界生成了,Omni更像是在这条路上的产品化里程碑。
从学术概念到可用产品,这一步的跨越比很多人想象的要大。
产品的成熟度说明Google在认真对待
再说说产品层面的信号。Omni Flash首发放在了Gemini App、Google Flow和YouTube Shorts三个入口,不是放在某个实验性平台让你排队等邀请码。这说明Google不是在”发布论文”,是在”发布产品”。
10秒视频、自然语言编辑、自定义数字人头像——这些功能选择都很务实。特别是自然语言编辑这一点,你拍了一段视频,直接跟Omni说”把背景换成海滩”、“让这个人跑起来”,它就能改。这不是prompt engineering的胜利,是模型真正理解了视频内容之后的交互结果。
定价上,Omni包含在$20/月的AI Plus计划里,没有单独收费。这个策略很清晰:Google要的不是靠Omni赚钱,而是靠Omni把用户拉进Gemini生态。 世界模型是基础设施,不是利润中心。
判断:方向对了,但只是第一步
说了这么多,我的判断是这样的:Omni是一个正确的方向上迈出的真实一步,但还不是那个终点。
首先,Omni Flash目前只做视频输出,所谓的”any-to-any”还只是”anything-to-video”。真正的世界模型应该能生成任意模态的内容,这个还需要等后续版本。其次,物理推理的准确性能做到什么程度,现在还没有独立第三方的系统评测,Google自己说的”内置物理理解”需要打一个谨慎的问号。10秒视频也是一个比较保守的限制,虽然Google说这不是模型的上限,但用户体验就是体验。
但即便如此,Omni的意义在于它给出了一个信号:世界模型不再只是DeepMind研究人员的愿景PPT,它是可以在今天交付给普通用户使用的产品。 从论文概念到产品化,这中间的鸿沟不知道埋葬了多少好想法。Google跨过来了,跨得可能不算远,但方向很明确。
Hassabis说AGI”就在眼前”的时候,很多人觉得是PR话术。但如果把Omni放在更大的图景里看——Gemini 3.5在推理端的提升、Genie 3在交互世界上的推进、Gemini Robotics在具身智能上的布局——Google确实在从多个方向同时逼近同一个目标。
一个能理解物理世界、模拟物理世界、最终在物理世界中行动的AI。这就是世界模型要抵达的地方。
Omni是这条路上一块不大但很实的路标。