
近期,一家位于旧金山的初创公司 Moonlake AI 晓谕公开测试其“寰宇建模智能体”(World Modeling Agent),同步发布的本事博客展示了一个保龄球小游戏的十阶段构建经由,从网格财富生成、刚体物理赋予、碰撞检测、计分逻辑、音频集成到逆开通学(IK, Inverse Kinematics)持取动画,全由 AI 自主完成。Moonlake 的 beta 居品能在 15 到 20 分钟内,将一段当然言语态状酿成可开动、可操控、有物理响应的齐备游戏原型。
Moonlake 试图让任何东谈主通过当然言语,径直生成带有物理引擎、游戏逻辑、碰撞检测、计分系统以至空间音频的齐备交互式寰宇。用独创东谈主我方的话来说,他们不仅仅在作念一个游戏生成器,而是想借游戏开辟这个经由,去测验一个对于“寰宇何如运作”的前沿 AI 模子。
该公司总部位于旧金山,由两位斯坦福 AI 实验室树立的博士 Fan-Yun Sun 和 Sharon Lee 连合创立。Fan-Yun Sun 在斯坦福读博时间同期在的学习与感知臆想团队以及 Metropolis 深度学习部门(即 Omniverse 关系技俩)责任,主攻场所是为测验 AI 智能体生成大限制 3D 寰宇。
Lee 的臆想场所则是将扩散模子(Diffusion Model)和 3D 引擎勾搭,构建能够意会空间的基础模子。两东谈主的臆想配景高度互补,一个惩处“何如生成寰宇”,一个惩处“何如让寰宇有交互”。

公司于 2025 年 10 月从隐身方法走出,晓谕完成了 2,800 万好意思元种子轮融资,由 AIX Ventures、Threshold Ventures 和英伟达旗下风投 NVentures 连合领投。
天神投资东谈主威望也至极亮眼:YouTube 连合独创东谈主 Steve Chen、AngelList 独创东谈主 Naval Ravikant、Google 首席科学家 Jeff Dean、GAN(Generative Adversarial Network,)发明者 Ian Goodfellow,以及来自 Hugging Face、DeepMind、Stability AI、OpenAI 的多位高管。截止近期,融资数字已更新为约 3,000 万好意思元,团队大致 15 东谈主,由 ACM ICPC 奖牌得主和海外奥林匹克竞赛获奖者等构成。
2025 年 12 月,Moonlake 发布了他们的中枢居品 Reverie,也即是所谓的 GGE(Generative Game Engine,生成式游戏引擎)。按照公司的说法,这是第一个“可编程的寰宇模子”,用于及时交互内容生成。它和此前的 AI 视频生成模子有一个关节区别:情景历久性。
大部分视频生成模子(比如 Sora 之类)能产出漂亮的画面,但它们本色上是在展望“下一帧看起来应该像什么”,不选藏一个确切的寰宇情景。如若玩家在游戏里打碎了一个花瓶,几秒钟后花瓶可能又恢规复样了。
Moonlake 的系统通过将扩散模子与结构化 3D 信号绑定,让寰宇中发生的变化能继续保持。Lee 在接收采访时说过,生成式寰宇中一直缺失的那块拼图即是“收尾”,创作家需要能界说什么会变、为什么变、变化保管多久。
具体来看 Moonlake 的本事架构,它并不是一个单一模子,而是一个“编排者”(orchestrator)。用户的当然言语指示参加后,系统调用一整套专门化的第三方 AI 模子来永诀处理不同任务:空间布局用多模态推理,游戏逻辑靠纪律合成(program synthesis),物理交互用模拟层,视觉渲染则由及时扩散模子完成。
{jz:field.toptypename/}Fan-Yun Sun 对 Fast Company 态状说,他们的编排模子会跟着时刻推移学会何如交融这些模态,并平稳把外部模子的才能纳入我方体内。
Moonlake 在官方博客中给出了一个很具体的案例来展示这套系统的推理经由:一个赛博一又克立场的保龄球迷你游戏。用户只给了一句话的领导:“在街机房里创建一个赛博一又克好意思学、半写实立场的保龄球小游戏”,莫得提供任何架构拘谨或完毕细节。
接下来,系统的 agent 自动走罢了十个阶段:先是财富实例化,生成球谈、球瓶、保龄球的 3D 网格和 PBR(Physically Based Rendering,米兰app官网版基于物理的渲染)纹理;然后是物理化,把球瓶养息为刚体,赋予摩擦扫数 0.4、弹性 0.15,球瓶质地 1.5 公斤,保龄球 5 公斤;再到空间布局、中枢游戏逻辑、球的人命周期照看、领域相识、边际情况处理、音频集成、IK(Inverse Kinematics,逆向开通学)手臂持取系统,临了是由用户响应驱动的细节打磨。
从这一实例也能看出,Moonlake 对“寰宇模子”的界说和刻下 AI 圈主流话语有较大不同。以前一年里,“world model”这个词在 AI 行业被多数使用,但大多数时候指的是下一帧视频展望,即给定刻下画面和用户操作,展望接下来视觉上应该是什么样。
Google DeepMind 的 Genie 3 在 2025 年 8 月发布,能以 24 帧每秒生成可导航的 3D 环境;李飞飞的 World Labs 在 2025 年 11 月推出 Marble,不错从文本、图片或视频生成可下载的 3D 寰宇。
Moonlake 的念念路和上述这些都不太相似。在他们看来,一个寰宇的情景不可被简化为一帧图像或一团像素。
他们的博客著作用保龄球瓶作念了个例子:一个保龄球瓶同期是空间中的一个有纹理的物体、一个有质地和惯性的刚体、一个不错被撞倒的对象、一个对比分有孝顺的记号实体,以及一个撞击时的声源。当球击中瓶子的那一刻,变换矩阵更新、物理求解器理会碰撞冲量、比分递加、音频触发、重置计时器鼓吹等,这些不是零丁事件,是团结个因果事件的同步落幕。如若其中任何一个模态更新而其他没跟上,寰宇就不连贯了。
是以 Moonlake 追求的是跨模态的因果一致性,而非单纯的视觉传神。他们把寰宇模子应该同期编码的东西分红了五个维度:几何(变换、拓扑、空间关系)、物理(质地、力、碰撞拘谨)、可供性(affordance,即什么算作是可能的、由谁来奉行)、记号逻辑(轨则、分数、定时器、情景机)、感知映射(视觉投影和空间音频)。这个框架比纯视觉寰宇模子更全面,也更靠拢传统游戏引擎施行作念的事情。

就刻下施行的居品体验来看,其的确不错较为速即的制作出一个粗浅的游戏原型,但仍需猝然较大元气心灵进行打磨。在 Fast Company 报谈的实测中,记者首次尝试作念一个 3D 地牢探险游戏时遭受了失败,产出了一个尽是胶囊形脚色的单间。
之后他收缩范围,作念了一个 2D 冰淇淋堆叠游戏,第一版在 15 到 20 分钟内出来了。中枢玩法基本到位,冰淇淋从天上掉下来的节拍恰到公正,键盘收尾映射亦然自动完成的,系统以至主动加了一个冰淇淋落到蛋筒上时的弹跳跃画。但厨师是个白色鄙俗图形,冰淇淋不会正确堆叠。
于是他又花了好几个小时反复和 AI 疏浚建造物理后果,堕入“险些惩处但没王人备惩处”的轮回。最终他把剩余需求一股脑塞给系统,15 分钟后拿到了有计分、有 Game Over 画面的齐备游戏,消耗月度 1,500 信用点中约 950 点,按 40 好意思元月费算不到 25 好意思元。速率惊东谈主,打磨依然吃力。
不外 Moonlake 确切的弥远赌注不在器具层面。Lee 和 Fan-Yun Sun 反复强调的一件事是:用户每一次在平台上翻新系统的物理行动、补充游戏轨则、养息因果关系,都在为 Moonlake 我方的多模态模子提供测验信号。
Fan-Yun Sun 把这和现存的寰宇数据网罗面貌作念对比,举例租 Airbnb 用激光扫描房间是静态的、难以限制化的;分析视频短缺东谈主类语境;只用单一游戏数据(比如多数《堡垒之夜》摄像)测验出的模子不会泛化到确切寰宇。
而 Moonlake 上的用户交互自然带专门图和响应,是因果数据。如若这个飞轮跑起来,数据限制会指数级增长,模子也会随之变强。游戏之后,他们设想的哄骗场所包括机器东谈主测验、自动驾驶和制造业东谈主因分析。Lee 称他们还是接到了制造企业的盘问。
仅仅当今其 beta 版每天仅放量 100 东谈主,离“飞轮转起来”或者还有至极远方的距离。
参考云尔:
1.https://x.com/moonlake/status/2026718586354487435
2.https://moonlakeai.com/blog/building-interactive-worlds
3.https://www.fastcompany.com/91491025/moonlake-ai-vibecoded-video-game
运营/排版:何晨龙