神仙打架之外：环卫车里长出的世界模型什么样,环卫车

（文/张志峰编辑/周远方）

2026年5月，世界模型赛道至少有三件事值得记住。智元GE 2.0在WorldArena登顶，星动纪元Ctrl-World拿了具身任务能力全球第一，北京人形Pelican-Unify成了双冠王。

它们都在回答同一个问题。机器人到底该先建一座虚拟健身房，还是直接在真实世界里摔打。

同一个月，酷哇科技发布了CooWAIM 2.0。前三个在刷榜，酷哇在刷街。它的测试场是芜湖某条辅路，主角是一台正在贴边作业的无人清扫车。

假如这时路口突然冲出一辆逆行电动车，它不会停下来把整条街的三维画面在脑子里推演一遍，而是边减速边微调方向，在三百毫秒内完成避让。

酷哇相关负责人把这个能力概括为一句话，CooWAIM 2.0在打麻将般的博弈和切菜式的精细操作中，比同类模型更快。他进一步解释，就像人类打麻将时会预判他人反应、切菜时会感知食材触感，真正的智能源于动作与环境的实时闭环。

这个闭环本身并非酷哇独有。智元用GE 2.0建全功能世界模拟器，让机器人在虚拟环境里试错进化。星动纪元走VLA与世界模型融合路线，用分频端到端打通感知与动作。北京人形则以国家队身份推进大一统物理智能回路。它们代表了当前世界模型的三条主路。

但酷哇走了一条更轻的路。它不问机器人能不能在虚拟世界里推完一万次杯子，只问下一秒别撞上那辆电动车。

三路分兵，一路刷街

目前，全球科技巨头在世界模型赛道上呈现出不同的技术流派。

第一拨做视频生成，谷歌Genie 3、阿里Happy Oyster、OpenAI Sora，核心能力是生成逼真的未来画面，一帧一帧预测像素变化。图灵奖得主杨立昆曾指出，预测像素变化不等于理解物理世界，生成一段杯子掉落的视频，不代表模型懂得重力和材料力学。但在舆论场里，视频生成和世界模型常被混为一谈。Meta的V-JEPA 2走另一条路，不渲染画面，只提炼物理规律的因果理解，像一位只看棋谱不摸棋子的理论派。

第二拨做自动驾驶仿真。Waymo、特斯拉、蔚来NWM，这拨人其实最老资格，早就在用闭环仿真器测试极端路况、跑安全corner case，只是以前叫仿真器或数字孪生，生成式AI能力提升后，虚拟场景真假难辨，顺势把名字升级成了世界模型。他们的核心任务是预测自车响应和交通流演化，动作空间被严格限制在方向盘、油门、刹车两三个自由度里，目标是避免接触，而非理解接触。

第三拨做机器人与具身智能。智元、星动纪元、北京人形都在这个阵营，他们强调世界模型必须是动作条件化的，即预测的不是下一帧画面，而是我做了这个动作以后世界怎么变。这拨人要处理的是手指、手腕、肩膀几十甚至上百个自由度的协调，要理解推杯子会不会倒、拧瓶盖用多大力、叠毛巾时布料如何形变。道路有车道线和交通灯，规律性强，家庭与工厂里的物体材质、摆放方式、任务目标变化巨大，没有天然的几何约束，数据形态和计算复杂度与自动驾驶不在一个量级。

自动驾驶的世界模型，核心是避免接触，动作空间就两三个维度。人形机器人的世界模型，核心是怎么接触物体，手指、手腕、肩膀几十处关节配合，还得处理软体形变和摩擦力。从车到机器人，不是同一个模型放大，而是换了一个考场。