机器人的终局:英伟达 Jim Fan 宣告 VLA 时代结束,WAM 登场

作者:

宝玉

机器人的终局:英伟达 Jim Fan 宣告 VLA 时代结束,WAM 登场

Jim Fan 是英伟达机器人与 AI 研究组(GEAR Lab)负责人,过去几年主推的 GR00T 人形机器人基础模型用的是 VLA(Vision-Language-Action,视觉 - 语言 - 动作)架构。他刚在 Sequoia AI Ascent 2026 上做了一场 20 分钟的演讲,主题叫《Robotics' End Game》,第一件事就是宣布 VLA 路线过时——包括他自己半年前还在推的 GR00T。

取而代之的新范式叫世界动作模型(WAM),代表作是英伟达 2 月发布的 DreamZero。他把这套思路叫“底层同构”:复制 LLM(Large Language Model,大语言模型)走过的三步(预训练→对齐→强化学习),用视频世界模型替代语言模型,用人类第一人称视频替代遥操作数据,最终在 2040 年前让机器人自己设计和制造下一代自己。他对此有 95% 的把握。

演讲来源:Sequoia Capital AI Ascent 2026,2026 年 4 月 30 日发布。原视频:https://www.youtube.com/watch?v=3Y8aq_ofEVs

要点速览

  • VLA 路线落幕:Jim 公开宣告 VLA 路线过时,新范式叫世界动作模型(WAM),代表作是 DreamZero(140 亿参数)。
  • 告别遥操作数据:遥操作物理上限低,预测一两年内降到接近 0,被传感化人类数据取代。
  • 神经缩放定律:EgoScale 用 21,000 小时人类第一人称视频预训练,团队发现了灵巧操作的神经缩放定律(R² = 0.998)。
  • 神经仿真器:Dream Dojo 用 44,000 小时人类视频训练出一个完全绕过物理引擎的神经仿真器。
  • 终局倒计时:给出 2040 年完成机器人终局的预测(物理自动研究),置信度 95%。

从 DGX-1 签名到“底层同构”

Jim 用一段往事开场。2016 年夏天,就在 OpenAI 当时的办公室,黄仁勋穿着标志性皮夹克,抱着一块大金属托盘走进来,上面写着:“致 Elon 和 OpenAI 团队,致计算和人类的未来。”那是全球第一台 DGX-1。

黄仁勋与 Elon Musk 查看第一台 DGX-1

Jim 当时是 OpenAI 的第一个实习生,赶紧排队去上面签了名。“那时候我完全不知道自己在签什么。”旁边一起签的还有 Andrej Karpathy。这台机器现在在 Computer History Museum 收藏。Jim 补了一句,说自己感觉像恐龙一样老了。

DGX-1 签名板截图

注:Jim Fan(范麟熙)是英伟达机器人与 AI 总监、杰出科学家,领导 GEAR Lab 和 GR00T 人形机器人项目。2016 年在 OpenAI 实习时的导师是 Ilya Sutskever 和 Andrej Karpathy,后在 Stanford 跟随 Fei-Fei Li 读完博士。

这个故事是为了引出他的核心框架。他引了 Ilya 那句“你信深度学习,深度学习就信你”,然后说 LLM 只用三次阶跃、六年时间就走到今天:GPT-3 的预训练,InstructGPT 的监督微调,o1 风格的强化学习,再到自动研究。

于是他做出了一个决定:抄作业,换个名字,叫“底层同构”(the Great Parallel)。把“模拟字符串的下一个状态”换成“模拟物理世界的下一个状态”,通过动作微调收敛到机器人需要的那部分,最后让强化学习走完最后一公里。

Jim Fan 展示“底层同构”:LLM 训练路径对应机器人训练路径

打不过就加入。 (“If you can't beat them, join them.”)

VLA 怎么了:参数都堆在了语言上

过去三年,机器人领域的主流架构是 VLA(Vision-Language-Action,视觉 - 语言 - 动作模型)。英伟达自家的 GR00T 和 Physical Intelligence 的 π0 都属于这个类别。

Jim 指出了结构性问题:其实这些模型该叫 LVA,因为参数大头全堆在语言上了。语言是一等公民,视觉次之,动作只能垫底。

VLA 架构示意:视觉语言模型上接动作头

VLA 擅长编码知识和名词,不擅长物理和动词。重心放在了不对的地方。

他举了 RT-2 原始论文里那个经典 demo:让机器人把可乐罐推到 Taylor Swift 的照片旁边。模型没见过 Taylor Swift,但能泛化过去。问题是,泛化的是名词(能认出 Taylor Swift),而不是动词(该怎么推、找什么角度、用多大力)。

RT-2 论文中的可乐罐与 Taylor Swift 泛化示例

从 AI 垃圾视频到 DreamZero

VLA 不是答案,那下一个预训练范式是什么?结果发现是视频模型,它们在内部学会了模拟物理世界的下一个状态。

Jim Fan 用“AI video slop”引出视频世界模型

怎么把这些世界模型变有用?做动作微调。把“所有可能的未来”这种叠加态,收敛到一条对真实机器人有意义的动作轨迹上。

英伟达的答案叫 DreamZero。这是一种新型策略模型,在执行动作之前先往未来“做梦”几秒钟,然后根据梦境行动。DreamZero 同时解码下一帧画面和下一步动作。在这里,视觉和动作第一次真正成为了“一等公民”。

DreamZero 执行任务时同步展示世界模型视角

Jim 坦率地承认 DreamZero 目前做不到每个任务都 100% 可靠。“它大概相当于 GPT-2 的阶段,方向对了,但表现还不够稳定可靠。”他给这个新架构起名叫 WAM(World Action Models,世界动作模型)。

为我们亲爱的 VLA 默哀片刻。它已完成了历史使命。安息吧。世界动作模型万岁。

注:DreamZero 论文(arXiv 2602.15922)2026 年 2 月发布,140 亿参数,基于 Wan2.1 视频扩散模型。它有一个关键限制:14B 模型必须经过 38 倍系统级优化加 GB200 硬件,才能把闭环控制压到 7Hz,部署门槛极高。

数据革命:从遥操作到“机器人不用参与的数据采集”

过去三年是遥操作(teleop)的黄金时代。但遥操作有一个硬上限:每台机器人每天 24 小时。

“我说一天 24 小时,那是骗自己的。实际一天能干 3 小时就不错了,还得看当天的‘机器人之神’赏不赏脸——毕竟这帮机器天天闹脾气出毛病。”

英伟达首席科学家 Bill Dally 亲自做遥操作采集

怎么破局?把机器人的末端执行器直接戴在人手上,直接采集数据,完全绕过机器人本体。

英伟达方案是 DexUMI,一种外骨骼装置。用外骨骼数据训练出的机器人策略可以完全自主运行,训练数据里没有任何遥操作数据。

DexUMI 与遥操作数据采集方式对比

机器人很开心,因为它们终于不用参与数据采集了。

EgoScale:21,000 小时人类视频和缩放定律

英伟达推出了 EgoScale:99.9% 的训练数据来自人类第一人称视频(egocentric video)。

预训练用了 21,000 小时的野外人类数据,零机器人数据。动作微调阶段仅仅用了 50 小时的高精度动捕手套数据,外加 4 小时遥操作数据——加起来连训练总量的 0.1% 都不到。

EgoScale 预训练数据:21K 小时、10K 场景、43K 物体

最重要的发现是:灵巧操作的神经缩放定律。预训练投入的算力小时数与最优验证损失之间,存在一条极其清晰的对数线性关系,R² 达到了惊人的 0.998。

EgoScale 展示的灵巧操作缩放定律曲线

Jim 把所有数据策略的扩展性放在了一起:遥操作在最不可扩展的角落;第一人称视频如果能转动 FSD(Full Self-Driving,完全自动驾驶)式的数据飞轮,一年内能到 1000 万小时。

传感化人类数据、数据穿戴设备和遥操作的可扩展性对比

Dream Dojo:不用物理引擎的神经仿真器

机器人领域也需要花大钱买几百万个编程环境做强化学习(RL),但直接用真机(real-to-sim-to-real)不够。

进一步的方案是 Dream Dojo:不搞物理引擎那一套,直接把视频世界模型变成一个完整的神经仿真器。输入是连续动作信号,实时输出下一帧 RGB 画面和传感器状态。没有物理方程,没有图形引擎,完完全全是数据驱动的。

Dream Dojo 的 action-conditioned 神经仿真画面

你看到的画面里没有一个像素是真实的。

“现在算力等于环境等于数据。或者用某位智者的话:买得越多,省得越多。这条消息已获得我老板批准。”

终局路线图:2040 年前的三个成就

Jim 把机器人的剩余路径类比成了必须解锁的三个科技树成就:

  1. 物理图灵测试:2-3 年内,你分不出执行任务的是人还是机器人。
  2. 物理 API:用软件和大模型编排机器人配置,建造“暗工厂”和自动化科学实验室。
  3. 物理自动研究:机器人开始自己设计、改进并制造出下一代机器人。

物理 API 成就:暗工厂和自动化科学实验室

至于时间表,他类比 AI 从 AlexNet(2012)到智能体(2026)用了 14 年。再加 14 年,正好是 2040 年。

Jim Fan 用 2012、2026、2040 类比推演机器人终局

我们这一代人,生得太晚,没赶上大航海时代去探索地球;又生得太早,够不着星辰大海去探索宇宙。但我们生得刚刚好,赶上了攻克机器人难题的时代。

五个问题速答

Q:VLA 真的死了吗? A:演讲层面是死了。但英伟达自家最新的 GR00T N1.7(2026 年 4 月)论文里还明确写“VLA 模型”。范式迁移在内部尚未完成。

Q:DreamZero 现在能用在生产环境吗? A:不能。Jim 自己说它“大概是 GPT-2 阶段”。论文披露 14B 模型跑闭环控制只有 7Hz,且必须用 GB200。

Q:遥操作真的会被淘汰吗? A:Jim 预测一两年内降到接近 0。但戴设备做家务不像开车是刚需,且行业大量已有的遥操作基础设施不会一夜间报废。

Q:灵巧操作的缩放定律意味着什么? A:如果 R² = 0.998 持续成立,意味着增加人类视频数据,机器人灵巧性就会可预测地提升。这是整场演讲中最核心的实证论据。

Q:英伟达在这盘棋里赚什么? A:WAM 和神经仿真器对算力需求极高。Jim 的那句“buy more, save more”直接反映了范式切换天然有助于卖芯片的商业意图。

最后:值得追踪的三个悬念

三件事最值得追踪:

  1. DreamZero 如何跨越“GPT-2 阶段”:未来 12-18 个月能不能把极限参数做稳,决定了这套范式的真实威力。
  2. 英伟达内部对 VLA 范式的切换时刻:观察其产品更新中架构实质演进。如果下一代还是 VLA,则演讲更偏向概念营销。
  3. 第一人称视频数据的飞轮载体:英伟达自身没有消费级硬件入口,需观望谁(如苹果、Meta)能真正转动这块千万小时量级的数据。