英伟达机Jim Fan:机器人领域还处于混乱状态,连发展方向都有可能是错的

近日,英伟达机器人业务负责人、GEAR实验室联合负责人Jim Fan在社交媒体上发表长文,对机器人行业现状提出严厉批评。他认为,尽管硬件技术取得显著进展,但整个行业在软件迭代、标准制定和技术路线选择上仍处于混乱状态。

Jim Fan指出,当前主流的视觉-语言-动作模型(VLA)技术路线"感觉不对",其基于视觉语言模型(VLM)的预训练方式与机器人实际需求存在根本性错位。他表示正押注于视频世界模型作为替代方案。

这一表态引发业内关注,在人工智能其他领域快速发展的背景下,机器人技术的基础性问题凸显出该行业距离商业化应用仍有较大距离,可能影响投资者对相关公司的估值预期。

Jim Fan总结了2025年在机器人领域学到的三个教训,涵盖硬件可靠性、行业标准和技术路线等核心问题,为理解当前机器人产业瓶颈提供了一线视角。


硬件可靠性成为软件迭代最大障碍

Jim Fan指出,尽管Optimus、e-Atlas、Figure、Neo、G1等机器人展现了精湛的工程技术,但硬件可靠性严重限制了软件开发速度。他表示,当前最先进的人工智能尚未充分发挥这些前沿硬件的全部能力,"身体的能力超过了大脑的指挥能力"。

与人类不同,机器人无法从损伤中自我修复。过热、电机损坏、固件异常等问题每天都在发生,而错误是不可逆且无法容忍的。照看这些机器人需要整个运营团队的支持。

Jim Fan感叹:"唯一能随着规模增长的,只有我的耐心。"这一表述揭示了机器人研发中人力成本高企、迭代效率低下的现实困境。


行业标准缺失导致评估体系混乱

Jim Fan将机器人领域的基准测试(Benchmarking)状况称为"史诗级灾难"。他指出,与大语言模型领域已形成MMLU、SWE-Bench等共识性标准不同,机器人行业在硬件平台、任务定义、评分标准、模拟器或真实世界设置等方面均无统一标准。

当前行业普遍现象是,每家公司在发布新闻时临时定义自己的基准测试,并据此宣称达到"当前最佳"(SOTA)水平。更严重的是,演示视频往往是从100次尝试中挑选出的最佳效果。

Jim Fan呼吁:"2026年我们必须做得更好,停止将可复现性和科学纪律视为二等公民。"这一批评直指行业缺乏科学严谨性的根本问题。


主流技术路线遭遇根本性质疑

Jim Fan对当前占主导地位的VLA模型提出了根本性质疑。VLA模型的常见做法是在预训练的视觉语言模型基础上嫁接动作模块,但这一路线存在两个核心问题。

首先,VLM中的大多数参数是为语言和知识服务的,而非为物理学服务。其次,为了实现高层次理解,视觉编码器会主动丢弃低级细节,但这些微小细节对机器人的灵巧操作至关重要。

Jim Fan认为,VLM是为视觉问答等基准测试高度优化的,其预训练目标与机器人需求存在错位,"没有理由相信VLA的性能会随着VLM参数的增加而扩展"。他表示正押注于视频世界模型作为更适合机器人策略的预训练目标。


Jim Fan的观点引发了业内讨论。网友Stewart Alsop质疑,如果视频世界模型更优,为何Helix、GR00T N1和π0等实际交付成果的模型仍构建在VLM基础上,且世界模型目前主要用于策略评估和合成数据,而非直接运动控制。

Jim Fan回应称,这些是2025年的模型,期待2026年的下一代大模型。



nginx