接口问题引发的行业误解：RoboChallenge澄清自变量机器人测评数据争议

2025-12-09 10:46:44 来源：看点时报

小大

军事APP 头条APP

作为人类前沿技术的无人区，具身智能模型技术晦涩难懂，又不像机器人本体能被C端接触到，正频频被媒体和大众所“误读”。

就在近期，具身智能模型领域的头部创企自变量机器人就遭遇了一次乌龙事件。

近期，具身智能模型评测平台RoboChallenge对于多款主流开源具身模型进行真机测试，并发布了一份初步的模型测试结果。

结果显示，基于 Physical Intelligence（PI）系列构建的π0 和π0.5 表现出色，位列测试榜单的头部，而国产的开源具身智能模型则表现一般。

这其中，自变量WALL-OSS-Flow模型的成绩表现就被自媒体单拎出来批评了一番，批评其表现名不副实。

“自变量开源模型零成功率”的媒体消息报道发出后，作为评测平台，RoboChallenge官方第一时间全渠道跟进辟谣。

RoboChallenge官网主页明确地表示：“请注意，以前显示的一些结果可能是临时的、部分的或仅用于调试目的。”

遗憾的是，仍有不少媒体在传播这一消息。

这背后传达出，当前媒体对于具身智能模型这个前沿科技领域，仍然存在着诸多误解。

对于自变量误解的核心点在于，具身智能模型虽然形式是软件，但本质上却是一个软硬件一体的产品。这与开源的AI语言大模型可以“拿来即用、即测”是截然不同的。

当模型要被部署到新的本体上，就必须解决跨本体适配的问题，这涉及到不同本体的相关数据的迁移、转换，以及测试接口的打通等等一系列复杂问题。

据了解，Robochallenge的本体暂时不支持自变量模型主要的控制方式——末端控制，数据回放和对齐存在问题，因此双方正在做软硬件适配；而接口调试过程留痕被截屏并迅速传播，自媒体对于自变量模型的误解就来源于此。

在这一传播事件里，我们还看到了高度疑似互联网水军和同行故意抹黑的迹象。

比如在原文被辟谣删除后，网络多平台密集出现“自变量开源模型零成功率”的媒体消息，消息投放方身份不明。

在该文章被转载的微信评论区，有大量疑似水军的微信用户聚集并评论。

我们实测发现，目前自变量机器人的官网已经无法打开，疑似遭遇了黑客攻击，知情人士也证实了这一消息。

不光是上述事件，我们发现，媒体和大众对于具身智能模型的误读事件还有很多，近期就有两起：

比如小鹏机器人最近发布的 IRON 人形机器人，就因形态和动作过于逼真引发网友 “真人套壳” 的质疑。

这个事件同样源于大众对于具身模型的认知偏差。

再比如近期具身智能初创公司灵启万物MindOn发布的demo视频。

有具身模型背景的KOL将其解读为使用了VLA和强化学习的路线，也有资深投资人表示其只运用了小脑的能力、技术陈旧；甚至有自媒体用腾讯元宝检测认为demo是完全由AI模型生成。

以上种种，都昭示了具身智能模型的技术复杂性，以及其易被误读的现实。

这个扼住机器人行业发展咽喉的关键环节，为什么自带“招黑体质”？

| 被误读的具身智能模型的一生

不得不承认，具身智能对于普通人是有“壁”的。

大众可能很难理解，为什么机器人可以炫酷地跳舞、跑步、格斗，却不能在工厂里打好螺丝，帮我做做家务？

甚至与行业有一定接触的媒体人、投资人对于个中技术原理也是一头雾水，容易被误导。

在不少公开报道中，都可以看到媒体记者对于专家的真诚发问：怎么看一个机器人的demo视频是不是自主完成的？怎么判断机器人是否有处理泛化性任务的能力？怎么在展会上识别一个机器人的真正实力？

信息的不对称自然也就容易滋生骗局。

媒体《蓝鲸财经》就曾采访某大学机器人系统架构师报道称，国内有些初创公司，甚至是部分知名公司采用遥操作的方式拍摄demo，并将其包装成为“全自主智能”，误导投资人判断。

应对上述骗局，某知名投资机构就直言，专门组建了理工科博士团队从而提高对这类技术问题的鉴别能力。

专业人士尚且如此，当我们看到市面上形形色色的对于具身智能模型的误读现象，也就不足为怪了。

作为一项前沿技术，具身智能模型自身涉及多学科交叉的复杂技术体系，又源于其应用场景的多变性和大众接触层面的诸多限制，对普通人存在较高认知门槛。

那么该如何真实评估具身智能模型的技术能力？

无论是投资机构用“真金白银”做出的判断，还是模型评测平台的测试，现场的真机演示都是必须的。

清华交叉信息研究院助理教授高阳曾给出一个小tips：在真机演示场景下，对于号称能叠衣服的机器人，你可以尝试把衣服团成一团，随意丢在桌上，观察它是否能继续完成动作；或者是再给它裤子、外套，看它能否具备跨品类的泛化能力。

自变量创始人王潜也曾给出相似的建议。他表示，视频demo有太多可以造假的方式了。现场才能够看到模型真实的表现。

“甚至于需要去现场和机器人互动，进行一些人为干扰，看看模型在各种各样的极限情况下会有什么样的表现，这才真正能体现模型的水平。”王潜表示。

包含千寻和自变量在内，多家具身模型公司都曾在今年的WAIC（世界人工智能大会）、WRC（世界机器人大会）等展会现场展示了真实的VLA具身智能模型操作。

无论是面向投资人、公众还是同行，这些公司敢于进行现场真机操作，不怕真实环境的检验，它们的技术能力无疑是经得起验证的。

但需要指出的是，同样是真机操作，但模型评测平台的测试与展会现场的真机演示有很大的不同。

前者需要将具身模型部署到一个全新的本体上，这就涉及到具身模型的一个关键问题——跨本体适配：当模型在新本体上微调后，原模型的能力就会有比较大的损失。

这与开源的AI语言大模型可以“拿来即用即测”是截然不同的。软件如模型本身即是产品，而软硬件一体的具身智能模型的运行机制则要复杂得多。

以PI开源的π0 和π0.5为例，自开源至今已有相当长时间，国内有一些企业也尝试在其基础上进行微调，但从实际效果来看，并不会明显优于其他开源方案，更无法完整复现PI团队在其自有机器人本体上的表现。

同样地，包括自变量的WALL-OSS-Flow之内，模型要被评测平台公正地评价，则必须解决好模型跨本体的适配问题，数据对齐问题，接口联通问题，才能最大程度复现出模型的真实水平。

| 国家战略下的具身智能模型：希望和耐心

具身智能模型赛道之所以容易滋生骗局、也容易被质疑，其实还有一个重要原因：“行业太早期，商业化不清晰。”

这也是包括朱啸虎在内的一些专业人士看空具身智能的核心观点。

的确，当下具身智能模型确实处于发展的早期阶段，技术路线还未完全收敛。模型短期之内很难规模化落地，大众看不到产品，相关的质疑声在所难免。

但正如众擎创始人赵同阳对上述质疑的回答，问人形机器人在这个阶段有什么用?就像质问一个刚出生的婴儿，用眼前看到的来否定未来。

可以看到，今年以来，具身智能成为了最炙手可热的一级市场赛道，被投资机构高度青睐。从投资结构看，国资背景资金的参与度显著上升，产业基金与地方政府平台频繁现身。

更关键的是，具身智能产业已经逐渐上升为国家战略，也成为了未来全球科技产业竞争的高地。

今年3月，国务院政府工作报告首提“具身智能”“智能机器人”，标志着具身智能技术正式上升为国家战略；10月审议通过的“十五五” 规划建议，更是明确将具身智能纳入未来产业重点布局。

开源证券机械首席分析师孟鹏飞称，未来人形机器人产业将是中美引领、全球共振，是人类科技史上浓墨重彩的一笔。

具体到具身智能模型环节，中国则有着独到的竞争优势。

目前具身智能模型最大的卡点在于数据，它是模型迭代的核心燃料。而我国作为全球唯一拥有全部工业门类的国家，叠加丰富的民生场景，为具身智能模型提供了海量真实数据。

同时中国的硬件、供应链、数采工人的工资都更便宜，更具有成本优势。

当然更关键的，还有具身智能模型人才和创新的竞争。

由于不同市场的资本市场环境，尽管中国具身智能模型创企的估值和融资金额不及美国对手PI、Figure和特斯拉。

但以自变量为代表的自研基础模型创企对外展示的模型能力，在某些环节已经表现出了不输美国同行的泛化性表现——这是中国模型企业在具身智能模型领域的竞争力和实力的体现。

凡是承载着战略价值与未来潜力的新兴领域，其技术突破与产业成熟必然要经历一个长期迭代过程。

作为影响全人类未来的高科技产业和我国未来产业重点布局的关键方向，对于具身智能，我们不妨秉持长远视角，少一些误读和轻率，多给一些求真精神和耐心。

关键词：

责任编辑：kj005

文章投诉热线:157 3889 8464 投诉邮箱:7983347 16@qq.com

关键词：

接口问题引发的行业误解：RoboChallenge澄清自变量机器人测评数据争议

相关新闻

最新资讯

科技推荐

科技图片

中兴通讯坚持算力与网络双轮驱动，深耕关键技术实现千亿营收

研祥金码实力开挂！破解汽车制造四大工艺读码盲区

匠心筑梦 技赢未来！深圳市首届流体装卸操作工技能竞赛决赛圆满落幕

研祥智能SPC-8271C：电力设备圈“卷王”，重塑实力标杆！

当玉米搅团遇上国际味蕾：西农学子以食为媒架起文化桥

AI上岗，良率99%：华中日化巨头这样破解瓶身质检困局

新闻排行

匠心筑梦技赢未来！深圳市首届流体装卸操作工技能竞赛决赛圆满落幕