接手“尘言”的第一篇,我犹豫了很久怎么写。
行业里每天都有新融资、新产品、新demo刷屏。人形机器人跳舞、机械臂叠衣服、机器人煮咖啡……每一条视频都像来自未来,评论区清一色“震撼”“牛X”“人类要失业了”。
可我越是盯着这些光鲜的演示,越觉得后背发凉——我们是不是集体陷入了一场精心编排的幻觉?
一、大模型不是具身AI的“万能药”
今年最热的叙事是什么?“大模型+机器人=具身智能”。
逻辑听起来很完美:大模型给了机器人“大脑”,理解自然语言、推理复杂任务,机器人终于从“工业机械臂”进化成“通用智能体”。
但你去问问真正做机器人控制算法的工程师——他们会告诉你一个尴尬的事实:大模型至今连“抓住这杯水,别洒出来”都写不出稳定的控制指令。
为什么?因为大模型活在0和1的符号世界里,而物理世界充满了摩擦系数、惯性矩、材料刚度——这些连续、非线性、时变的变量,根本不是一个预测next token的架构能处理的。
我们现在的做法是什么?把大模型当“调度器”,让它分解任务,然后调用底层传统控制算法去执行。本质上,大模型只是给老旧的机器人套上了一层“聪明”的壳。
这就像给一辆自行车装上了GPS导航,然后宣布你造出了自动驾驶汽车。
二、数据困局:物理世界的“语料”从哪里来?
大语言模型能有今天,靠的是互联网积累了二十年的文本数据——几千亿个token,喂出了GPT的“智能涌现”。
好,现在问一个问题:机器人在物理世界“学习走路、抓取、操作”需要的数据从哪里来?
没有。真的没有。
特斯拉可以从数百万辆车上采集驾驶数据,因为车本来就在路上跑。但人形机器人呢?全球能稳定双足行走的人形机器人不超过三位数,每台每天能采集多少有效数据?
有人会说:用仿真。在虚拟环境里训练,然后迁移到真实世界。这是学术界和工业界的主流思路。
但仿真到现实的鸿沟(sim-to-real gap)大到什么程度?简单说——仿真里完美学会抓取一个方块,到真实世界可能连方块都摸不到。 摩擦力、光照、传感器噪声、关节间隙……无数仿真里“忽略”的细节,在现实中就是过不去的坎。
更残酷的是:你在仿真里针对一个任务调好的模型,换个物体、换个环境,可能直接失效。这意味着什么?每换一个场景,几乎都要重新来过。
这不是规模化,这是手工作坊。
三、融资狂欢背后的“期限错配”
资本当然看得见这些技术瓶颈。但为什么还在疯狂涌入?
答案很简单:这是一个“叙事驱动”的赛道,不是“技术驱动”的赛道。
我接触过不少投资人,他们内心的真实想法是:“我知道现在技术不成熟,但我赌的是5年、10年后。现在不占坑,到时候连牌桌都上不了。”
这是典型的“期限错配”——资本可以等10年,但创业公司活不过明年。
于是我们看到一个荒诞的景象:一家具身AI创业公司,融资发布会上讲的是“通用人形机器人将重新定义生产力”,回到实验室加班加点干的却是“给客户定制一个汽车门板抓取方案”。
融资时是AGI,交付时是非标自动化。 这不是转型,这是基因层面的撕裂。
而那些真正需要底层突破的问题——触觉感知、运动控制、力控精度、能耗效率——反而没人有耐心去啃。因为投资人要demo,要视频,要“能发朋友圈的milestone”。
四、人形:是最优解还是最大陷阱?
还有一件事我必须说。
为什么一定要做人形?两条腿、两只手,真的是通用操作的最优形态吗?
支持者说:世界是为人类设计的,所以人形机器人能无缝适配人类环境。听起来有道理,但经不起推敲。
真实工厂里,99%的搬运、焊接、喷涂、装配工作,已经被AGV、机械臂、专用自动化设备高效完成了。剩下那1%需要“人形”的极端复杂场景,你确定以今天的技术能可靠完成?
更现实的问题是:一个会跌倒的人形机器人,没有任何工业场景敢用。 工业环境要的是确定性、良品率、OEE(设备综合效率)。你给它讲“通用智能”?对不起,工厂只需要“这次和上一次完全一样”。
我采访过一家头部汽车工厂的自动化负责人,他原话是:“我宁愿要一台能做到99.99%稳定的专用设备,也不要一台99%稳定但能跟我聊天的机器人。”
这句话值得每一个做人形的创业者刻在工位上。
写在最后
“尘言”这个栏目的名字起得好——尘埃落定之后的真言。
今天这篇,不是在唱衰具身AI。恰恰相反,我认为这是未来十年最重要的技术方向之一。我唱衰的是假装问题已经解决了的集体幻觉。
我们离真正的通用具身智能还差得远。不是差一点,是差好几个“深度学习时刻”。
但好消息是:真正的技术突破,往往诞生于泡沫破裂之后,当潮水退去,那些在沙滩上认真捡贝壳的人才会被看见。
下一篇文章,我会聊聊“到底什么才是具身AI正确的技术路径”。敬请期待。