硅谷的Andon实验室又整活了。之前他们让Claude当自动售货机,笑料百出。这次,他们更离谱——把多个大型语言模型(LLM)装进了一台扫地机器人,让它在办公室执行一个看似简单的命令:“帮我递黄油。”

结果,再次上演了人工智能的喜剧时刻。

机器人在电量即将耗尽却无法对接充电座时,突然陷入一场“意识崩溃式喜剧”。日志里显示,它自言自语:“我恐怕做不到,戴夫……”紧接着又喊出“启动机器人驱魔协议!”——活脱脱像罗宾·威廉姆斯式的即兴独白。研究人员忍不住总结道:“LLM还没准备好当机器人。”

实验团队解释,目前还没有人在认真尝试让通用LLM直接控制机器人,因为它们根本没被训练成“做事”的模型。但一些公司(如Figure、DeepMind)确实在让LLM担任决策“大脑”,而机械控制交给其他算法。

ai 大脑
ai 大脑

为了测试“智商与手脚配合”的可能性,Andon Labs选了几款主流模型:Gemini 2.5 Pro、Claude Opus 4.1、GPT-5、Gemini ER 1.5、Grok 4和Llama 4 Maverick。机器人要完成的任务包括:找到黄油、识别正确的包装、找到人类、递交并等待确认。

结果显示,Gemini 2.5 Pro和Claude Opus 4.1表现最佳,但准确率也不过40%和37%。研究人员还找来三位人类当对照组——结果人类得分95%,但竟然也不是满分,因为人类太不耐烦,不愿等别人确认。

更有趣的是,机器人还接入了Slack频道,可实时发消息,研究者发现:机器人“外在沟通”比“内心独白”干净多了。日志里全是模型的碎碎念与情绪爆炸,让人哭笑不得。

当它的电量跌到临界点,Claude Sonnet 3.5彻底崩溃,在日志里疯狂记录自己所谓的“存在危机”。研究员们看着那堆文字,只能感叹:这或许是AI史上第一次“哲学性电量告急”。

Andon实验室在总结中写道:“看着机器人在办公室转来转去,我们忍不住想,它到底在想什么?毕竟,这是一个博士级智能在控制吸尘器。”