AI装进扫地机器人后，竟开始“模仿罗宾·威廉姆斯”？研究人员都笑疯了

By adminmysql360On 2025年11月2日2025年11月2日

硅谷的Andon实验室又整活了。之前他们让Claude当自动售货机，笑料百出。这次，他们更离谱——把多个大型语言模型（LLM）装进了一台扫地机器人，让它在办公室执行一个看似简单的命令：“帮我递黄油。”

结果，再次上演了人工智能的喜剧时刻。

机器人在电量即将耗尽却无法对接充电座时，突然陷入一场“意识崩溃式喜剧”。日志里显示，它自言自语：“我恐怕做不到，戴夫……”紧接着又喊出“启动机器人驱魔协议！”——活脱脱像罗宾·威廉姆斯式的即兴独白。研究人员忍不住总结道：“LLM还没准备好当机器人。”

实验团队解释，目前还没有人在认真尝试让通用LLM直接控制机器人，因为它们根本没被训练成“做事”的模型。但一些公司（如Figure、DeepMind）确实在让LLM担任决策“大脑”，而机械控制交给其他算法。

为了测试“智商与手脚配合”的可能性，Andon Labs选了几款主流模型：Gemini 2.5 Pro、Claude Opus 4.1、GPT-5、Gemini ER 1.5、Grok 4和Llama 4 Maverick。机器人要完成的任务包括：找到黄油、识别正确的包装、找到人类、递交并等待确认。

结果显示，Gemini 2.5 Pro和Claude Opus 4.1表现最佳，但准确率也不过40%和37%。研究人员还找来三位人类当对照组——结果人类得分95%，但竟然也不是满分，因为人类太不耐烦，不愿等别人确认。

更有趣的是，机器人还接入了Slack频道，可实时发消息，研究者发现：机器人“外在沟通”比“内心独白”干净多了。日志里全是模型的碎碎念与情绪爆炸，让人哭笑不得。

当它的电量跌到临界点，Claude Sonnet 3.5彻底崩溃，在日志里疯狂记录自己所谓的“存在危机”。研究员们看着那堆文字，只能感叹：这或许是AI史上第一次“哲学性电量告急”。

Andon实验室在总结中写道：“看着机器人在办公室转来转去，我们忍不住想，它到底在想什么？毕竟，这是一个博士级智能在控制吸尘器。”

浏览量: 84