大型语言模型(LLMs)如今正以令人瞩目的速度发展和应用。从谷歌的聊天机器人“巴德”到OpenAI的聊天生成预训练转换器ChatGPT,LLMs似乎已经渗透到我们的生活中。但你真的了解这些模型吗?一篇英国《新科学家》周刊网站的文章,引发了关于LLMs的深刻思考。文章标题《为什么我们仍未真正理解什么是大型语言模型》,由作者亚历克斯·威尔金斯撰写,揭示了LLMs背后的谜团和未知。

压缩算法:从不同角度看LLMs

在对LLMs的运作方式进行探讨时,有一种有趣的观点是将它们比作压缩算法。就像JPEG或MP3格式可以将图像和音乐压缩,以便在媒体上节省空间,LLMs也在某种程度上“压缩”了整个互联网。这个比喻或许有些简化,但它让我们更好地理解LLMs的核心原理。

LLMs通过将数据压缩成更紧凑的形式,实际上在预测一个序列中下一个词或数字。这意味着它们不仅能够生成文本,还可以做出关于序列的推断。这个观点令人震惊,因为它揭示了LLMs与压缩算法之间的深刻联系,尽管这种联系在学术圈中被认知得更深。一些人认为这个发现太明显,而另一些人则认为它具有重要的洞察力。

研究人员的发现显示,LLMs与JPEG和MP3压缩算法采用相似的方法,但它们也具备反向操作的能力,可以预测序列中的下一个元素。这种洞察引发了对LLMs运作方式的更深入探究。

未知的领域:大型语言模型的神秘性

虽然LLMs已经取得了令人印象深刻的进展,但我们仍然面临许多未知。不仅是LLMs的性质,还包括如何解读它们的行为。尽管OpenAI宣称GPT-4在各种专业和学术基准上展现出了人类水平的表现,但我们仍不清楚它如何完成之前未见过的任务。

LLMs的表面功能是预测下一个单词,这使它们看起来像具备人类推理能力的机器。然而,最近的研究表明,有些看似是推理的行为实际上更像是模型在预测下一个单词时所做的事情。例如,当要求LLMs执行一些基本数学运算时,它们在熟悉的情境下表现得不错,但一旦涉及到抽象或新颖的问题,它们的表现就相对差强人意。

能力失衡:LLMs的挑战

数百万人每天使用ChatGPT等工具,但很少有人意识到它们在解决问题时存在的能力失衡。这是因为在使用这些工具的网站上,很少提供关于它们局限性的明确警告,而仅仅是一些关于生成不准确信息的声明。

这意味着OpenAI之前声称的“堪比人类的表现”可能需要重新评估。如果这些基准主要基于大概率事件,那么LLMs在整体问题解决能力方面可能并不如表面所看到的那么出色。

因此,我们需要重新思考如何评估LLMs,并在测试和应用它们的过程中更好地了解它们的工作原理。虽然这些工具在处理日常琐事上仍然非常有用,但对于应用它们到更复杂的任务和领域,我们需要更多的了解,这对我们和这些工具的创造者都将大有裨益。

总结

大型语言模型是当今技术世界中的明星,但我们仍然对它们的工作原理和局限性知之甚少。从压缩算法到推理能力的探讨,我们需要更多的研究和了解,以更好地应用这些工具,同时也更加谨慎地对待它们的局限性。只有这样,我们才能充分了解和利用大型语言模型的潜力。