OpenAI近日正式发布新一代基础模型GPT-5.4。该公司将其称为“目前最强大、效率最高的专业级前沿模型”。除了标准版本之外,GPT-5.4还推出了两种不同定位的版本:强调推理能力的GPT-5.4 Thinking,以及针对高性能需求优化的GPT-5.4 Pro,为不同场景的用户提供更灵活的选择。

此次更新的一大亮点是上下文窗口大幅扩展至100万tokens。这意味着模型一次可以处理更长的文本内容,比如完整书籍、复杂项目文档或大型代码库,大幅提升在专业工作中的实用性。同时,OpenAI表示,GPT-5.4在token使用效率上也有明显提升,能够用更少的tokens完成同样的任务,从而降低使用成本并提升运行速度。

在多项权威基准测试中,GPT-5.4的表现同样亮眼。例如,在测试AI操作电脑能力的OSWorld-VerifiedWebArena Verified基准中,模型取得了新的纪录成绩。在OpenAI针对知识型工作的测试GDPval中,GPT-5.4获得了83%的高分,显示其在处理复杂知识任务方面的能力显著增强。

CHATGPT
CHATGPT

此外,在Mercor推出的APEX-Agents专业能力基准中,GPT-5.4也取得领先成绩。该测试主要评估AI在法律、金融等专业领域的能力。Mercor CEO Brendan Foody表示,GPT-5.4在制作演示文稿、财务模型和法律分析等长期复杂任务方面表现出色,而且运行速度更快、成本更低。

在可靠性方面,OpenAI也重点优化了模型表现。公司称,相比此前的GPT-5.2版本,GPT-5.4在单个事实性错误上的概率降低了33%,整体回答中出现错误的概率也下降了18%,进一步减少“幻觉”问题。

技术层面,OpenAI还对API中的工具调用方式进行了改进,引入了名为“Tool Search”的新系统。过去模型在调用工具时,需要一次性加载所有工具的定义,这会消耗大量tokens。现在,模型可以在需要时再查询工具信息,从而让复杂系统中的请求更快、更便宜

安全方面,OpenAI新增了一项针对模型思维链(Chain-of-Thought)的评估机制。思维链是模型在解决多步骤问题时展示的推理过程。研究人员一直担心推理模型可能隐藏或伪造推理过程。不过测试结果显示,GPT-5.4 Thinking版本更不容易出现这种欺骗行为,说明思维链监控仍然是有效的安全手段。

总体来看,GPT-5.4不仅在性能上实现提升,也在成本、可靠性与安全性方面取得进展。随着更长上下文和更高效率的加入,AI在专业工作中的应用空间或将进一步扩大。