OpenAI发布GPT-5.4：推出Pro与Thinking版本，性能再升级

By adminmysql360On 2026年3月10日2026年3月7日

OpenAI近日正式发布新一代基础模型GPT-5.4。该公司将其称为“目前最强大、效率最高的专业级前沿模型”。除了标准版本之外，GPT-5.4还推出了两种不同定位的版本：强调推理能力的GPT-5.4 Thinking，以及针对高性能需求优化的GPT-5.4 Pro，为不同场景的用户提供更灵活的选择。

此次更新的一大亮点是上下文窗口大幅扩展至100万tokens。这意味着模型一次可以处理更长的文本内容，比如完整书籍、复杂项目文档或大型代码库，大幅提升在专业工作中的实用性。同时，OpenAI表示，GPT-5.4在token使用效率上也有明显提升，能够用更少的tokens完成同样的任务，从而降低使用成本并提升运行速度。

在多项权威基准测试中，GPT-5.4的表现同样亮眼。例如，在测试AI操作电脑能力的OSWorld-Verified和WebArena Verified基准中，模型取得了新的纪录成绩。在OpenAI针对知识型工作的测试GDPval中，GPT-5.4获得了83%的高分，显示其在处理复杂知识任务方面的能力显著增强。

此外，在Mercor推出的APEX-Agents专业能力基准中，GPT-5.4也取得领先成绩。该测试主要评估AI在法律、金融等专业领域的能力。Mercor CEO Brendan Foody表示，GPT-5.4在制作演示文稿、财务模型和法律分析等长期复杂任务方面表现出色，而且运行速度更快、成本更低。

在可靠性方面，OpenAI也重点优化了模型表现。公司称，相比此前的GPT-5.2版本，GPT-5.4在单个事实性错误上的概率降低了33%，整体回答中出现错误的概率也下降了18%，进一步减少“幻觉”问题。

技术层面，OpenAI还对API中的工具调用方式进行了改进，引入了名为“Tool Search”的新系统。过去模型在调用工具时，需要一次性加载所有工具的定义，这会消耗大量tokens。现在，模型可以在需要时再查询工具信息，从而让复杂系统中的请求更快、更便宜。

安全方面，OpenAI新增了一项针对模型思维链（Chain-of-Thought）的评估机制。思维链是模型在解决多步骤问题时展示的推理过程。研究人员一直担心推理模型可能隐藏或伪造推理过程。不过测试结果显示，GPT-5.4 Thinking版本更不容易出现这种欺骗行为，说明思维链监控仍然是有效的安全手段。

总体来看，GPT-5.4不仅在性能上实现提升，也在成本、可靠性与安全性方面取得进展。随着更长上下文和更高效率的加入，AI在专业工作中的应用空间或将进一步扩大。

浏览量: 31