ChatGPT 又双叒发布新版本了—ChatGPT5.4

  • 2026-03-06
  • 人工智能
  • ai ai生产力 chatgpt 电脑操作
  • --

AI 摘要

>> OpenAI于3月5日发布GPT-5.4,定位为最强大且高效的职场生产力模型,其核心升级包括原生电脑操作能力、深度集成Excel与金融数据、Token效率提升47%以及幻觉减少。在44种知识工作场景中,GPT-5.4在83%的任务中达到或超越专业水平,电脑操作能力首次超越人类平均水平。模型提供Thinking和Pro两个版本,价格显著上调,面向Plus/Team/Pro及企业用户。此次更新标志着AI从‘回答问题’向‘完成工作’的关键转变。

3 月 5 日,OpenAI 毫无预兆地发布了 GPT-5.4,这是该公司”最强大且最高效的专业工作前沿模型”。距离 GPT-5.3 Instant 发布仅隔两天,这次更新直接把火力对准了职场生产力。

性能对比:这次提升有多大?

先看官方基准测试数据:

数据来源:OpenAI 官方博客

几个关键看点:

1、GDPVal 突破 83%——在 44 种知识工作的测试中,GPT-5.4 有 83% 的任务达到或超过行业专业人员水平,相比前两代提升 12 个百分点。

2、OSWorld-Verified 暴涨 27.7%——从 47.3% 飙升至 75.0%,这正是 GPT-5.4 的核心卖点:电脑操作能力首次超越人类平均水平(72.4%)。

3、网页搜索能力提升显著——BrowseComp 从 65.8% 提升至 82.7%,意味着 GPT-5.4 在复杂信息检索任务上更加可靠。

这次更新了什么?

GPT-5.4 有两个版本:GPT-5.4 Thinking(推理版)和GPT-5.4 Pro(高性能版)。前者面向 Plus/Team/Pro 订阅用户,后者仅限 Pro($200/月)和企业用户。

核心升级就四点:

1. 原生电脑操作能力

GPT-5.4 是 OpenAI 首个将电脑操作能力内置的通用模型。它可以像人类一样使用鼠标、键盘,跨应用执行多步骤工作流。在 OSWorld-Verified 基准测试中,GPT-5.4 达到 75% 成功率,首次超过人类平均水平(72.4%),而 GPT-5.2 只有 47.3%。

2. Excel 和 Google Sheets 深度集成

OpenAI 同步推出了 ChatGPT for Excel 插件(Beta),让 GPT-5.4 直接嵌入电子表格,构建和分析复杂财务模型。内部投行基准测试显示,GPT-5.4 准确率 87.3%,GPT-5.2 仅 68.4%。还新增了 FactSet、MSCI、Moody’s 等金融数据源集成。

3. Token效率提升 47%

新引入的”工具搜索”(Tool Search)系统让模型按需查找工具定义,而非一次性加载所有工具。在 250 个任务的测试中,Token使用量减少 47%,准确率不变。GPT-5.4 也因此成为 OpenAI Token效率最高的推理模型。

4. 幻觉继续减少

在用户曾标记错误的提示词测试集上,GPT-5.4 的单个声明错误率降低 33%,完整响应错误率降低 18%。OpenAI 称这是”史上最真实的模型”。

价格涨了

GPT-5.4 的 API 定价高于 GPT-5.2:

- GPT-5.4:输入2.50/1M,输出2.50/1M,输出15/1M

- GPT-5.4 Pro:输入30/1M,输出30/1M,输出180/1M

GPT-5.4 Pro确实贵的吓人。为对比,GPT-5.2 是输入1.75/1M,输出1.75/1M,输出14/1M。OpenAI 解释称,涨价反映能力提升,但Token效率提高会抵消部分成本。

注意:输入超过 272K Token后,价格翻倍。

谁能用?

- Plus/Team/Pro:可使用 GPT-5.4 Thinking

- Pro/Enterprise:可使用 GPT-5.4 Pro

- API/Codex 开发者:立即可用 gpt-5.4 和 gpt-5.4-pro

GPT-5.2 Thinking 将继续保留 3 个月,6 月 5 日后停用。

总结一下

这次,GPT-5.4是把 GPT-5.3-Codex 的编程能力、GPT-5.2 的推理能力、以及全新的电脑操作能力整合到单一模型中。它明确指向一个目标:让 AI 从”回答问题”转向”完成工作”。

对于普通用户,感知最明显的可能是更少的错误和更好的电子表格/演示文稿生成。对于开发者,原生电脑操作和工具搜索可能开启新的代理应用场景。

至于能不能替代你的工作——在 44 种知识工作中,GPT-5.4 已经在 83% 的任务里达到或超过专业人员水平。这个问题可能比想象中更近。

Maple
Maple
© 2025 by Maplezz 本文基于 CC BY-NC-SA 4.0 许可 CC 协议 必须注明创作者 仅允许将作品用于非商业用途 改编作品必须遵循相同条款进行共享 最后更新:2026/3/6