AI 摘要
>> OpenAI于3月5日发布GPT-5.4,定位为最强大且高效的职场生产力模型,其核心升级包括原生电脑操作能力、深度集成Excel与金融数据、Token效率提升47%以及幻觉减少。在44种知识工作场景中,GPT-5.4在83%的任务中达到或超越专业水平,电脑操作能力首次超越人类平均水平。模型提供Thinking和Pro两个版本,价格显著上调,面向Plus/Team/Pro及企业用户。此次更新标志着AI从‘回答问题’向‘完成工作’的关键转变。
3 月 5 日,OpenAI 毫无预兆地发布了 GPT-5.4,这是该公司”最强大且最高效的专业工作前沿模型”。距离 GPT-5.3 Instant 发布仅隔两天,这次更新直接把火力对准了职场生产力。
性能对比:这次提升有多大?
先看官方基准测试数据:
数据来源:OpenAI 官方博客
几个关键看点:
1、GDPVal 突破 83%——在 44 种知识工作的测试中,GPT-5.4 有 83% 的任务达到或超过行业专业人员水平,相比前两代提升 12 个百分点。
2、OSWorld-Verified 暴涨 27.7%——从 47.3% 飙升至 75.0%,这正是 GPT-5.4 的核心卖点:电脑操作能力首次超越人类平均水平(72.4%)。
3、网页搜索能力提升显著——BrowseComp 从 65.8% 提升至 82.7%,意味着 GPT-5.4 在复杂信息检索任务上更加可靠。
这次更新了什么?
GPT-5.4 有两个版本:GPT-5.4 Thinking(推理版)和GPT-5.4 Pro(高性能版)。前者面向 Plus/Team/Pro 订阅用户,后者仅限 Pro($200/月)和企业用户。
核心升级就四点:
1. 原生电脑操作能力
GPT-5.4 是 OpenAI 首个将电脑操作能力内置的通用模型。它可以像人类一样使用鼠标、键盘,跨应用执行多步骤工作流。在 OSWorld-Verified 基准测试中,GPT-5.4 达到 75% 成功率,首次超过人类平均水平(72.4%),而 GPT-5.2 只有 47.3%。
2. Excel 和 Google Sheets 深度集成
OpenAI 同步推出了 ChatGPT for Excel 插件(Beta),让 GPT-5.4 直接嵌入电子表格,构建和分析复杂财务模型。内部投行基准测试显示,GPT-5.4 准确率 87.3%,GPT-5.2 仅 68.4%。还新增了 FactSet、MSCI、Moody’s 等金融数据源集成。
3. Token效率提升 47%
新引入的”工具搜索”(Tool Search)系统让模型按需查找工具定义,而非一次性加载所有工具。在 250 个任务的测试中,Token使用量减少 47%,准确率不变。GPT-5.4 也因此成为 OpenAI Token效率最高的推理模型。
4. 幻觉继续减少
在用户曾标记错误的提示词测试集上,GPT-5.4 的单个声明错误率降低 33%,完整响应错误率降低 18%。OpenAI 称这是”史上最真实的模型”。
价格涨了
GPT-5.4 的 API 定价高于 GPT-5.2:
- GPT-5.4:输入15/1M
- GPT-5.4 Pro:输入180/1M
GPT-5.4 Pro确实贵的吓人。为对比,GPT-5.2 是输入14/1M。OpenAI 解释称,涨价反映能力提升,但Token效率提高会抵消部分成本。
注意:输入超过 272K Token后,价格翻倍。
谁能用?
- Plus/Team/Pro:可使用 GPT-5.4 Thinking
- Pro/Enterprise:可使用 GPT-5.4 Pro
- API/Codex 开发者:立即可用 gpt-5.4 和 gpt-5.4-pro
GPT-5.2 Thinking 将继续保留 3 个月,6 月 5 日后停用。
总结一下
这次,GPT-5.4是把 GPT-5.3-Codex 的编程能力、GPT-5.2 的推理能力、以及全新的电脑操作能力整合到单一模型中。它明确指向一个目标:让 AI 从”回答问题”转向”完成工作”。
对于普通用户,感知最明显的可能是更少的错误和更好的电子表格/演示文稿生成。对于开发者,原生电脑操作和工具搜索可能开启新的代理应用场景。
至于能不能替代你的工作——在 44 种知识工作中,GPT-5.4 已经在 83% 的任务里达到或超过专业人员水平。这个问题可能比想象中更近。