ChatGPT 又双叒发布新版本了—ChatGPT5.4

AI 摘要

>> OpenAI于3月5日发布GPT-5.4，定位为最强大且高效的职场生产力模型，其核心升级包括原生电脑操作能力、深度集成Excel与金融数据、Token效率提升47%以及幻觉减少。在44种知识工作场景中，GPT-5.4在83%的任务中达到或超越专业水平，电脑操作能力首次超越人类平均水平。模型提供Thinking和Pro两个版本，价格显著上调，面向Plus/Team/Pro及企业用户。此次更新标志着AI从‘回答问题’向‘完成工作’的关键转变。

3 月 5 日，OpenAI 毫无预兆地发布了 GPT-5.4，这是该公司”最强大且最高效的专业工作前沿模型”。距离 GPT-5.3 Instant 发布仅隔两天，这次更新直接把火力对准了职场生产力。

性能对比：这次提升有多大？

先看官方基准测试数据：

数据来源：OpenAI 官方博客

几个关键看点：

1、GDPVal 突破 83%——在 44 种知识工作的测试中，GPT-5.4 有 83% 的任务达到或超过行业专业人员水平，相比前两代提升 12 个百分点。

2、OSWorld-Verified 暴涨 27.7%——从 47.3% 飙升至 75.0%，这正是 GPT-5.4 的核心卖点：电脑操作能力首次超越人类平均水平（72.4%）。

3、网页搜索能力提升显著——BrowseComp 从 65.8% 提升至 82.7%，意味着 GPT-5.4 在复杂信息检索任务上更加可靠。

这次更新了什么？

GPT-5.4 有两个版本：GPT-5.4 Thinking（推理版）和GPT-5.4 Pro（高性能版）。前者面向 Plus/Team/Pro 订阅用户，后者仅限 Pro（$200/月）和企业用户。

核心升级就四点：

1. 原生电脑操作能力

GPT-5.4 是 OpenAI 首个将电脑操作能力内置的通用模型。它可以像人类一样使用鼠标、键盘，跨应用执行多步骤工作流。在 OSWorld-Verified 基准测试中，GPT-5.4 达到 75% 成功率，首次超过人类平均水平（72.4%），而 GPT-5.2 只有 47.3%。

2. Excel 和 Google Sheets 深度集成

OpenAI 同步推出了 ChatGPT for Excel 插件（Beta），让 GPT-5.4 直接嵌入电子表格，构建和分析复杂财务模型。内部投行基准测试显示，GPT-5.4 准确率 87.3%，GPT-5.2 仅 68.4%。还新增了 FactSet、MSCI、Moody’s 等金融数据源集成。

3. Token效率提升 47%

新引入的”工具搜索”（Tool Search）系统让模型按需查找工具定义，而非一次性加载所有工具。在 250 个任务的测试中，Token使用量减少 47%，准确率不变。GPT-5.4 也因此成为 OpenAI Token效率最高的推理模型。

4. 幻觉继续减少

在用户曾标记错误的提示词测试集上，GPT-5.4 的单个声明错误率降低 33%，完整响应错误率降低 18%。OpenAI 称这是”史上最真实的模型”。

价格涨了

GPT-5.4 的 API 定价高于 GPT-5.2：

- GPT-5.4：输入 $2.50/1M，输出$ 15/1M

- GPT-5.4 Pro：输入 $30/1M，输出$ 180/1M

GPT-5.4 Pro确实贵的吓人。为对比，GPT-5.2 是输入 $1.75/1M，输出$ 14/1M。OpenAI 解释称，涨价反映能力提升，但Token效率提高会抵消部分成本。

注意：输入超过 272K Token后，价格翻倍。

谁能用？

- Plus/Team/Pro：可使用 GPT-5.4 Thinking

- Pro/Enterprise：可使用 GPT-5.4 Pro

- API/Codex 开发者：立即可用 gpt-5.4 和 gpt-5.4-pro

GPT-5.2 Thinking 将继续保留 3 个月，6 月 5 日后停用。

总结一下

这次，GPT-5.4是把 GPT-5.3-Codex 的编程能力、GPT-5.2 的推理能力、以及全新的电脑操作能力整合到单一模型中。它明确指向一个目标：让 AI 从”回答问题”转向”完成工作”。

对于普通用户，感知最明显的可能是更少的错误和更好的电子表格/演示文稿生成。对于开发者，原生电脑操作和工具搜索可能开启新的代理应用场景。

至于能不能替代你的工作——在 44 种知识工作中，GPT-5.4 已经在 83% 的任务里达到或超过专业人员水平。这个问题可能比想象中更近。

AI 摘要

性能对比：这次提升有多大？

几个关键看点：

这次更新了什么？

核心升级就四点：

价格涨了

谁能用？

总结一下

内容导航

推荐阅读

这家初创公司把模型"刻"在硅片上，速度快 48 倍

龙虾很忙：从Clawdbot到OpenClaw，这只“AI爪子”到底是什么？

我用电脑跑AI生图大模型——记折腾ComfyUI的全过程

你的手机也能跑“视觉大模型”？苹果发布的FastVLM到底怎么样？

Chrome原生 AI 来了：Gemini 深度入驻 Chrome