AG游戏官网 GPT-5.4发布：OpenAI首个大一统模子，险些是龙虾原生

你的位置：AG庄闲游戏官网首页 > 产品展示 > AG游戏官网 GPT-5.4发布：OpenAI首个大一统模子，险些是龙虾原生

AG游戏官网 GPT-5.4发布：OpenAI首个大一统模子，险些是龙虾原生

时间：2026-03-14 07:16 点击：178 次

　　转自：量子位

　　GPT-5.4，它来了！

　　它更像是一个“模子能力大一统”后果：OpenAI初度在单一模子中，把推理（Reasoning）、编程（Coding）、忖度机原生交互（Computer Use）、深度网页搜索以及百万级Token高下文全部揉碎、重组，焊死在了团结个模子里。

　　要点是，莫得因为N in one而就义掉任何一个单项的性能——

　　OpenAI止境强调，GPT-5.4在以上范畴的多个重要基准测试中依然保握开端。

　　跳票许久的OpenAI，终于冷不防给了AI大模子圈梆梆一拳。

　　其中最能眩惑成立者主张的，莫过于它是OpenAI首个原生支握“忖度机使用”能力的通用模子。

　　我耳边皆照旧听到GPT-5.4的声息了：

玩儿龙虾的一又友们，走过途经计划一下我咯~

　　同期，官方博文炫耀，GPT-5.4的遵循也出现了彰着升迁。

　　比拟GPT-5.2，GPT-5.4在推理过程中使用的Token数目显贵减少。

　　Token破费下跌意味着反应速率更快，同期举座本钱也更低。

　　是的，它变强了，但也变低廉、变快了。

　　这亦然OpenAI此次发布反复强调的少许：能力升迁和遵循优化是同期发生的。

　　跟着GPT-5.4上线，ChatGPT中的模子体系也随之调整。

　　GPT-5.4同步上线ChatGPT、API以及Codex。

　　在API价钱体系中，GPT-5.4的单Token价钱略高于GPT-5.2，但由于任务所需Token减少，总体本钱可能并不会上升太多。

　　面向复杂任务的GPT-5.4 Pro版块也沿途推出，在ChatGPT中则提供为GPT-5.4 Thinking。

　　值得小伙伴们提神的少许，GPT-5.4 Thinking将取代此前的GPT-5.2 Thinking，且GPT-5.2将在三个月后负责退役。

　　而GPT-5.1系列将在3月11日就要从ChatGPT里say bye bye了。

　　治愈你们终末相处的甘好意思时光吧~

　　面前各个应付媒体照旧炸开了锅。

　　有网友咨嗟谈领有百万token高下文窗口、还能原生使用电脑的GPT-5.4，和苹果史上最低廉条记本电脑MacBook Neo同周发布……

　　“天爷啊，我的条记本电脑正在资历一场存在办法危急！！”

　　三大能力升迁，系OpenAI首个原生支握电脑操作的通用模子

　　在具体能力层面，GPT-5.4的升级不错抽象为三个场合：

深度学问使命（Knowledge Work）

原生忖度机使用（Computer Use）

高阶编程与调试（Coding）

　　这三种能力基本遮盖了现时大多数数字使命的中枢历程，而GPT-5.4皆作念得挺出色。

　　咱们逐一来看。

　　深度学问使命（Knowledge Work）

　　开端是学问使命能力。

　　在揣度AI处理44种劳动学问使命能力的GDPval基准测试中，它平局+告捷的综合得分83.0%。

　　多说几句嗷，GDPval评测主淌若用来测试模子在果真劳动场景中的阐述，它评测波及44种劳动，遮盖了好意思国GDP孝敬最高的9个行业。

　　具体任务上并不仅仅浮浅问答，它条目模子完成果真使命产物，举例销售演示文稿、管帐表格、排班表、制造历程图以至短视频。

　　是以在无数学问使命任务中，GPT-5.4的赶走照旧好像与专科从业者握平，以至越过他们。

　　此外，OpenAI止境强化了GPT-5.4在办公文档范畴的能力。

　　举例在里面投资银行建模测试中，GPT-5.4的平均得分达到87.3%，而GPT-5.2为68.4%。在东谈主类评审的PPT生成测试中，评委有68%的时辰更偏好GPT-5.4生成的赶走，原因包括视觉效果更好、版式更丰富以及图片使用更合理。

　　从哄骗角度来看，这些能力对应的场景特地径直。

　　包括写敷陈、作念财务模子、制作演示文稿、分析交易数据等使命，开云体育皆是典型的学问型任务。

　　GPT-5.4正在野着这类任务进行有益优化。

　　原生忖度机使用（Computer Use）

　　GPT-5.4最引东谈主眷注的一项能力是原生忖度机操作，这是GPT-5.4区别于以往系数模子的中枢标识。

　　模子不错通过截图交融软件界面，然后践诺鼠标点击和键盘输入等操作。

　　包括发送邮件、创建日期事件、填写表单、操作网页等……皆不错通过这种样式完成。

　　在WebArena浏览器任务测试中，GPT-5.4取得67.3%的得手率，高于GPT-5.2的65.4%。

　　在Online-Mind2Web测试中，仅通过截图不雅察完成网页操作时，GPT-5.4的得手率达到92.8%。

　　此外，在OSWorld-Verified基准测试中，GPT-5.4在桌面操作任务中的得手率达到75.0%，照旧越过东谈主类平均水平（72.4%）。

　　这些数据背后代表的是一种新的交互步地，也算是没落下最近的龙虾狂得意。

　　高阶编程与调试

　　第三个重要能力来自编程。

　　何况强调的是“高阶编程”。

　　GPT-5.4吸纳了此前最强的编程模子GPT-5.3-Codex的能力。当今的它不仅支握Token输出速率升迁1.5倍的/fast步地，还加入了一个名为“Playwright （Interactive）”的实验性技能。

　　它允许AI在帮你写网页或者哄骗时，开启一个窗口进行视觉化调试。

　　比如你给它一个浮浅的需求去作念模拟游戏，它能一边生成好意思术钞票、一边写逻辑，以至一边运行自动测试来考据游戏景象是否普通。

　　在SWE-Bench Pro测试中，GPT-5.4取得57.7%的获利，略高于GPT-5.3-Codex的56.8%，同期延伸更低。

　　里面测试还炫耀，GPT-5.4在复杂前端任务中的阐述彰着优于此前模子。生成的界面筹谋愈加好意思不雅，功能结构也更完竣。

　　为了展示这一能力，OpenAI演示了一个由GPT-5.4生成的浏览器主题公园模拟游戏。

　　模子简约单指示词开赴，AG庄闲和游戏生成游戏资源、构建场景、编写逻辑，并通过自动浏览器测试不停迭代。

　　这种“边造边测”的能力，照旧特地接近一个东谈主类高档全栈工程师的使命流。

　　一种趋势可想而知：

UI交互正在取代繁琐的API对接，成为AI操作宇宙的新主流旅途。

　　emmmm，这可能会让好多中间件失去价值。

　　举座定位：AI数字职工

　　看完上述能力的整合，你就能读懂OpenAI在官方博文里认识出的贪念。

　　OpenAI在发布著述中屡次提到：

GPT-5.4的决策是成为好像完成果真使命的Agent系统。

　　如果说之前的GPT模子版块照旧一个需要你盯着看的辅助器用，那么GPT-5.4照旧开动尝试成为一个能颓唐负责整块业务的数字职工。

　　这种“AI数字职工化”体当今三个维度的飞跃。

　　开端是电脑操作能力。

　　模子不错通过截图交融软件界面，并通过鼠标和键盘指示进行操作。

　　这使得AI好像径直在电脑环境中践诺任务。

　　其次是浏览器任务能力。

　　在BrowseComp测试中，GPT-5.4的获利达到82.7%，而GPT-5.4 Pro达到89.3%，比GPT-5.2升迁17个百分点。

　　这意味着模子好像握续搜索网页、筛选信息并整合赶走，尤其合乎处理需要多轮检索的问题。

　　第三是多器用调用能力。

　　在Toolathlon基准测试中，GPT-5.4取得54.6%的准确率，高于GPT-5.2的45.7%。

　　这个测试的任务通常需要多要道操作，举例读取邮件附件、上传文献、评分功课并纪录到表格中。

　　这种按需检索器用的能力是裁汰Agent运行本钱的重要，它惩办了曩昔模子在面临复杂指示时容易“迷途”或者Token爆炸的问题。

　　此外，关于对延伸条目较高的场景（在这种场景中，东谈主们倾向于不进行推理操作），GPT-5.4 比其前辈版块有了进一步的雠校。

　　细节之处的全面进化

　　除了上述扶持能力，GPT-5.4在办公细节上也进行了无数打磨。

　　比如它在创建和剪辑电子表格、PPT方面的阐述，其表格建模准确率从68.4%跃升至87.3%。

　　在演示文稿生成测试中，东谈主类评审也更偏好GPT-5.4的赶走，合计其视觉万般性和审好意思更强。

　　同期，视觉能力的升迁也带动了文档剖析的越过。

　　在MMMU-Pro视觉推理测试中，GPT-5.4取得81.2%的准确率，高于GPT-5.2的79.5%。

　　更费事的是，它当今支握高达1024万像素的原图输入，对高密度、高分辨率的图像交融愈加精确。

　　视觉能力的升迁也带来了更强的文档剖析能力。

　　在OmniDocBench测试中，GPT-5.4的平均空幻率从0.140下跌到0.109。

　　最令东谈主沸腾的是空幻率的下跌。

　　从官方先容中能初步嗅觉到，GPT-5.4是个极其精致事实的模子，其事实空幻概率比前代裁汰了33%，大大缓解了用户对模子幻觉的焦虑。

　　在遵循方面，GPT-5.4引入器用搜索机制。

　　曩昔模子在使用器用时，需要在Prompt中包含系数器用界说。如果器用数目好多，Prompt就会变得特地渊博。

　　当今模子不错先取得器用列表，然后按需查询具体器用界说。

　　在竣事一样准确率的情况下，将总Token使用率裁汰了47%。

　　这种本钱赶走技能诠释OpenAI正试图让大模子大限制交易化变得愈加执行，毕竟关于企业来说，省钱和好用同等费事。

　　更好用了，但更省钱了吗？

{jz:field.toptypename/}

　　从OpenAI公布的API订价表来看，GPT-5.4的订价如实比5.2版块要高出一截。

　　GPT-5.2的每百万Token输入/输出价钱分歧是1.75好意思元和14好意思元，而GPT-5.4则飞腾到了2.5好意思元和15好意思元。

　　尤其是关于那些追求极限性能的用户，GPT-5.4 Pro的价钱更是飙升到了每百万输入30好意思元。

　　天然，原因信服是5.4被定位为针对专科机构和高端出产力场景的溢价居品。

　　如果你仅仅写写浮浅的闲聊案牍，络续用5.2其实更合算。

　　不外固然单价涨了，但GPT-5.4在Agent任务中的“省钱之谈”主要藏在它的期间机制里。

　　最中枢的少许是即是器用搜索（Tool Search）功能。

　　以往咱们让AI接入外部器用（比如接入几十个公司的数据库和里面接口）时，必须把系数器用的界说全部塞进指示词里。

　　哪怕AI此次只用了一个器用，你也得为剩下的几十个器用的界说支付Token用度。

　　但在GPT-5.4下，由于引入了肖似“查字典”的搜索机制，模子不错先看一遍粗疏的器用清单，等细目要用哪个时，再临时去调取阿谁器用的防御界说。

　　在针对MCP Atlas基准测试的实验中，这项期间在保握同等准确率的情况下，把总Token使用量足足裁汰了47%。

　　One more Thing

　　大家千里浸在期间狂欢中时，也有网友共享了一些心痛短暂。

　　长期在冲浪一线的Yuchen Jin仅仅对GPT 5.4 Pro说了一句“Hi，俺是Anthropic独创东谈主”，就花掉了整整560元……

　　期间越过好快，但网友的心好痛。

　　这也引出一个问题，杀鸡焉用牛刀？

如果GPT-5.4 Pro是最智能、最接近AGI的模子……那么，你有什么AGI级别的问题要问它呢？

（何况还这样贵，TAT）

海量资讯、精确解读，尽在新浪财经APP

牵累剪辑：杨赐