你的位置:AG庄闲游戏官网首页 > 产品展示 > AG游戏官网 GPT-5.4发布:OpenAI首个大一统模子,险些是龙虾原生

AG游戏官网 GPT-5.4发布:OpenAI首个大一统模子,险些是龙虾原生

时间:2026-03-14 07:16 点击:178 次

AG游戏官网 GPT-5.4发布:OpenAI首个大一统模子,险些是龙虾原生

  转自:量子位

  GPT-5.4,它来了!

  它更像是一个“模子能力大一统”后果:OpenAI初度在单一模子中,把推理(Reasoning)、编程(Coding)、忖度机原生交互(Computer Use)、深度网页搜索以及百万级Token高下文全部揉碎、重组,焊死在了团结个模子里。

  要点是,莫得因为N in one而就义掉任何一个单项的性能——

  OpenAI止境强调,GPT-5.4在以上范畴的多个重要基准测试中依然保握开端。

  跳票许久的OpenAI,终于冷不防给了AI大模子圈梆梆一拳。

  其中最能眩惑成立者主张的,莫过于它是OpenAI首个原生支握“忖度机使用”能力的通用模子。

  我耳边皆照旧听到GPT-5.4的声息了:

玩儿龙虾的一又友们,走过途经计划一下我咯~

  同期,官方博文炫耀,GPT-5.4的遵循也出现了彰着升迁。

  比拟GPT-5.2,GPT-5.4在推理过程中使用的Token数目显贵减少。

  Token破费下跌意味着反应速率更快,同期举座本钱也更低。

  是的,它变强了,但也变低廉、变快了。

  这亦然OpenAI此次发布反复强调的少许:能力升迁和遵循优化是同期发生的。

  跟着GPT-5.4上线,ChatGPT中的模子体系也随之调整。

  GPT-5.4同步上线ChatGPT、API以及Codex。

  在API价钱体系中,GPT-5.4的单Token价钱略高于GPT-5.2,但由于任务所需Token减少,总体本钱可能并不会上升太多。

  面向复杂任务的GPT-5.4 Pro版块也沿途推出,在ChatGPT中则提供为GPT-5.4 Thinking。

  值得小伙伴们提神的少许,GPT-5.4 Thinking将取代此前的GPT-5.2 Thinking,且GPT-5.2将在三个月后负责退役。

  而GPT-5.1系列将在3月11日就要从ChatGPT里say bye bye了。

  治愈你们终末相处的甘好意思时光吧~

  面前各个应付媒体照旧炸开了锅。

  有网友咨嗟谈领有百万token高下文窗口、还能原生使用电脑的GPT-5.4,和苹果史上最低廉条记本电脑MacBook Neo同周发布……

  “天爷啊,我的条记本电脑正在资历一场存在办法危急!!”

  三大能力升迁,系OpenAI首个原生支握电脑操作的通用模子

  在具体能力层面,GPT-5.4的升级不错抽象为三个场合:

深度学问使命 (Knowledge Work)

原生忖度机使用 (Computer Use)

高阶编程与调试 (Coding)

  这三种能力基本遮盖了现时大多数数字使命的中枢历程,而GPT-5.4皆作念得挺出色。

  咱们逐一来看。

  深度学问使命 (Knowledge Work)

  开端是学问使命能力。

  在揣度AI处理44种劳动学问使命能力的GDPval基准测试中,它平局+告捷的综合得分83.0%。

  多说几句嗷,GDPval评测主淌若用来测试模子在果真劳动场景中的阐述,它评测波及44种劳动,遮盖了好意思国GDP孝敬最高的9个行业。

  具体任务上并不仅仅浮浅问答,它条目模子完成果真使命产物,举例销售演示文稿、管帐表格、排班表、制造历程图以至短视频。

  是以在无数学问使命任务中,GPT-5.4的赶走照旧好像与专科从业者握平,以至越过他们。

  此外,OpenAI止境强化了GPT-5.4在办公文档范畴的能力。

  举例在里面投资银行建模测试中,GPT-5.4的平均得分达到87.3%,而GPT-5.2为68.4%。在东谈主类评审的PPT生成测试中,评委有68%的时辰更偏好GPT-5.4生成的赶走,原因包括视觉效果更好、版式更丰富以及图片使用更合理。

  从哄骗角度来看,这些能力对应的场景特地径直。

  包括写敷陈、作念财务模子、制作演示文稿、分析交易数据等使命,开云体育皆是典型的学问型任务。

  GPT-5.4正在野着这类任务进行有益优化。

  原生忖度机使用 (Computer Use)

  GPT-5.4最引东谈主眷注的一项能力是原生忖度机操作,这是GPT-5.4区别于以往系数模子的中枢标识。

  模子不错通过截图交融软件界面,然后践诺鼠标点击和键盘输入等操作。

  包括发送邮件、创建日期事件、填写表单、操作网页等……皆不错通过这种样式完成。

  在WebArena浏览器任务测试中,GPT-5.4取得67.3%的得手率,高于GPT-5.2的65.4%。

  在Online-Mind2Web测试中,仅通过截图不雅察完成网页操作时,GPT-5.4的得手率达到92.8%。

  此外,在OSWorld-Verified基准测试中,GPT-5.4在桌面操作任务中的得手率达到75.0%,照旧越过东谈主类平均水平(72.4%)。

  这些数据背后代表的是一种新的交互步地,也算是没落下最近的龙虾狂得意。

  高阶编程与调试

  第三个重要能力来自编程。

  何况强调的是“高阶编程”。

  GPT-5.4吸纳了此前最强的编程模子GPT-5.3-Codex的能力。当今的它不仅支握Token输出速率升迁1.5倍的/fast步地,还加入了一个名为“Playwright (Interactive)”的实验性技能。

  它允许AI在帮你写网页或者哄骗时,开启一个窗口进行视觉化调试。

  比如你给它一个浮浅的需求去作念模拟游戏,它能一边生成好意思术钞票、一边写逻辑,以至一边运行自动测试来考据游戏景象是否普通。

  在SWE-Bench Pro测试中,GPT-5.4取得57.7%的获利,略高于GPT-5.3-Codex的56.8%,同期延伸更低。

  里面测试还炫耀,GPT-5.4在复杂前端任务中的阐述彰着优于此前模子。生成的界面筹谋愈加好意思不雅,功能结构也更完竣。

  为了展示这一能力,OpenAI演示了一个由GPT-5.4生成的浏览器主题公园模拟游戏。

  模子简约单指示词开赴,AG庄闲和游戏生成游戏资源、构建场景、编写逻辑,并通过自动浏览器测试不停迭代。

  这种“边造边测”的能力,照旧特地接近一个东谈主类高档全栈工程师的使命流。

  一种趋势可想而知:

UI交互正在取代繁琐的API对接,成为AI操作宇宙的新主流旅途。

  emmmm,这可能会让好多中间件失去价值。

  举座定位:AI数字职工

  看完上述能力的整合,你就能读懂OpenAI在官方博文里认识出的贪念。

  OpenAI在发布著述中屡次提到:

GPT-5.4的决策是成为好像完成果真使命的Agent系统。

  如果说之前的GPT模子版块照旧一个需要你盯着看的辅助器用,那么GPT-5.4照旧开动尝试成为一个能颓唐负责整块业务的数字职工。

  这种“AI数字职工化”体当今三个维度的飞跃。

  开端是电脑操作能力。

  模子不错通过截图交融软件界面,并通过鼠标和键盘指示进行操作。

  这使得AI好像径直在电脑环境中践诺任务。

  其次是浏览器任务能力。

  在BrowseComp测试中,GPT-5.4的获利达到82.7%,而GPT-5.4 Pro达到89.3%,比GPT-5.2升迁17个百分点。

  这意味着模子好像握续搜索网页、筛选信息并整合赶走,尤其合乎处理需要多轮检索的问题。

  第三是多器用调用能力。

  在Toolathlon基准测试中,GPT-5.4取得54.6%的准确率,高于GPT-5.2的45.7%。

  这个测试的任务通常需要多要道操作,举例读取邮件附件、上传文献、评分功课并纪录到表格中。

  这种按需检索器用的能力是裁汰Agent运行本钱的重要,它惩办了曩昔模子在面临复杂指示时容易“迷途”或者Token爆炸的问题。

  此外,关于对延伸条目较高的场景(在这种场景中,东谈主们倾向于不进行推理操作),GPT-5.4 比其前辈版块有了进一步的雠校。

  细节之处的全面进化

  除了上述扶持能力,GPT-5.4在办公细节上也进行了无数打磨。

  比如它在创建和剪辑电子表格、PPT方面的阐述,其表格建模准确率从68.4%跃升至87.3%。

  在演示文稿生成测试中,东谈主类评审也更偏好GPT-5.4的赶走,合计其视觉万般性和审好意思更强。

  同期,视觉能力的升迁也带动了文档剖析的越过。

  在MMMU-Pro视觉推理测试中,GPT-5.4取得81.2%的准确率,高于GPT-5.2的79.5%。

  更费事的是,它当今支握高达1024万像素的原图输入,对高密度、高分辨率的图像交融愈加精确。

  视觉能力的升迁也带来了更强的文档剖析能力。

  在OmniDocBench测试中,GPT-5.4的平均空幻率从0.140下跌到0.109。

  最令东谈主沸腾的是空幻率的下跌。

  从官方先容中能初步嗅觉到,GPT-5.4是个极其精致事实的模子,其事实空幻概率比前代裁汰了33%,大大缓解了用户对模子幻觉的焦虑。

{jz:field.toptypename/}

  在遵循方面,GPT-5.4引入器用搜索机制。

  曩昔模子在使用器用时,需要在Prompt中包含系数器用界说。如果器用数目好多,Prompt就会变得特地渊博。

  当今模子不错先取得器用列表,然后按需查询具体器用界说。

  在竣事一样准确率的情况下,将总Token使用率裁汰了47%。

  这种本钱赶走技能诠释OpenAI正试图让大模子大限制交易化变得愈加执行,毕竟关于企业来说,省钱和好用同等费事。

  更好用了,但更省钱了吗?

{jz:field.toptypename/}

  从OpenAI公布的API订价表来看,GPT-5.4的订价如实比5.2版块要高出一截。

  GPT-5.2的每百万Token输入/输出价钱分歧是1.75好意思元和14好意思元,而GPT-5.4则飞腾到了2.5好意思元和15好意思元。

  尤其是关于那些追求极限性能的用户,GPT-5.4 Pro的价钱更是飙升到了每百万输入30好意思元。

  天然,原因信服是5.4被定位为针对专科机构和高端出产力场景的溢价居品。

  如果你仅仅写写浮浅的闲聊案牍,络续用5.2其实更合算。

  不外固然单价涨了,但GPT-5.4在Agent任务中的“省钱之谈”主要藏在它的期间机制里。

  最中枢的少许是即是器用搜索(Tool Search)功能。

  以往咱们让AI接入外部器用(比如接入几十个公司的数据库和里面接口)时,必须把系数器用的界说全部塞进指示词里。

  哪怕AI此次只用了一个器用,你也得为剩下的几十个器用的界说支付Token用度。

  但在GPT-5.4下,由于引入了肖似“查字典”的搜索机制,模子不错先看一遍粗疏的器用清单,等细目要用哪个时,再临时去调取阿谁器用的防御界说。

  在针对MCP Atlas基准测试的实验中,这项期间在保握同等准确率的情况下,把总Token使用量足足裁汰了47%。

  One more Thing

  大家千里浸在期间狂欢中时,也有网友共享了一些心痛短暂。

  长期在冲浪一线的Yuchen Jin仅仅对GPT 5.4 Pro说了一句“Hi,俺是Anthropic独创东谈主”,就花掉了整整560元……

  期间越过好快,但网友的心好痛。

  这也引出一个问题,杀鸡焉用牛刀?

如果GPT-5.4 Pro是最智能、最接近AGI的模子……那么,你有什么AGI级别的问题要问它呢?

(何况还这样贵,TAT)

海量资讯、精确解读,尽在新浪财经APP

牵累剪辑:杨赐

回到顶部
服务热线
官方网站:http://www.cltarp.com/
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:888888888
邮箱:@http://www.cltarp.com/
地址:武汉东湖新技术开发区光谷大道国际企业中心
关注公众号

Copyright © 1998-2026 AG庄闲游戏官网首页™版权所有


AG庄闲游戏官网首页-AG游戏官网 GPT-5.4发布:OpenAI首个大一统模子,险些是龙虾原生

技术支持:®ag庄闲游戏  RSS地图 HTML地图