
作者 |创建者:陈陈 |网易科技终于来了!没有官方热身,也没有新闻发布会。凌晨,GPT-5.2系列车型低调上市。只有一个技术博客和首席执行官萨姆·奥尔特曼在社交媒体上发布的简短声明。然而,这种刻意的“低调”背后,却有着前所未有的火药味。就在上个月谷歌双子座3精彩亮相后,奥特曼内部拉响了最高级别的“红色警报”。因此,GPT-5.2不仅仅是常规迭代。在“护城河”几乎消失的时刻,这是Openai捍卫“地球最强AI”尊严的最后一战。剥掉GPT-5.2华丽的参数涂层,它的实力如何?这为这个巨人掩盖了怎样的焦虑? 1. 硬核评测:ekdid GPT-5.2 到底改变了什么? Openai 表示,现在将逐步推出 GPT-5.2,首先针对付费计划用户(包括、pro、go、业务、企业),然后扩大开放范围,尽可能保持Chatgpt的稳定可靠。 ChATGPT 上的 GPT-5.1 将向付费用户开放三个月,之后不会停止。此时OpenAi的产品策略就非常明确了。 GPT-5.2分为三个梯队:instant(极速版)、thinking(思考版)和pro(专业版)。 。 ——“思维”能力的质变:智能工作流程的福音。如果你是开发者或者重度商业用户,那么想到GPT-5.2就是你眼中的绝对敌人。 OpenAI 正在推出新的基准分析——GDPVAL。该基准涵盖 44 种工作中的知识工作任务。结果显示,GPT-5.2 思维在 70.9% 的任务竞赛中击败或追平了人类顶尖专家。一位 GDPVAL 评论员评论道:“这是输出质量方面令人兴奋且明显的飞跃......两次交付都令人惊讶地精心布置和推荐。尽管仍然需要在以初级投行分析师的角色对电子表格进行建模时,GPT-5.2的思维得分平均比GPT 5.1高出9.3%,从59.1%提高到68.4%。而且,电子表格和PPT的准确性和格式都得到了改进。更令人印象深刻的数据在于效率:它的输出速度是人类专家的11倍以上,成本低廉还不到1%的人。
在处理多达 25 个记录 6K 个 token(大约数十万个单词)时,它是目前唯一在“大海捞针”测试中接近 100% 正确的模型。这意味着它可以理解并全面分析数百份合同或财务报告,而不是“读了后面而忘记了前面”。 · 编程技巧(SWE-Bench Pro):
达到55.6%的新高。不再是写几个Python函数,而是可以处理多语言、多步骤的复杂en工程问题。从模型生成的前端界面来看,可以说达到了“以假乱真”的效果。 (波浪效应)这意味着该模型可以更可靠地调试生产代码、实现功能请求、重构大型代码库以及在更少的人工干预下提供端到端修复。 AI编程公司Windsurf的首席执行官评价其为“代理编程(代理编码)的最大飞跃”。 -视觉识别方面的视觉和工具调用的进化,GPT-5.2思维专门优化了理解图表、仪表板和UI界面的能力。在主板元件识别测试中,虽然还存在缺陷,但能够准确理解元件的空间布局,不再像GPT-5.1那样“乱码”。这意味着模型可以更准确地解释仪表板、产品屏幕截图、技术图表和可视化报告。此外,该工具校准GPT-5.2的ling能力也非常强大。这意味着更好的端到端工作流程(例如解决客户支持案例、从多个系统提取数据、运行分析以及生成最终输出),步骤之间的故障更少。在模拟航空重新预订等多步骤任务时,它展示了令人印象深刻的“多代理协调”能力。在一次内部测试中,一名旅客报告称,航班延误、错过转机、需要在纽约过夜,并因健康原因要求获得前排的特殊座位。结果就是GPT-5.2想着订机票、安排住宿、申请特殊医疗席位和赔偿,一气呵成。 2.深入挖掘:魅力背后的“隐藏缺陷”,但我们不能只看军官所展示的肌肉。 GPT-5.2耀眼的参数背后,也存在一些值得业界警惕的缺点和担忧。 ——贵的痛点e 成本和延误。 Openai 在博客上诚实地写道:“复杂的生成可能需要几分钟才能完成。”在当今对实时交互的追求中,等待几分钟会严重影响体验。由此可见,GPT-5.2思维不仅是“思考”,而且是消耗过多算力的“慢思考”。 (AI生成的图像)当然,OpenAI也使用GPT-5.2 instant来考虑用户体验。快速而强大的日常工作和学习基础模型在信息查询问题、操作指南和教程、技术写作和翻译方面都有显着改进,同时延续了GPT5.1即时引入的温暖对话语气。早期测试人员特别指出,GPT-5.2 iNstant 的解释更加清晰,可以提前突出关键信息。与此同时,API的价格也有所上涨:GPT-5.2系列型号仍然昂贵,达到每百万输入代币1.75美元,每mi 14美元大量输出代币。 GPT-5.2 Pro 每百万输入代币高达 21 美元,每百万输出代币高达 168 美元。尽管OpenAI强调每个代币的有效性都得到提升,但单个任务的总成本很高。 (AI生成的图片)很多用户也提到GPT-5.2的成本比Claude 4.5要高。 AI博主@mlearning_ai指出,NG高端版GPT-5.2每100万代币的价格是高端版Claude 4.5 opus的1.5倍。对于预算有限的初创公司来说,这不是一个好消息。 ——技术“护城河”的消失是奥特曼最棘手的问题,也是《红色警戒》上映的主要原因。尽管 Openai 声称 GPT-5.2 是“最强”,但 Altman 也表示各项基准指标的表现都很出色:SWE-Bench Pro 得分为 55.6%,arc-agi-1 得分超过 90%,arc-agi-2 得分为 52.9%,math frontier 得分为 40.3%。但目前的现状是行业现状是:差距微乎其微。 · Google Gemini 3 上个月刚刚宣布成为全球首款。 · Anthropic Claude Opus 4.5紧随其后,在很多细分领域与OpenAi势均力敌。 · 在视频生成领域,这条路甚至超越了Sora。用户@SkizoExe对GPT-5.2进行了中等复杂度的理解测试后,认为新模型的推理能力和数学能力得到显着提升;然而,它在编程能力上仍然无法弥合Gemini 3的差距:前端弱,后端强。德国AI博主@zeldogiq在X上发帖称,GPT-5.2基准测试结果令人惊叹。但他认为,当所有模型都能取得高分时,更好的基准不再是唯一标准。真正的价值在于集成工作流程、代理性能和实际应用程序功能,这是任何基准测试都无法衡量的。有时,Openai 比竞争对手领先一年甚至两年或;现在,这一领先优势被压缩了数周甚至数天。 《纽约时报》评论指出,模型构建的基本方法已经成为业界共识,OpenAi 不再有独特的配方。 ----此前GPT-5发布时的“温度”与“准确度”之间的博弈,因答案过于冰冷、机械而引起了用户的“反抗”。 OpenAi 随后不得不立即做出调整。 OpenAI 声称通过 GPT-5.2,幻觉减少了 30%,并改善了对心理健康等敏感话题的安全干预。内部数据显示,GPT-5.2的心理健康评估指标优于GPT-5.1。然而,安全性的提升往往伴随着模型变得更加“谨慎”。如何在不制造幻想的情况下保持对话的“人情味”和创造力仍然是GPT-5.2面临的一大挑战。尤其是面对Meta等竞争对手的激进策略,OpenAi的封闭路线“既需要安全又需要能力”的想法变得更加繁重。 。据内部披露,OpenAI的目标是到2025年底年收入达到200亿美元。要支撑这个雄心勃勃的数字以及未来几年高达1.4万亿美元的算力支出,OpenAi必须更加“现实”。这就是为什么我们看到OpenAi:(AI生成的图像)全面拥抱商业市场:无论是Excel和PPT生成的优化,还是投行分析师建模能力的提升,GPT-5.2都在拼命向商业用户示好。 Dahil 只有 B 端客户才能负担得起高昂的订阅费。 · 广告模式的乌云即将来临:尽管第一批员工以“不作恶、不卖广告”为荣,但面对巨大的现金流压力,OpenAi开始探索在Chatgpt引入广告广告和电商导流。 · C端增长瓶颈:Google的月活跃用户数已达6.5亿,逼近Chatgpt的8亿活跃用户。为了维持C端入口,OpenAI计划推出一款拥有自己AI能力的浏览器,直接挑战Chrome的地位。 4、结语:霸主的最后挽歌还是新时代的序幕? GPT-5.2无疑是一个强大的模型。它再次在编程、逻辑推理和长文本处理方面树立了行业标杆(state sining)。对于专业人士来说,最强大的数字助理绝对是可用的。但“Openai扰乱发布”的时代似乎已经结束了。今天的 GPT-5.2 更像是一个成熟技术巨头的稳定变体,而不是史蒂夫·乔布斯式的。它更强大、更准确、更昂贵,但也更符合谷歌和微软的产品。 《红色警戒》或许能解决短期战术危机,但无法解决战略同质化问题。当所有领先的实验室都能创造有了类似的模型,Openai真正的挑战开始了:它必须证明,除了成为一个更聪明的Chatbot之外,它还能给人们带来什么不可替代的价值。对于用户来说,目前的建议似乎很简单:如果你是一个严重依赖编码和数据分析的专业用户,那么立即升级到 GPT-5.2 思维,那是值得的;但如果你只使用AI来写电子邮件和聊天,那么当前的GPT-4。或者甚至免费版本也可能足够好。