
Claude Opus 4.5突然上线,价格直接降2/3!首批用户实测:效率直接翻倍!这就是AI程序员想要的
Gemini 3的余热尚未消退,GPT-5.1的普及恰逢其时。就在大家以为年度大戏即将结束的时候,
一向“寡言少语”的人择,从天而降发起了“偷袭”。 Claude Opus 4.5横空出世,直接跳过常规宣传发行流程,用最硬核的产品克敌制胜。
官方的对决很直接:在编写代码和构建智能代理方面,我是最强的。是盲目自信还是充满自信?
这是为您提供的核心细分。
1、核心亮点速览:性能与成本暴跌
Claude Opus 4.5不仅是能力上的提升,更是效率和集成度的重新定义。— 性能达到顶峰
Anthropic有一个针对“顶级工程师”候选人的内部入职测试,以其难度和时间限制而闻名,时间限制只有2小时。
结果显示:Claude Opus 4.5 的得分高于公司历史上任何人类候选人。
请记住,这不仅仅是写一段代码,而是在高压下对技术能力和判断力的综合考虑。虽然通过测试并不意味着AI具备人类沟通协作能力,但说明在实现的技术层面,Claude Opus 4.5已经突破了工程师或者人类的天花板。
从全行业 SWE-Bench Verified(真实软件工程基准)数据来看,OPUS 4.5 以 80.9% 的准确率领先:
·克劳德作品4.5:80.9%
· GPT-5.1-CODEX-MAX:77.9%
·克劳德十四行诗4.5:77.2%
·双子座3 Pro:76.2%
在AI编程领域,提升了3个百分点ften的意思是从“我经常自己修复bug”到“这个代码写得比我快”的质变。
--价格革命:成本下降了三分之二
尽管上一代(Opus 4.1)很聪明,但其每百万输入代币 15 美元/每百万输出代币 75 美元的价格简直“贵得离谱”。
这一次,人类终于听从了。 OPUS 4.5 定价已大幅降低至每百万输入代币 5 美元/每百万代币输出代币 25 美元。
与上一代作品相比,价格降低了三分之二。
虽然它比 GPT-5.1 更贵(每百万个输入代币 1.25 美元/每百万个输出代币 10 美元),但考虑到 Opus 4.5 是专门为解决复杂问题而打造的“重武器”,这个价格已经进入了企业和开发者的“甜蜜区”。
这种做法也给竞争对手带来了性能和定价方面的双重压力。
- - 命令效率:令牌使用量显着减少
通过 intrOPUS 4.5 提供可设置为高、中或低的“努力”效率参数,允许开发人员在效率和功能之间进行选择。
在中等努力水平上,OPUS 4.5 在经过验证的 SWE-Bench 上达到了 Sonnet 4.5 的最佳成绩,但输出令牌使用量减少了 76%。
在最高努力水平(高努力)下,OPUS 4.5 的性能比 Sonnet 4.5 高出 4.3 个百分点,而代币使用量仍减少了 48%。
2、产品力全面升级:日常办公超智能机身
Anthropic 还发布了代理和日常生产力工具的重大更新,使 Opus 4.5 更加实用和有价值。
——穿越上下文的《无限聊天》
此前,如果你与AI聊天时间较长,则必须再次打开对话框。现在Anthropic已经解决了长对话任务的痛点,通过上下文压缩的方式为付费用户实现了“无限聊天”功能(ntext 的压缩)和内存管理。该模型智能地强制记忆对话历史记录,有效解决了传统上下文窗口的局限性,使代理任务能够继续运行而不会“失忆”。这是项目长远发展的救命稻草。
—— 代理能力和创造性思维
OPUS 4.5具有出色的态势管理和使用代理任务工具的高级功能,还可以有效地管理多代理系统。
此外,在解决实际问题时,模型表现出人的更多“灵活性”。在模拟航空公司客户服务的测试中,规则是不允许更改经济舱机票,之前的型号将因此被拒绝客户。但Opus 4.5带来了一个“酷操作”:先升级客户的舱位,然后更改航班。虽然因为不符合规则而在测试中被判定为“失败”,但这种创造性地解决问题的能力正是人们所看重的。
—新的集成和开发工具
· Office集成:Claude for Excel对MAX、Team、Enterprise用户全面开放,支持数据透视表、图表等复杂操作。 Chrome浏览器插件也向所有Max用户开放。
· Claude 代码改进:引入更复杂的“计划模式”,代理将在执行前生成用户编辑的.md 文件。 Anthropic还为开发者发布了“编程工具调用”功能。Clau允许我们编写和执行直接调用函数的代码。同时,Claude Code 现已在桌面应用程序中提供,并支持并行运行多个本地和远程会话。
3、用户评价及各方评价:Opus 4.5的“神”在哪里?
新车型的推出引起了行业内外的强烈反响。除了官方基准数据外,来自开发者和企业的真实反馈更值得关注令人信服的。
早期测试人员和 Anthropic 客户的反馈非常一致:OPUS 4.5 显示出显着提高的判断力和处理复杂任务的能力。
Anthropic开发者关系负责人Alex Albert指出,测试人员一致认为,OPUS 4.5在处理系统复杂错误时可以直接找到解决方案,无需人工干预即可权衡利弊,具备“一种直觉和判断力”,标志着“质的飞跃”。
商业客户已提供效率声明的初步验证。
· 日本电子商务和互联网公司 Rakuten 测试了 Claude Opus 4.5 的自动化办公任务。基于 Opus 4.5 的智能体仅在 4 次迭代后就达到了最佳性能,而其他模型在 10 次迭代后仍无法匹配。 Rakuten Business AI 总经理 Yusuke Kaji 表示,这显示了“自我改进”代理的潜力。
· 主要研究实验室报告其内部评估的准确性有所提高提高 20%,效率提高 15%。以前遥不可及的复杂任务现在可以实现。 · Github 首席产品官 Mario Rodriguez 表示,早期测试表明 Opus 4.5 超过了内部编码基准,并将 token 使用量减少了一半,使其适合代码迁移和重构等任务。
· 云编码平台总裁 Michele Catasta 回复道,称赞 Opus 4.5 在内部基准测试中优于 Sonnet 4.5 和竞品,并强调这种效率提升在大规模应用时将产生复利影响。
从社交媒体用户的反馈来看,评价大多是正面的。大家普遍认为Opus 4.5性能出色,有助于提高生产力。
Andon Labs 发布了自己在社交平台 X 上使用 Vending-Bench 2 测试 OPUS 4.5 的结果,结果显示其排名仅次于 Gemini 3 Pro,表现良好。
HyperWriteai 首席执行官 Matt Shumer 使用Claude Opus 4.5 测试 colab 用户界面的开发。他认为肯定比之前使用GPT-5.1和Gemi要好。 Ni 3 所做的类似测试更好。
用户@Deredleritt3r提到,Anthropic调查了18名内部员工,了解他们使用Opus 4.5 + Claude Code后的感受。一半员工表示,他们的效率提高了一倍,有些人还认为,他们的生产力提高了 220%。
4、资深开发者深切体会:切割模型的趋同是必然
知名开发者、技术评论家Simon Willison很早就获得了内测资格。 Mrshe 使用 Claude Opus 4.5 在两天内对开源项目 SQLite-Utils 进行了大规模重建。
结果如下:
· 20 份代码提交;
· 修改39个文件;
· 添加了 2022 行代码,删除了 1,173 行代码。
Willison 还在 OPUS 4.5 中测试了编写代码 (SVG),绘制了 pelica 的经典示例n 骑自行车。
结果显示,即时的话语更加详细。 Opus 4.5 的表现甚至更好。
威利森的评论很批评:“这显然是一个很棒的新模型。”不过,他承认,将编程工作转移回 Sonnet 4.5 后,工作速度并没有感觉明显变慢。
换句话说,对于日常工作来说,很难清楚地看出 Opus 4.5 和 Sonnet 4.5 之间的巨大差异。这表明当前模型在处理“简单任务”时边际效应减少。
Willison 指出,对于“Frontier LLMS”系列,越来越难以找到特定于任务的示例来将其与前一代模型明显区分开来。他呼吁 AI 实验室提供“在 Sonnet 4.5 上失败但在 Opus 4.5 上成功的提示的具体示例”,这比基准上的个位数改进更引人注目。
Willison 还指出,尽管 Anthropic 声称 Opus 4.5 是比业内任何其他尖端模型都更强大地抵御注入攻击,但安全问题仍然存在。数据显示,单次尝试提示注射的成功率约为1/20;如果攻击者尝试十次不同的攻击,成功率就会增加到 1/3。这表明,在设计应用程序时,仍然需要考虑攻击者会找到绕过模型防御的方法。
还提到了用户@peterwildeford
5、竞争格局:AI大战持续升温
Opus 4.5的发布发生在OpenAI和Google Model的更新“混战”之后,充分体现了AI市场的激烈竞争。
Anthropic自身的快速成长为这场竞争奠定了基础。 2025年第一季度,Anthropic的年收入将达到20亿美元,是上一季度10亿美元的两倍多。同时,年消费额超过的客户数量n 10万美元也同比增长了八倍。
然而,Opus 4.5 在 Haiku 4.5(10 月)和 Sonnet 4.5(9 月)发布几周后才上线。这种快速迭代清晰地反映了整个行业的动态:竞争压力迫使制造商不断加速。
Anthropic 的开发者关系总监 Albert 承认,他们能够如此快速地进行迭代的部分原因是利用 Claude 本人来加速产品开发和模型研究。
另一方面,OPUS 4.5的大幅降价会压缩利润空间,但会扩大潜在市场。 Albert预计,降价将促使大量初创公司更广泛地将OPUS 4.5集成到他们的产品中,并将其作为核心功能呈现。
对于开发者和企业来说,这种激烈的竞争带来了最直接的好处:AI能力的快速提升和价格的不断下降。强的更高的性能、更低的成本以及“无限聊天”等实用功能意味着人工智能代理将在日常工作流程中发挥更核心的作用。 Opus 4.5 的到来可能是我们工作方式彻底改变的开始。
6. 总结:开发者的新玩具,行业的新基准
Claude Opus 4.5的发布,标志着AI模型竞赛进入“拼执行、拼逻辑、拼成本”的下半场。
它不再是一堆参数,而是通过“努力”参数控制思维深度,通过“无休止的对话”解决工作流程中的实际痛点。对于能够处理复杂逻辑、冗长代码重构和深入研究的用户来说,它无疑是表面上最强大的工具。
如果你是普通用户,Sonnet 4.5依然是性价比之王;但如果你是一名需要处理复杂架构的程序员,或者是一名需要人工智能的研究人员深入研究,每月花钱升级到OPUS 4.5可能是今年最有效的投资。