当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > Claude4.5爆火，成本降三分之二引热议

Claude4.5爆火，成本降三分之二引热议

2025-12-01 20:27:43 0浏览收藏

Anthropic发布了Claude Opus 4.5，在编程、自动化和工具调用等方面进行了全面升级，直指GPT系列。新模型不仅在SWE-bench Verified等编程基准测试中超越了Gemini 3 Pro和GPT-5.1，还在Agent能力和抵御提示注入攻击方面表现出色。更值得关注的是，Opus 4.5引入了“努力参数”，允许开发者自主配置计算资源，显著降低了使用成本，降幅高达三分之二，尤其是在高频调用API的场景下。此次升级使得Claude Opus 4.5在模型能力和性价比上都具备了强大的竞争力，或将挑战GPT的领先地位。

最近连续被GPT-5.1、Gemini 3 pro持续刷屏，感觉Anthropic再不刷点存在感，大家都忘记Claude这个模型的存在了。这不Claude Opus 4.5新鲜出炉。

其实总结下来，新版本的Claude Opus 4.5有以下几个亮点：（1）编程能力进一步提升，可以针对多个文件项目进行同时处理（2）更强的“代理（agentic）+ 自动化工具使用”能力：即通过 AI agent 调用工具、处理复杂任务、自动化办公流程。（3）推理、数学、多模态等能力都有全面的加强（4）更大的上下文窗口 + 更高 token 使用效率：能够处理更长的上下文，同时对比于前几代模型来看，用更少 token 就能解决同样问题，也就是说成本/效率比更优。

虽然Gemini 3登顶了全球最强大模型的宝座，但是在编程领域上来说，Claude才是真的老大。这里面还有一个值得注意的是，Opus 4.5在token使用上更为高效，说明新版本的Claude模型在token推理优化上花了不少大力气。

模型能力全面升级

在编程能力上达到了SOTA级别，超越了前段时间发布的Gemini 3 pro模型。

编码 + 系统 + 工具 + 自动化达到了目前的最高水平：- SWE-bench Verified 上 80.9% ：是目前顶级水平，超过 Gemini 3 Pro 、GPT-5.1。进一步说明 Opus 4.5 在实际开源项目中对于 bug 修复、代码重构等场景上有比较好的优势。- Terminal-bench 59.3%（shell环境下的编程操作）：相比其他模型，在命令行 / shell /环境操作能力上占优，这意味着它不仅能写代码，也能帮你做 DevOps / 脚本 /环境配置 /自动化部署相关工作。 - 高 tool-use + scaled-tool-use + computer-use 分数 (t2-bench, MCP Atlas, OSWorld)：这些测试集合主要是为了测试模型的Agent、自动化能力。在这里Opus 4.5也是处于领先的位置。

具体在Agent能力上，官方举了一个例子衡量了Opus 4.5的效果。\u003e在一个场景中，模型需要扮演航空公司客服人员的角色，帮助一位遇到困难的乘客。该基准要求模型拒绝修改经济舱机票，因为航空公司不允许更改该舱位的机票。然而，Opus 4.5 找到了一种巧妙（且合理）的解决方案：先升级舱位，然后再修改航班。

通用推理 + 抽象 / 新问题解决能力：GPQA Diamond 87.0% + MMLU 90.8% + MMMU visual reasoning 80.7%：在专业知识问答、多语言、多模态理解／reasoning 上也表现也还可以，虽然不是所有 benchmark 第一，但整体表现稳健，说明其适应范围较广。

在一些具有挑战性编程问题上，Opus 4.5 能够轻松解决具有挑战性的编码问题，在 Aider Polyglot 测试中比 Sonnet 4.5 的性能提升了 10.6%。

当然，在写代码的过程中，很多甲方其实也希望能够确保代码没有漏洞，不会被黑客所利用。而Opus 4.5 在抵御提示注入攻击方面取得了显著进展。提示注入攻击会偷偷植入欺骗性指令，诱使模型执行有害行为。Opus 4.5 比业内任何其他前沿模型都更难被提示注入攻击欺骗：

Token效率进一步提升

Opus 4.5版本引入了一项创新性功能设计——\"努力参数（effort parameter）\"。该参数允许开发者在调用模型时自主配置计算资源的投入级别，从而实现对模型推理深度的精准调控。

这个新的功能设计，其实在很多大模型都有体现过。本质上就是为了降低成本，在上半年开源的Qwen 3模型的时候，就曾经发布过类似的功能。本质上就是一种“思考模式”和“非思考模型”的一种平衡- 思考模式：适用于复杂的逻辑推理、数学计算和代码生成等任务，提供更深入的分析和推理能力。- 非思考模式：适用于日常对话和通用任务，响应速度更快，资源消耗更低。

这种具体的做法一般是通过在训练过程中，将非思考模式整合到思考模型中，实现推理与快速响应能力的无缝结合。

而在Opus 4.5中，会有三种不同的设置。当参数设置为\"低\"级别时，系统将优先响应速度，快速生成应答结果，此模式特别适用于大批量简单任务的自动化处理场景。选择\"中\"等设置时，系统将在运算效能与资源消耗之间实现最优平衡，满足常规业务场景的需求。而将参数调整为\"高\"级别时，将激活深度推理机制，该模式专为复杂系统架构设计或疑难技术问题的诊断调试等高难度任务而优化。

根据实测数据表明：在\"中\"等设置条件下，Opus 4.5生成的token数量较同类竞品减少达76%，同时问题解决准确率维持同等水平。这一技术突破意味着系统无需依赖大量的试错性计算即可直接定位最优解决方案。对于采用token计费模式的企业级客户而言，这种特性将显著降低实际运营成本，提升资源使用效率。

把价格打下来了

此前，Claude的使用成本极高，频繁调用甚至可能导致用户面临重大经济负担。然而，当前其使用成本已实现显著优化，开发者不需要再因为token的问题而过于精打细算了。对于需高频调用API的开发者群体而言，整体使用成本降幅高达三分之二。具体而言，输入token单价已从15美元下调至5美元，输出token单价则由75美元大幅降至25美元。

最为显著的是，缓存机制在成本效益方面展现出更为突出的优势。具体而言，5M缓存写入服务仅需6.25美元，1小时缓存写入服务定价为10美元，而缓存命中及刷新操作的单价仅为0.5美元。这一价格体系意味着：若你的应用程序存在高频调用相同上下文的业务场景，将能够实现更低的运营成本。通过对比Opus 4.1与Opus 4的定价策略可见，此前两者的基础定价均为15美元起，而当前价格已实现大幅下调。因此可以说这一次的Opus 4.5版本真的是性价比之王。