一项耗费近2500美元运行的全面智力基准测试显示,新的行业领导者已经诞生,但它为这份“聪明”付出了更高的成本。
近日,Anthropic发布了其旗舰模型的最新版本Claude Opus 4.6。在第三方评估机构Artificial Analysis发布的综合智力指数排名中,这款新模型一举超越此前领先的GPT-5.2,登顶榜首。
这一指数综合了10项独立评估,涵盖代理任务、编程和科学推理等多个维度。
01 智力对决:全面评估中的新王者
根据2026年2月7日发布的最新评估报告,Claude Opus 4.6在Artificial Analysis Intelligence Index中取得了领先地位。这一综合指数评估了模型在现实世界任务、长上下文推理、知识准确性和科学问题解决等方面的能力。
GPT-5.2曾是这项评估的领跑者,但已被Claude Opus 4.6取代。值得注意的是,运行这项全面测试本身成本不菲:Claude Opus 4.6的自适应思考模式花费了2486美元,甚至略高于GPT-5.2的2304美元。
02 专项优势:三项关键评估中的领先表现
在构成综合指数的各项评估中,Claude Opus 4.6在三个关键领域表现突出。在GDPval-AA测试中,它比GPT-5.2高出144个Elo分,这意味着在约70%的情况下,Claude能在此类现实世界工作任务中获得更高评分。
TerminalBench评估代理编码和终端使用能力,而CritPT则专注于研究级物理问题。在这两项中,Claude Opus 4.6同样表现最佳。
特别在CritPT物理评估中,它的自适应模式得分达到13%,而非思考模式也有3%的得分,超越了多个竞争对手的“思考后回答”模式。
03 功能飞跃:自适应思考与超大上下文
Claude Opus 4.6引入了多项重要技术改进。最引人注目的是新的“自适应思考”模式,取代了此前的“扩展思考”模式。
开发者现在可以通过“努力程度”设置来控制模型的思考深度,选项包括“低”、“中”、“高”和“最大”。
模型的上下文窗口已扩展至100万token,与Gemini 3 Pro在超长上下文任务中形成竞争。最大输出token限制也从64000增加至128000。
在处理长文档时,Opus 4.6还具备上下文压缩功能,能在对话接近上下文窗口上限时自动摘要并替换旧内容。
04 实际应用:从代码编译到安全审计
除了基准测试的优秀表现,Claude Opus 4.6在实际应用中展现了惊人能力。Anthropic安全团队进行了一项压力测试:让16个Claude代理协作,用Rust编写一个能编译Linux内核的C编译器。
经过两周时间,近2000次会话,消耗20亿输入token和1.4亿输出token,最终产出了一个10万行的编译器,能够在x86、ARM和RISC-V三个架构上编译Linux 6.9。
在网络安全领域,Claude Opus 4.6的表现更令人瞩目。在发布前的测试中,它被置于沙箱环境中,仅配备Python和常规漏洞分析工具,没有任何专门指令,却成功发现了超过500个此前未知的高危零日漏洞。
05 对手动态:GPT-5.2的速度提升
就在Claude Opus 4.6发布前不久,OpenAI宣布GPT-5.2及其代码专用版本GPT-5.2-Codex在不改变模型结构和参数权重的情况下,整体速度提升了约40%。
这一优化可能意味着用户能够以相同的成本获得更快的响应,或是以更低的成本处理相同量的任务。
速度是AI模型实际应用中的关键因素之一,OpenAI此次提速显然是为了保持其产品在用户体验方面的竞争力。

06 智能革命:多代理协作与专业领域渗透
Claude Opus 4.6最革命性的功能之一是“代理团队”,允许多个AI代理并行协作而非顺序工作。这一架构使复杂工作流程的效率得到显著提升。
在法律领域,Claude Opus 4.6已通过专业平台Harvey向客户提供。在BigLaw Bench法律评估中,该模型获得90.2%的高分,其中40%的任务获得了满分。
在办公场景中,Claude Opus 4.6已直接嵌入Microsoft 365。用户可以在PowerPoint中生成符合模板格式的演示文稿,或在Excel中进行复杂财务分析。
这一集成降低了非技术员工使用高级AI能力的门槛,使普通知识工作者也能利用模型的强大推理能力。
尽管OpenAI近期宣布GPT-5.2速度提升40%,试图保持竞争优势,但在全面智力评估的赛道上,Claude Opus 4.6已经率先冲线。
Anthropic以“加量不加价”的策略维持原有定价,但测试成本的小幅增加暗示着这场智力竞赛的背后是科技公司对计算资源的持续投入。
如今,Claude Opus 4.6不仅能够编写能编译Linux内核的C编译器,还能直接嵌入Microsoft 365协助日常办公。随着AI智能向专业领域不断渗透,或许正如一篇报道的标题所言——“更多饭碗没了”。

关注 “悠AI” 更多干货技巧行业动态