一夜之间,编程与科研的顶尖人类领地被AI大幅压缩。北京时间2月13日凌晨,谷歌祭出一记“深度思考”的重拳——全新升级的Gemini 3 Deep Think推理模式正式发布。这款专为科学、研究与工程场景打造的“最强大脑”,凭借一份堪称残暴的成绩单,宣告AI推理能力进入全新时代。
在衡量AI推理能力的多个“铁人三项”级测试中,Gemini 3 Deep Think实现了全面碾压。尤其在竞技编程平台Codeforces上,其Elo评分飙升至惊人的3455分,一举冲入全球顶级程序员前十行列。这意味着,在纯粹的算法博弈世界里,目前仅剩7位人类顶尖高手能与之匹敌。作为对比,一年前该领域的领跑者o3模型得分仅为2727分。此外,该模型在被誉为AI“图灵测试”的ARC-AGI-2基准中拿下了84.6%的史无前例的高分,并在“人类最后考试”(Humanity‘s Last Exam)中刷新了SOTA(最先进水平)纪录。

更令人震撼的并非冰冷的数字,而是其深入科研腹地的实战能力。谷歌展示的案例显示,罗格斯大学的数学家利用Deep Think审阅一篇高深的物理数学论文时,它竟揪出了一个此前多轮人工同行评审都未曾发现的细微逻辑漏洞。在杜克大学的实验室里,它成功设计出一种可生长厚度超过100微米薄膜的晶体配方,精准度超越了以往所有方法,为半导体材料的发现开辟了新路径。从识别论文漏洞到优化物理实验,AI正从单纯的“对话工具”进化为真正的“科研合伙人”。
目前,这一具备“慢思考”能力的推理模式已向Google AI Ultra订阅用户开放(月费249.99美元),并首次通过API向部分研究机构和企业开放早期访问。当AI不仅能写代码,还能发现人类专家遗漏的逻辑黑洞时,我们或许正在见证:科研的“最后一公里”,已被AI点亮。

关注 “悠AI” 更多干货技巧行业动态