谷歌以“操作系统级”研究智能体反击,开放API争夺开发者心智

谷歌大脑在运行测试时,将长达数小时的复杂信息检索与多轮思考任务,压缩进了短短数分钟的自动化流程里。

“它不只是写报告,而是在构建未来信息访问的底层架构。”一位行业观察者在评论谷歌最新发布时如是说。当地时间12月11日,谷歌正式推出其“重制升级版”Gemini Deep Research深度研究智能体。

在业界看来,这次发布的时机选择绝非偶然。就在同一天,其竞争对手OpenAI发布了备受瞩目的GPT-5.2模型。


01 正面交锋

谷歌选择了一个极具戏剧性的发布时间点。就在OpenAI正式推出GPT-5.2模型当天,谷歌同步发布了迄今为止最强大的深度研究智能体。

这次发布被广泛解读为一次主动的战略回应,标志着AI领域的竞争已从单纯的模型性能比拼,转向对开发者生态和未来信息基础设施控制权的争夺。

DeepMind产品经理路卡斯·哈斯在社交平台上透露,新版Gemini Deep Research在谷歌新基准测试上的得分为46.4%,在BrowseComp测试中与GPT-5 Pro表现相当,但其成本仅约为后者的十分之一。

02 核心进化

全新Gemini Deep Research智能体已不再是传统意义上“自动撰写研究报告”的工具。

它基于谷歌目前最具事实准确性的Gemini 3 Pro模型构建,通过专门训练来减少在复杂任务中产生“幻觉”的可能性,并最大化报告质量。

这个智能体能够自主规划研究路径:制定查询、阅读结果、识别知识缺口并再次搜索。它还能深入浏览网站以获取具体数据,这得益于其“显著增强的网页搜索能力”。

在多项基准测试中,它都取得了领先的成绩。在完整的“人类终极考试”测试集中达到了46.4%,在DeepSearchQA上达到66.1%,在BrowseComp测试中则获得了59.2%的高分。

03 开发者利器

本次发布真正关键的一环,是面向开发者推出的全新Interactions API。

这个API充当了与模型和智能体交互的“统一接口”,使开发者能够首次将谷歌顶尖的深度研究能力直接嵌入到自己的应用程序中。

与当前主流的大语言模型API不同,Interactions API引入了服务器端状态管理。

开发者只需创建一个会话,谷歌的服务器就会自动维护该会话的所有上下文、工具调用结果以及智能体的内部思考状态。这极大地简化了构建复杂、多步骤智能体应用的难度。

04 定义新标准

与智能体一同亮相的,还有谷歌开源的全新基准测试套件DeepSearchQA。

该基准测试包含了涵盖17个领域的900项“因果链”任务,每一步都依赖于前序分析,旨在衡量智能体在多步骤复杂检索任务中的研究全面性和准确性。

谷歌表示,DeepSearchQA还能作为评估“思考时间”效益的诊断工具。内部测试表明,允许智能体执行更多搜索和推理步骤可以显著提升其表现。

05 现实世界应用

目前,Gemini Deep Research已在需要高精度和深度上下文理解的多个行业中得到早期应用,包括金融服务、生物技术和市场研究。

在金融领域,企业正利用它自动化尽职调查中的早期信息收集环节,整合市场信号、竞争格局和合规风险,从而大幅提升研究效率。

在生物技术领域,公司如Axiom Bio使用该智能体处理与药物毒性预测相关的文献分析,获得了更高的研究深度与颗粒度,加速了药物开发流程。

06 未来的入口

谷歌宣布,这项深度研究能力将“很快”集成到其消费者应用程序中,包括Gemini应用、谷歌搜索和NotebookLM。其目标是让Deep Research成为未来AI时代的“搜索引擎底层能力”。

这一转变意味着,未来的信息获取可能不再是用户主动“谷歌一下”,而是用户的智能体代表用户去完成一切研究任务。

通过将强大的研究能力与便捷的开发者API相结合,谷歌正试图将深度研究从一个独立工具,转变为下一代AI应用不可或缺的“操作系统级服务”。


当被问及为何选择在竞争对手发布重大更新的同一天推出自己的产品时,一位接近谷歌的知情人士表示:“这并非撞车,而是一次明确的宣言。

谷歌的愿景是让AI代理成为用户获取、分析和综合信息的默认方式,而不仅仅是一个可选工具。随着Interactions API的开放,全球开发者将能够测试这一愿景的可行性。

关注 “悠AI” 更多干货技巧行业动态

© 版权声明
广告也精彩

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...