谷歌 DeepMind 团队宣布了一项重大技术突破,将原生的计算机使用能力直接集成到了 Gemini 3.5 Flash 模型中。这意味着开发者现在只需通过单一模型,就能构建出在浏览器、手机和电脑桌面上自主看屏并执行操作的 AI 智能体。
此前这项能力仅作为一个独立模型提供,开发者需要在不同模型之间进行复杂的切换与上下文传递。如今实现原生集成后,AI 在执行跨平台长任务时无需再手动传递信息,极大地简化了开发流程。

谷歌团队认为,AI 智能体的核心瓶颈并不在于单个工具的极限,而在于多个工具切换时容易造成的上下文信息丢失。通过将搜索、地图和计算机操作统一在一个模型架构下,上下文得以连续流动,大幅降低了复杂任务中途失败的概率。
这种“多工具合一”的设计,就如同直接建造一座内部连通的综合建筑,省去了多栋独立建筑之间漫长且容易出错的通信过程。这种架构级别的调整,有望为代理式任务的可靠性和响应延迟带来实质性的改善。
这项原生能力将主要应用于三大核心场景,包括需要数小时甚至数天持续操作的自动化任务、自动验证用户界面一致性的持续性软件测试,以及跨应用的知识性工作。这些场景都高度依赖于多任务之间的上下文连续性,能有效替代人类进行重复高能耗的操作。
在安全设计上,谷歌采用了包含针对性对抗训练、敏感操作企业安全护栏以及间接提示注入检测在内的多层防御策略。面对开放且不可控的真实计算机环境,这些机制将共同为企业用户构建起相对完整的安全边界。
影眸科技获数亿元融资,凯辉基金等领投,彰显3D生成赛道受资本青睐。该“00后”团队瞄准“世界模型”新阶段,突破AI从看懂到创造,推动可用3D数字资产落地,展露国际竞争力。
Chrome 149 原生集成 Gemini 3.5 Flash 模型,带来“从屏幕选择”功能,用户可直接框选网页局部内容与 AI 即时对话,无需全局上传或切换工具,大幅提升浏览场景下的 AI 交互效率与精准度。
谷歌将“计算机使用”工具直接集成到Gemini 3.5 Flash模型,取代旧测试框架,推动AI向可执行任务的“数字同事”演进。开发者可通过API构建智能代理,实现代理从概念到落地的跨越。
苹果在iOS 27 Beta 2中强化隐私保护,限制Siri处理外部URL的能力。根据新的系统提示词,当用户要求Siri总结或提取网址内容时,Siri必须明确告知无法处理此类请求,进一步收紧了Apple Intelligence的生态策略。
谷歌面向部分用户测试 macOS 客户端重大语音升级,推出三大核心功能:系统级语音听写,支持全局快捷键在任何应用中实现语音转文字输入;“魔法指针”,让 Gemini 实时追踪光标悬停内容,确保视觉与逻辑同步;以及多设备连接菜单,暗示未来跨桌面协同。此次还重新设计了 Gemini Live 界面。

关注 “悠AI” 更多干货技巧行业动态