打破多模型切换壁垒！谷歌将“电脑操作”原生塞进 Gemi…

谷歌 DeepMind 团队宣布了一项重大技术突破，将原生的计算机使用能力直接集成到了 Gemini 3.5 Flash 模型中。这意味着开发者现在只需通过单一模型，就能构建出在浏览器、手机和电脑桌面上自主看屏并执行操作的 AI 智能体。

此前这项能力仅作为一个独立模型提供，开发者需要在不同模型之间进行复杂的切换与上下文传递。如今实现原生集成后，AI 在执行跨平台长任务时无需再手动传递信息，极大地简化了开发流程。

打破多模型切换壁垒！谷歌将“电脑操作”原生塞进 Gemini 3.5 Flash

谷歌团队认为，AI 智能体的核心瓶颈并不在于单个工具的极限，而在于多个工具切换时容易造成的上下文信息丢失。通过将搜索、地图和计算机操作统一在一个模型架构下，上下文得以连续流动，大幅降低了复杂任务中途失败的概率。

这种“多工具合一”的设计，就如同直接建造一座内部连通的综合建筑，省去了多栋独立建筑之间漫长且容易出错的通信过程。这种架构级别的调整，有望为代理式任务的可靠性和响应延迟带来实质性的改善。

这项原生能力将主要应用于三大核心场景，包括需要数小时甚至数天持续操作的自动化任务、自动验证用户界面一致性的持续性软件测试，以及跨应用的知识性工作。这些场景都高度依赖于多任务之间的上下文连续性，能有效替代人类进行重复高能耗的操作。

在安全设计上，谷歌采用了包含针对性对抗训练、敏感操作企业安全护栏以及间接提示注入检测在内的多层防御策略。面对开放且不可控的真实计算机环境，这些机制将共同为企业用户构建起相对完整的安全边界。

影眸科技获数亿元融资，凯辉基金等领投，彰显3D生成赛道受资本青睐。该“00后”团队瞄准“世界模型”新阶段，突破AI从看懂到创造，推动可用3D数字资产落地，展露国际竞争力。

Chrome 149 原生集成 Gemini 3.5 Flash 模型，带来“从屏幕选择”功能，用户可直接框选网页局部内容与 AI 即时对话，无需全局上传或切换工具，大幅提升浏览场景下的 AI 交互效率与精准度。

谷歌将“计算机使用”工具直接集成到Gemini 3.5 Flash模型，取代旧测试框架，推动AI向可执行任务的“数字同事”演进。开发者可通过API构建智能代理，实现代理从概念到落地的跨越。

苹果在iOS 27 Beta 2中强化隐私保护，限制Siri处理外部URL的能力。根据新的系统提示词，当用户要求Siri总结或提取网址内容时，Siri必须明确告知无法处理此类请求，进一步收紧了Apple Intelligence的生态策略。

谷歌面向部分用户测试 macOS 客户端重大语音升级，推出三大核心功能：系统级语音听写，支持全局快捷键在任何应用中实现语音转文字输入；“魔法指针”，让 Gemini 实时追踪光标悬停内容，确保视觉与逻辑同步；以及多设备连接菜单，暗示未来跨桌面协同。此次还重新设计了 Gemini Live 界面。

关注 “悠AI” 更多干货技巧行业动态

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...