谷歌今日对其人工智能生态系统进行重大升级,正式将原生的“计算机使用”工具直接集成至 Gemini3.5Flash 模型中,全面取代先前的 Gemini2.5测试框架。此举标志着人工智能正从单纯的“对话者”加速演变为具备实际执行能力的“数字同事”,推动 AI 代理(Agent)从概念走向落地。
通过 Gemini API,开发者现可利用 Gemini3.5Flash 的原生能力构建智能代理。这些代理不再依赖复杂的底层代码编写,而是像人类用户一样,通过感知和理解屏幕截图等视觉信息,直观地导航应用程序,进而自动执行各种复杂的桌面任务。

这在办公自动化、软件测试及跨平台数据处理等场景中展现出巨大潜能,包括自动化浏览网站、填写长表单、点击界面按钮,以及高效处理桌面、移动和浏览器环境中的重复性数据收集工作。为加速这一生态构建,谷歌已在 Browserbase 上开设了实时演示空间,供开发者立即测试 Gemini 企业代理平台的相关功能。
面对赋予 AI 鼠标和键盘控制权带来的潜在安全挑战,如间接指令注入风险,谷歌强调已采取针对性的对抗训练来增强模型防御能力。同时,谷歌同步推出两款企业级安全系统:其一允许企业设置软件,要求 AI 在执行敏感或永久性更改操作前必须获得人工明确批准;其二则能在检测到潜在攻击时立即自动冻结正在运行的任务,多维度保障用户桌面安全。
配合此模型升级,谷歌同日发布 Chrome149稳定版。该版本引入名为“从屏幕中选择”的实用功能,用户可在浏览器的附件菜单中启用,通过拖拽框选当前标签页中的任何图像或文本,瞬间将其添加为 Gemini 的提示语,大幅提升了基于网页内容进行交互式提问的便捷性。
谷歌将原生计算机使用工具集成至 Gemini3.5Flash,不仅深化了其 AI 模型与操作系统的结合,也预示着 AI 行业正从追求大模型参数规模转向追求实际的工具使用和任务执行能力。这一趋势将加速 AI 代理在企业级自动化和消费者服务中的普及,重塑人机交互及软件应用形态,使更高级别的自主 AI 代理成为可能。
影眸科技获数亿元融资,凯辉基金等领投,彰显3D生成赛道受资本青睐。该“00后”团队瞄准“世界模型”新阶段,突破AI从看懂到创造,推动可用3D数字资产落地,展露国际竞争力。
Chrome 149 原生集成 Gemini 3.5 Flash 模型,带来“从屏幕选择”功能,用户可直接框选网页局部内容与 AI 即时对话,无需全局上传或切换工具,大幅提升浏览场景下的 AI 交互效率与精准度。
谷歌DeepMind将原生计算机使用能力集成到Gemini 3.5 Flash模型,开发者现可用单一模型构建能跨浏览器、手机和桌面自主看屏操作的AI智能体,无需再在不同模型间切换传递上下文,简化了跨平台长任务执行。
苹果在iOS 27 Beta 2中强化隐私保护,限制Siri处理外部URL的能力。根据新的系统提示词,当用户要求Siri总结或提取网址内容时,Siri必须明确告知无法处理此类请求,进一步收紧了Apple Intelligence的生态策略。
谷歌面向部分用户测试 macOS 客户端重大语音升级,推出三大核心功能:系统级语音听写,支持全局快捷键在任何应用中实现语音转文字输入;“魔法指针”,让 Gemini 实时追踪光标悬停内容,确保视觉与逻辑同步;以及多设备连接菜单,暗示未来跨桌面协同。此次还重新设计了 Gemini Live 界面。

关注 “悠AI” 更多干货技巧行业动态