谷歌(Google)正面向部分用户测试 macOS 客户端的重大语音升级。本次测试涵盖三大核心功能:系统级语音听写,允许用户通过快捷键在任何第三方应用中实现全局语音转文字输入;“魔法指针”(Magic Pointer),支持 Gemini 实时追踪并跟随用户的光标悬停内容,确保人机交互的视觉与逻辑同步;以及多设备连接菜单,暗示了未来跨桌面协同的可能。
此次升级重新设计了Gemini Live的界面,使其更趋近移动端的全屏画布形态。此举契合谷歌计划在2026年夏季推出 Gemini Spark 及增强语音功能的战略,旨在弥合桌面端与网页版的体验鸿沟。面对 OpenAI 的 Codex Remote Control 和 Anthropic 的 Claude's Dispatch 等竞品的底层渗透,谷歌正通过强化屏幕感知与跨设备协同,加速推动桌面端生产力工具向全模态智能化转变。

影眸科技获数亿元融资,凯辉基金等领投,彰显3D生成赛道受资本青睐。该“00后”团队瞄准“世界模型”新阶段,突破AI从看懂到创造,推动可用3D数字资产落地,展露国际竞争力。
谷歌DeepMind将原生计算机使用能力集成到Gemini 3.5 Flash模型,开发者现可用单一模型构建能跨浏览器、手机和桌面自主看屏操作的AI智能体,无需再在不同模型间切换传递上下文,简化了跨平台长任务执行。
谷歌将“计算机使用”工具直接集成到Gemini 3.5 Flash模型,取代旧测试框架,推动AI向可执行任务的“数字同事”演进。开发者可通过API构建智能代理,实现代理从概念到落地的跨越。
苹果在iOS 27 Beta 2中强化隐私保护,限制Siri处理外部URL的能力。根据新的系统提示词,当用户要求Siri总结或提取网址内容时,Siri必须明确告知无法处理此类请求,进一步收紧了Apple Intelligence的生态策略。
谷歌于6月25日发布Gemini 3.5 Flash模型,核心亮点是深度优化的计算机操作能力,可直接接管电脑界面、自主执行跨软件工作流。这标志着人工智能从问答机器转向行动派,突破文本生成与信息检索的局限,朝向直接代劳迈出关键一步。

关注 “悠AI” 更多干货技巧行业动态