谷歌测试Gemini桌面版新功能:推系统级听写与光标追踪

谷歌（Google）正面向部分用户测试 macOS 客户端的重大语音升级。本次测试涵盖三大核心功能:系统级语音听写，允许用户通过快捷键在任何第三方应用中实现全局语音转文字输入;“魔法指针”（Magic Pointer），支持 Gemini 实时追踪并跟随用户的光标悬停内容，确保人机交互的视觉与逻辑同步;以及多设备连接菜单，暗示了未来跨桌面协同的可能。

此次升级重新设计了Gemini Live的界面，使其更趋近移动端的全屏画布形态。此举契合谷歌计划在2026年夏季推出 Gemini Spark 及增强语音功能的战略，旨在弥合桌面端与网页版的体验鸿沟。面对 OpenAI 的 Codex Remote Control 和 Anthropic 的 Claude's Dispatch 等竞品的底层渗透，谷歌正通过强化屏幕感知与跨设备协同，加速推动桌面端生产力工具向全模态智能化转变。

影眸科技获数亿元融资，凯辉基金等领投，彰显3D生成赛道受资本青睐。该“00后”团队瞄准“世界模型”新阶段，突破AI从看懂到创造，推动可用3D数字资产落地，展露国际竞争力。

谷歌DeepMind将原生计算机使用能力集成到Gemini 3.5 Flash模型，开发者现可用单一模型构建能跨浏览器、手机和桌面自主看屏操作的AI智能体，无需再在不同模型间切换传递上下文，简化了跨平台长任务执行。

谷歌将“计算机使用”工具直接集成到Gemini 3.5 Flash模型，取代旧测试框架，推动AI向可执行任务的“数字同事”演进。开发者可通过API构建智能代理，实现代理从概念到落地的跨越。

苹果在iOS 27 Beta 2中强化隐私保护，限制Siri处理外部URL的能力。根据新的系统提示词，当用户要求Siri总结或提取网址内容时，Siri必须明确告知无法处理此类请求，进一步收紧了Apple Intelligence的生态策略。

谷歌于6月25日发布Gemini 3.5 Flash模型，核心亮点是深度优化的计算机操作能力，可直接接管电脑界面、自主执行跨软件工作流。这标志着人工智能从问答机器转向行动派，突破文本生成与信息检索的局限，朝向直接代劳迈出关键一步。

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

谷歌测试Gemini桌面版新功能:推系统级听写与光标追踪

索尼 PS6 爆料来袭，搭载 AI 帧生成等技术

苹果 iOS 27 更新：Siri 迎来“双模”时代，Ch…

相关文章

暂无评论