告别“你问我答”:ChatGPT 语音功能重磅升级,双向实…

AI广播站2小时前更新 小悠
4 0 0

人工智能的语音交互正在迎来一场“降维打击”式的进化。近日,不少用户在 ChatGPT 的网页端及 App 端发现了一个名为“Bidi1”的新型语音模型,预示着 OpenAI 正筹备开启更大规模的测试,为 AI 语音交互带来前所未有的流畅体验。

长期以来,AI 语音助手往往遵循着“我问、你答”的线性逻辑,用户必须等待 AI 将上一段话完整输出后,才能进行下一次互动。而 Bidi1语音模型的出现,彻底打破了这一桎梏。其核心亮点在于“双向并行处理”:AI 不仅能在说话的同时实时监听用户的输入,还能在对话进行到一半时,立即响应用户的打断或新指令。

告别“你问我答”:ChatGPT 语音功能重磅升级,双向实时对话时代开启

这种交互模式极大地拉近了人机对话与真实人类沟通的距离。在演示案例中,当模型正在执行“从1数到10”的任务时,用户随时插话要求其“倒数”,模型能够无缝衔接并立刻切换逻辑执行新指令。这种“边听边回、实时响应”的交互逻辑,彻底告别了僵硬的等待周期,让对话变得极其自然、丝滑。

在界面操作层面,Bidi1的辨识度也相当高。当用户在设置的模型选择器中选中该选项后,原有的语音气泡将转变为醒目的黄色,以提示用户当前已切换至这一高级语音模式。

虽然 OpenAI 官方尚未对此进行大范围的正式发布,但根据目前的测试反馈来看,这一功能的上线已经进入倒计时。从辅助工具到真正的对话伙伴,ChatGPT 的这一轮升级,不仅提升了语音交互的效率,更在人机协作的沉浸感上迈出了重要的一步。对于习惯通过语音处理事务的用户而言,一个更懂“听话”且反应迅捷的智能助手即将触手可及。

美国测试显示,Anthropic公司的AI模型Mythos在数小时内检出政府高机密系统多处漏洞,效率远超传统人工。参议员沃纳在听证会上引述国安局上将拉德的说法,证实该工具仅数小时便完成漏洞定位,凸显AI在网络安全领域的潜力。

美国AI公司Legion因政府禁令起诉联邦政府。由于Anthropic依出口管制规定禁止向外国公民提供最先进AI模型,导致Legion加拿大籍开发团队失去核心工具,公司称面临生存危机,已在华盛顿联邦法院提起诉讼。

AI编程工具Cursor将推出首个完全自主训练的AI基础模型,同步发布Git平台Origin与iOS测试版移动应用。此举标志着Cursor从单一代码编辑器升级为面向人类和AI智能体的综合性开发者生态平台。

火山引擎发布豆包音频生成模型1.0,支持文本或音频输入,端到端生成完整音频作品。核心突破是单条Prompt即可同步生成对白、音效和背景音乐,无需传统多轨剪辑。该技术大幅简化音频制作流程,让用户像“音频导演”一样高效产出成片级音频,彻底告别手动对齐混音的复杂后期工作。

火山引擎发布豆包音频生成模型1.0,以“多模态参考生成”和“长时音色一致性”两大核心技术,简化传统音频后期流程,可一站式生成对白、音效与配乐,提升创作效率。

告别“你问我答”:ChatGPT 语音功能重磅升级,双向实…

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...