​OpenAI 发布三款实时语音模型,针对推理对话、实时翻…

AI广播站56分钟前更新 小悠
3 0 0

OpenAI 近日正式推出了三款新型实时语音模型,旨在为开发者提供更先进的语音应用解决方案。这三款模型分别是 GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper,各自针对不同的应用场景。

GPT‑Realtime‑2 是首款具备 GPT‑5 级推理能力的语音模型。该模型能够处理复杂的请求,并以更自然的方式持续进行对话。它被专门设计用于实时语音交互,能够在用户提问或发出指令时,同时进行推理并保持对话的连贯性。此外,GPT‑Realtime‑2 还可以调用工具、处理用户的打断与更正,根据当前情境作出更贴切的回应。

​OpenAI 发布三款实时语音模型,针对推理对话、实时翻译和实时转录

第二款模型,GPT‑Realtime‑Translate,专注于实时翻译功能,支持 70 多种输入语言和 13 种输出语言。其设计目的在于尽可能地跟上说话者的语速,提供近乎 “同声传译” 的体验。这使得在跨语言通话、会议或直播等场景下,用户能够更流畅地交流。

GPT‑Realtime‑Whisper 是一款实时流式语音转写模型,着重于低延迟的语音转文本能力。该模型能够在说话者讲话的同时即时完成转录,为各类实时产品带来更快、更灵敏的表现。无论是直播字幕的实时生成,还是能跟上讨论节奏的会议记录,这款模型都展现了其广泛的应用潜力。

在接入方式与定价方面,OpenAI 表示这三款新模型已纳入其 Realtime API 体系。GPT‑Realtime‑2 的定价为每 100 万音频输入 Token 收费 32 美元,而每 100 万音频输出 Token 则收费 64 美元。GPT‑Realtime‑Translate 的费用为每分钟 0.034 美元,而 GPT‑Realtime‑Whisper 的定价为每分钟 0.017 美元。开发者可以通过 Playground 直接测试这些新模型,或在已有应用中快速集成。

在生成式 AI 不断朝向多模态和实时交互发展的背景下,OpenAI 这次推出的三款语音模型将为开发者提供更便捷的工具,推动语音智能的应用创新。

🔊 GPT‑Realtime‑2 具备高级推理能力,实现更自然的实时对话。  

🌐 GPT‑Realtime‑Translate 支持多种语言,提供接近同声传译的翻译体验。  

📝 GPT‑Realtime‑Whisper 实现低延迟转录,适用于直播和会议记录等场景。

OpenAI 发布官方命令行工具 openai-cli,开发者无需编写 SDK 代码即可在终端直接调用 API,提升本地开发与部署效率。项目以 Apache 2.0 协议开源,支持 Homebrew 或 Go 安装,采用资源化命令结构,操作直观清晰。

Anthropic 估值飙升至1.2万亿美元,超越OpenAI约20%,成为全球AI赛道新领跑者。若成功IPO,将创商业史纪录。

OpenAI自研“Nexus”芯片项目遇阻,因博通要求微软承诺采购首批产能40%后才愿投资。该项目计划2030年前建成10吉瓦算力集群,旨在摆脱对英伟达的依赖,但融资博弈使合作陷入僵局。

OpenAI于5月7日推出“可信联系人”安全功能,通过AI监测和审核团队识别用户自残倾向,为心理危机中的成年人提供数字生命线,以降低现实安全风险。

OpenAI联合AMD、博通、英特尔、微软及英伟达等五大巨头,发布多路径可靠连接(MRC)协议,旨在解决大规模AI训练中的网络延迟与故障问题。该协议已通过开放计算项目(OCP)开源,并推动从三层架构向两层设计的转变,以击碎“单点故障”,提升训练稳定性与效率。

​OpenAI 发布三款实时语音模型,针对推理对话、实时翻…

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...