Inworld AI 近日推出了其最新的语音模型 —— 实时 TTS-2。这款模型通过 Inworld API 和 Inworld Realtime API 的研究预览版本,旨在改变传统语音 AI 的对话方式。以往,语音合成模型仅仅是将文本转换为音频,而 TTS-2则能够实时听取交流中的音频,感知用户的语调、节奏和情感状态而提供更自然的对话体验。
TTS-2的关键特点在于其闭环系统架构。与传统模型不同,它不仅仅依赖文字转录,而是直接接收交流中的实际音频。这一差异使得模型能够理解同一句话在不同情境下的含义。例如,“好吧,算了” 在沮丧的语气和轻松的语气中传达的情感大相径庭。TTS-2能够捕捉到这些情感信息,提升了对话的连贯性和真实感。

该模型配备了四大功能,进一步增强了其独特性。首先是 “语音指令” 功能,允许开发者在推理时用简单的语言提示来引导语音的表达,而非仅仅选择固定的情感标签。其次是 “对话意识”,即闭环架构让模型理解上下文。此外,TTS-2支持跨语言的语音识别和输出,用户可以在同一对话中无缝切换语言,保持声音的统一性。最后是 “高级语音设计”,允许开发者通过描述性文字生成可重复使用的声音,无需参考音频。
TTS-2的推出标志着 Inworld AI 在语音技术上的进一步突破。该模型不仅能处理高质量的音频输出,更专注于上下文意识和语音的一致性,提升了用户体验。通过这些创新,Inworld AI 希望在竞争激烈的语音 AI 市场中脱颖而出。
🎤 ** 实时对话 **:TTS-2通过闭环系统捕捉用户的音频,理解情感和语调。
🌍 ** 多语言支持 **:一个声音身份可以在100多种语言中保持一致,支持中间切换。
🛠️ ** 语音设计灵活 **:开发者可通过描述性文字生成可重复使用的声音,无需额外音频参考。
OpenAI发布全新语音模型GPT-Realtime,专为语音AI Agent设计,能生成自然流畅的语音,模仿人类语调、情感和语速。应用覆盖客服、教育、金融和医疗等领域,新增Marin和Cedar两种语音风格,为智能语音助手提供强大支持。
SAP近日宣布收购成立仅18个月的德国初创公司Prior Labs,并计划未来四年投入约10亿欧元,打造专注于结构化数据的企业AI实验室。此举旨在弥补大语言模型在处理表格数据等企业核心业务流程中的短板,将AI应用从文本转向企业数据命脉。
Soul在冲击IPO关键期发布年度生态安全报告,展示其利用七大自研AI模型构建的社交防护体系。这些模型全天候拦截虚假违规信息,通过技术反诈与治理能力,成为公司核心竞争力的重要组成部分。
据分析师郭明錤透露,OpenAI 首款手机计划于2027年初量产,搭载定制版联发科天玑9600处理器,配备增强型HDR图像信号处理器,旨在提升智能体验和视觉效果。
维信诺发布2025全年及2026年一季度业绩,营收81.44亿元,核心OLED产品营收同比增5.07%。AMOLED智能手机面板出货量稳居全球前三,穿戴产品连续两年全球第一,覆盖荣耀、小米、OPPO、vivo等主流品牌。

关注 “悠AI” 更多干货技巧行业动态