OpenAI 吞并金融初创 Hiro Finance,实质…

AI广播站21小时前更新 小悠
9 0 0

3月6日,出门问问(Mobvoi)联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等顶尖学术机构,共同开源新一代语音生成模型Spark-TTS,并重磅推出其商业化高品质TTS引擎——TicVoice7.0。作为出门问问第七代TTS引擎,TicVoice7.0在语音生成领域实现了重大突破,开启了全新的语音生成范式。

TicVoice7.0的核心优势在于其创新的语音编码方式和建模结构。该引擎采用BiCodec编码技术,将语音编码为互补的两部分:固定序列长度的Global Token和低码率的Semantic Tokens。Global Token负责建模时序无关的全局特征,如音色,确保语音生成的全局可控性;Semantic Tokens则以wav2vec2.0提取的特征为输入,编码与文本紧密相关的信息,确保语义的强相关性。这种设计不仅解决了传统语音编码中存在的问题,还实现了语音token建模与文本token建模的高度统一,使语音生成更加高效且可控。

OpenAI 吞并金融初创 Hiro Finance,实质是人才收购

基于这一创新,TicVoice7.0展现出卓越的语音克隆能力和情感表现力。它能够在3秒内敏锐捕捉声纹特征,让AI不仅能“说人话”,还能模仿人类的叹息、停顿等细微情感表达。相比上一代语音大模型,TicVoice7.0在音色相似度、情感表现及稳定性上均有显著提升,国际通用MOS评分从3.9提升至4.2,情感表现力更强,听感更自然、悦耳且稳定。

此外,TicVoice7.0在个性化定制方面也表现出色。用户可以通过调整性别、语速、基频等多种属性,精准塑造独特的声音风格。在“至臻Pro-精品发音人”定制方面,用户仅需提供20-200句语料,即可获得播音级专业配音体验,国际通用MOS评分从4.3提升至4.7,达到广播级水平,为影视、游戏等场景提供了专业级的语音生成解决方案。

目前,出门问问已将TicVoice7.0落地于旗下AI配音产品“魔音工坊”,为用户带来更好的服务和体验。该引擎不仅在客服、有声书、情感直播、影视解说等应用场景中表现出色,还通过开源生态与产学研深度协同,为行业发展注入了新动能。

MiniMax今日宣布推出新一代语音生成模型Speech2.5,这一升级版模型在全球语音技术领域再次树立了新的标杆,进一步巩固了其作为全球最强语音模型的地位。Speech2.5在多语种表现力、音色复刻以及语种覆盖范围等方面均实现了显著提升。

与今年5月发布的Speech02相比,Speech2.5在多语种表现力上取得了飞跃性进步,尤其在中文方面继续保持全球最强水平,同时英文及其他多语种的表现也得到了全面提升。该模型在字错率、相似度和自然韵律度等方面均超越了前代产品,用户可以在40种语言之间轻松切换,无论是商务会议、日常对话还是英文播客,都能提供更加自然流畅的语音体验,彻底摆脱了以往语音合成中常见的“机械感”。

在科技飞速发展的今天,人工智能已经渗透到我们生活的方方面面,从智能语音助手到各种自动化服务,AI正在以一种前所未有的方式改变我们的生活。今天,我要给大家介绍一项超级酷炫的技术——Spark-TTS,一个基于Qwen2.5模型的高效文本转语音系统。它不仅能“克隆”你的声音,还能根据你的需求“定制”出全新的声音!是不是听起来很神奇?什么是Spark-TTS?Spark-TTS是一种新型的文本转语音(TTS)系统,它的核心是BiCodec——一种单流语音编解码器。这个编解码器可以把语音分解成两种互补的

日前,一款名为 Spark-TTS 的先进文本转语音系统引发了 AI 社区的广泛讨论。根据最新的 X 帖子和相关研究,这款系统以其零样本语音克隆和细粒度语音控制能力脱颖而出,展现了语音合成领域的重大突破。这款系统充分利用了大型语言模型(LLM)的强大能力,致力于实现高度准确且自然的语音合成,适用于研究和商业领域。Spark-TTS 的设计理念强调简洁与高效。该系统完全基于 Qwen2.5构建,摒弃了以往需要额外生成模型的复杂流程。与其他模型不同,Spark-TTS 直接从 LLM 预测的代码中重建音频

腾讯宣布开源其新研发的图像转视频生成框架 ——HunyuanVideo-I2V。该模型的发布是在其成功开源 HunyuanVideo 之后的又一重要进展,旨在推动开放源代码社区的深入探索。HunyuanVideo-I2V 结合了先进的视频生成技术,能够将静态图像转换为生动的视频内容,为创作者提供了更多的可能性。HunyuanVideo-I2V 利用了一个预训练的多模态大语言模型作为文本编码器,显著增强了模型对输入图像语义内容的理解能力。这意味着,用户输入的图像能够通过模型生成语义图像标记,这些标记与视频潜在标记相结

腾讯元宝是一款支持腾讯混元(Turbo/T1)和DeepSeek(V3/R1)大模型的AI助手工具,用户可以不限量使用其联网搜索和文件解析功能,以提升工作和学习效率。此次更新的核心亮点在于用户可以根据需求选择分享“短图”(仅展示回答结果)或“长图”(包含详细推理过程),使分享内容更加个性化和多样化。

OpenAI 吞并金融初创 Hiro Finance,实质…

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...