阿里通义实验室发布语音识别大模型Fun-ASR1.5 30…

AI广播站3小时前更新 小悠
4 0 0

在人工智能语音领域,通用性与精准度的平衡一直是行业攻克的难点。 4 月 20 日,阿里通义实验室宣布正式推出语音识别大模型Fun-ASR1.5。这款模型凭借统一的大模型架构,实现了在多语言、多方言以及复杂语境下的跨越式突破。

据了解,Fun-ASR1. 5 的“听力”表现堪称全能。它不仅能够覆盖全球 30 种主流语言,还深度适配了汉语的七大方言体系及 20 多种地方口音。更令行业关注的是,该模型在传统文化领域的表现同样亮眼,即便面对语调跌宕、断句独特的古诗词吟诵,也能实现极高精度的实时转写。

阿里通义实验室发布语音识别大模型Fun-ASR1.5 30 种语言、方言古诗都能秒转!

目前,Fun-ASR1. 5 已正式上架阿里云百炼平台。阿里通义实验室表示,该模型将通过API服务的方式,为教育、传媒、金融、科技及文化等多个行业客户提供高效的语音技术支撑,助力各产业实现智能化办公与内容生产的升级。

阿里通义实验室推出FIPO算法,突破传统强化学习在复杂逻辑推理中的瓶颈。该算法通过Future-KL机制,精准识别关键推理步骤,有效解决模型在数学等复杂问题中推理长度停滞的问题,显著提升推理准确率和效率。

阿里通义实验室发布新型算法FIPO,通过引入“Future-KL”机制,有效解决纯强化学习在长文本推理中的“推理长度停滞”问题,提升复杂逻辑对齐训练效果。

阿里通义实验室Qwen Pilot团队推出FIPO算法,通过引入Future-KL机制,精准识别推理链中的关键Token,以优化大模型推理能力,突破传统强化学习方法在区分重要Token上的瓶颈。

阿里通义实验室推出PrismAudio框架,解决AI视频生成中音画不同步问题。该技术引入“思维链”机制,先分析视频内容再生成匹配音效,提升沉浸感。研究已被ICLR2026收录。

阿里通义实验室近期经历组织架构调整,将Qwen团队拆分为预训练、后训练等多条平行线。随后,原Qwen后训练负责人郁博文被曝已加入字节跳动,担任Seed团队视觉模型与多模态交互的后训练负责人。字节跳动尚未官方回应。

阿里通义实验室发布语音识别大模型Fun-ASR1.5 30…

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...