阿里通义实验室发布语音识别大模型Fun-ASR1.5 30…

在人工智能语音领域，通用性与精准度的平衡一直是行业攻克的难点。 4 月 20 日，阿里通义实验室宣布正式推出语音识别大模型Fun-ASR1.5。这款模型凭借统一的大模型架构，实现了在多语言、多方言以及复杂语境下的跨越式突破。

据了解，Fun-ASR1. 5 的“听力”表现堪称全能。它不仅能够覆盖全球 30 种主流语言，还深度适配了汉语的七大方言体系及 20 多种地方口音。更令行业关注的是，该模型在传统文化领域的表现同样亮眼，即便面对语调跌宕、断句独特的古诗词吟诵，也能实现极高精度的实时转写。

阿里通义实验室发布语音识别大模型Fun-ASR1.5 30 种语言、方言古诗都能秒转！

目前，Fun-ASR1. 5 已正式上架阿里云百炼平台。阿里通义实验室表示，该模型将通过API服务的方式，为教育、传媒、金融、科技及文化等多个行业客户提供高效的语音技术支撑，助力各产业实现智能化办公与内容生产的升级。

阿里通义实验室推出FIPO算法，突破传统强化学习在复杂逻辑推理中的瓶颈。该算法通过Future-KL机制，精准识别关键推理步骤，有效解决模型在数学等复杂问题中推理长度停滞的问题，显著提升推理准确率和效率。

阿里通义实验室发布新型算法FIPO，通过引入“Future-KL”机制，有效解决纯强化学习在长文本推理中的“推理长度停滞”问题，提升复杂逻辑对齐训练效果。

阿里通义实验室Qwen Pilot团队推出FIPO算法，通过引入Future-KL机制，精准识别推理链中的关键Token，以优化大模型推理能力，突破传统强化学习方法在区分重要Token上的瓶颈。

阿里通义实验室推出PrismAudio框架，解决AI视频生成中音画不同步问题。该技术引入“思维链”机制，先分析视频内容再生成匹配音效，提升沉浸感。研究已被ICLR2026收录。

阿里通义实验室近期经历组织架构调整，将Qwen团队拆分为预训练、后训练等多条平行线。随后，原Qwen后训练负责人郁博文被曝已加入字节跳动，担任Seed团队视觉模型与多模态交互的后训练负责人。字节跳动尚未官方回应。

关注 “悠AI” 更多干货技巧行业动态

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...