语音识别技术的边界被彻底打破,全球7000多种语言中,有1600多种从此能被机器“听懂”,其中包括500种从未被任何AI系统覆盖的语言。
Meta公司近日发布了名为Omnilingual ASR的革命性语音识别系统,以其支持超过1600种语言的能力,为全球语音技术领域树立了新标杆。
这一系统特别涵盖500种“低资源语言”,这些语言以往在互联网上几乎没有任何数字技术支撑。
通过全面的开源策略和创新的“上下文学习”能力,Meta不仅让AI听见了更多语言,更让全球各地社区能亲手教AI识别自己的母语。
01 破局数字鸿沟
在当今数字时代,语言资源分布不均成为一个突出问题。全球7000多种活跃语言中,仅有几百种享受过现代语音技术的支持。
绝大多数语言使用者——从非洲部落的土著、亚马逊雨林的族群,到乡野小镇讲着古老方言的老人——始终被排除在数字世界之外。
Meta的FAIR团队开发的Omnilingual ASR系统直接应对这一挑战。系统原生支持超过1600种语言,远远超过OpenAI开源Whisper模型支持的99种语言。
这一突破意味着,全球众多使用小语种的人们第一次有了被AI流利听懂的可能性。
02 技术创新突破
Omnilingual ASR的核心优势体现在其高精度与强大扩展性上。测试数据显示,系统在78%的支持语言中实现了字符错误率低于10% 的高标准表现。
对于拥有至少10小时训练音频的资源丰富语言,这一精度标准覆盖率达到95%;即使是训练资源不足10小时的低资源语言,也有36% 达到相同标准。
系统最具创新性的特点是引入“自带语言”的情境学习功能,借鉴大语言模型技术,用户只需提供少量音频文本配对样本,即可让系统快速学习新语言。

03 开源生态建设
为推动技术普及,Meta采取全面开源策略。以Apache 2.0许可证发布基于PyTorch的fairseq2框架模型,提供从3亿参数到70亿参数的不同版本。
同步发布的是包含350种代表性不足语言的大型转录语音数据集,采用知识共享署名许可协议。
这些举措将助力全球开发者定制本地化语音识别方案,特别为少数民族和濒危语言群体提供技术支撑。
与之前一些AI模型的“半开源”模式不同,Omnilingual ASR的开放姿态十分坦荡,为技术民主化树立了榜样。
04 全球合作网络
Omnilingual ASR能够覆盖如此多语言,离不开全球合作的支撑。Meta与各地的语言组织和社区携手收集了大量语音样本。
他们与Mozilla基金会的Common Voice项目、非洲的Lanfrica/NaijaVoices等机构合作,从偏远地区招募母语人士录制语音。
为确保数据多样且贴近生活,这些录音往往采用开放式提问,让说话人自由表达日常想法。所有参与者都获得了合理报酬,并遵循文化敏感性的指导进行采集。
这种社区共创的模式赋予了Omnilingual ASR深厚的语言学知识和文化理解,也让当地社区自己成为语言数字化的主角。
05 实际应用前景
Omnilingual ASR的推出不仅填补了语言技术覆盖的空白,更通过开源生态建设促进全球语言平等,为教育、医疗、文化保护等领域的数字化转型提供新可能。
Meta也坦率承认系统尚未完美。“这是实验性软件,”公司表示,“虽然我们努力追求准确性,但转录并不完美。您应该始终仔细检查输出结果,并进行相应编辑,以确保特定用例的准确性。”
然而,对于全球众多濒危语言的社区来说,这项技术带来了前所未有的机遇——他们的母语第一次有机会登上AI的舞台,被世界听见。
这个被业界称为“翻译界ChatGPT时刻”的突破,不仅仅关乎技术,更关乎平等与包容。Omnilingual ASR就像一座突然打开的桥梁,连接起那些从未被数字世界倾听的角落。
在技术的赋能下,全球约5400种有文字的语言理论上都有机会被AI理解。从西非的Hwana语,到巴布亚新几内亚的Rotokas语,再到墨西哥的Güilá Zapotec语,这些曾经被数字世界遗忘的语言,终于找到了通往未来的通道。

关注 “悠AI” 更多干货技巧行业动态