Mega-ASR 框架通过复合数据构建和渐进式声学到语义优化技术,提升了真实世界语音识别的鲁棒性。该框架引入了 Voices-in-the-Wild-2M 数据集,覆盖 7 种经典声学现象和 54 种物理上合理的复合场景,并采用声学到语义渐进式监督微调和双粒度 WER 门控策略优化进行训练。实验表明,Mega-ASR 在恶劣条件下的 ASR 基准测试中显著优于现有最先进系统,在 VOiCES R4-B-F 上达到 45.69% 对比 54.01%,在 NOIZEUS Sta-0 上达到 21.49% 对比 29.34%。在复杂复合声学场景中,Mega-ASR 相对于强大的开源和闭源基线实现了超过 30% 的相对 WER 降低,为野外鲁棒 ASR 建立了可扩展的范式。
核心要点
- 提出了 Mega-ASR 框架,结合可扩展的复合数据构建与渐进式声学到语义优化,解决真实环境下的“声学鲁棒性瓶颈”。
- 引入了 Voices-in-the-Wild-2M 数据集,覆盖 7 种经典声学现象和 54 种物理上合理的复合场景。
- 训练方法包括 Acoustic-to-Semantic Progressive Supervised Fine-Tuning 和 Dual-Granularity WER-Gated Policy Optimization。
- 在恶劣条件 ASR 基准测试中,Mega-ASR 显著优于先前最先进系统:VOiCES R4-B-F 上 45.69% vs. 54.01%,NOIZEUS Sta-0 上 21.49% vs. 29.34%。
- 在复杂复合声学场景中,相对于强大的开源和闭源基线,实现了 超过 30% 的相对 WER 降低。
正文
尽管自动语音识别(ASR)和大型音频语言模型取得了快速进展,但在真实世界环境中的鲁棒识别仍然受到“声学鲁棒性瓶颈”的限制:模型在严重、复合失真下往往会失去声学基础,并产生遗漏或幻觉。
为了解决这一问题,我们提出了 Mega-ASR,一个统一的野外 ASR 框架,它结合了可扩展的复合数据构建与渐进式声学到语义优化。我们引入了 Voices-in-the-Wild-2M,覆盖 7 种经典声学现象和 54 种物理上合理的复合场景,并使用 Acoustic-to-Semantic Progressive Supervised Fine-Tuning 和 Dual-Granularity WER-Gated Policy Optimization 训练 Mega-ASR。
大量实验表明,Mega-ASR 在恶劣条件下的 ASR 基准测试中取得了显著优势(在 VOiCES R4-B-F 上为 45.69% vs. 54.01%,在 NOIZEUS Sta-0 上为 21.49% vs. 29.34%)。在复杂的复合声学场景中,Mega-ASR 相对于强大的开源和闭源基线进一步实现了 超过 30% 的相对 WER 降低,为野外鲁棒 ASR 建立了一个可扩展的范式。
关联概念
- 自动语音识别 (ASR)
- 声学鲁棒性
- 复合数据构建
- 渐进式声学到语义优化
- WER (词错误率)
可操作项
可以尝试使用 Mega-ASR 框架的代码(https://github.com/xzf-thu/Mega-ASR)在自己的数据集上进行实验,特别是针对包含多种声学失真的真实世界语音数据。可以复现其 Voices-in-the-Wild-2M 数据集的构建方法,或应用其渐进式微调和策略优化技术来提升现有 ASR 模型的鲁棒性。
原文: Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation
自动加工于 2026-05-21 20:52