Mega-ASR：通过扩展真实世界声学模拟实现野外语音识别

Mega-ASR 框架通过复合数据构建和渐进式声学到语义优化技术，提升了真实世界语音识别的鲁棒性。该框架引入了 Voices-in-the-Wild-2M 数据集，覆盖 7 种经典声学现象和 54 种物理上合理的复合场景，并采用声学到语义渐进式监督微调和双粒度 WER 门控策略优化进行训练。实验表明，Mega-ASR 在恶劣条件下的 ASR 基准测试中显著优于现有最先进系统，在 VOiCES R4-B-F 上达到 45.69% 对比 54.01%，在 NOIZEUS Sta-0 上达到 21.49% 对比 29.34%。在复杂复合声学场景中，Mega-ASR 相对于强大的开源和闭源基线实现了超过 30% 的相对 WER 降低，为野外鲁棒 ASR 建立了可扩展的范式。

核心要点

提出了 Mega-ASR 框架，结合可扩展的复合数据构建与渐进式声学到语义优化，解决真实环境下的“声学鲁棒性瓶颈”。
引入了 Voices-in-the-Wild-2M 数据集，覆盖 7 种经典声学现象和 54 种物理上合理的复合场景。
训练方法包括 Acoustic-to-Semantic Progressive Supervised Fine-Tuning 和 Dual-Granularity WER-Gated Policy Optimization。
在恶劣条件 ASR 基准测试中，Mega-ASR 显著优于先前最先进系统：VOiCES R4-B-F 上 45.69% vs. 54.01%，NOIZEUS Sta-0 上 21.49% vs. 29.34%。
在复杂复合声学场景中，相对于强大的开源和闭源基线，实现了 超过 30% 的相对 WER 降低。

正文

尽管自动语音识别（ASR）和大型音频语言模型取得了快速进展，但在真实世界环境中的鲁棒识别仍然受到“声学鲁棒性瓶颈”的限制：模型在严重、复合失真下往往会失去声学基础，并产生遗漏或幻觉。

为了解决这一问题，我们提出了 Mega-ASR，一个统一的野外 ASR 框架，它结合了可扩展的复合数据构建与渐进式声学到语义优化。我们引入了 Voices-in-the-Wild-2M，覆盖 7 种经典声学现象和 54 种物理上合理的复合场景，并使用 Acoustic-to-Semantic Progressive Supervised Fine-Tuning 和 Dual-Granularity WER-Gated Policy Optimization 训练 Mega-ASR。

大量实验表明，Mega-ASR 在恶劣条件下的 ASR 基准测试中取得了显著优势（在 VOiCES R4-B-F 上为 45.69% vs. 54.01%，在 NOIZEUS Sta-0 上为 21.49% vs. 29.34%）。在复杂的复合声学场景中，Mega-ASR 相对于强大的开源和闭源基线进一步实现了 超过 30% 的相对 WER 降低，为野外鲁棒 ASR 建立了一个可扩展的范式。

关联概念

自动语音识别 (ASR)
声学鲁棒性
复合数据构建
渐进式声学到语义优化
WER (词错误率)

可操作项

可以尝试使用 Mega-ASR 框架的代码（https://github.com/xzf-thu/Mega-ASR）在自己的数据集上进行实验，特别是针对包含多种声学失真的真实世界语音数据。可以复现其 Voices-in-the-Wild-2M 数据集的构建方法，或应用其渐进式微调和策略优化技术来提升现有 ASR 模型的鲁棒性。

原文: Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation
自动加工于 2026-05-21 20:52

核心要点

正文

关联概念

可操作项

更多 AI·模型 文章

WorldKV：通过世界检索和压缩实现高效的世界记忆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

π-Bench：评估主动个人助理代理在长视界工作流中的表现

HRM-Text：超越规模的高效预训练

更多 AI·模型文章