MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-21 1 min read ★ ★ ★ ★ ☆

Mega-ASR:通过扩展真实世界声学模拟实现野外语音识别

阅读原文 ↗

Mega-ASR 框架通过复合数据构建和渐进式声学到语义优化技术,提升了真实世界语音识别的鲁棒性。该框架引入了 Voices-in-the-Wild-2M 数据集,覆盖 7 种经典声学现象和 54 种物理上合理的复合场景,并采用声学到语义渐进式监督微调和双粒度 WER 门控策略优化进行训练。实验表明,Mega-ASR 在恶劣条件下的 ASR 基准测试中显著优于现有最先进系统,在 VOiCES R4-B-F 上达到 45.69% 对比 54.01%,在 NOIZEUS Sta-0 上达到 21.49% 对比 29.34%。在复杂复合声学场景中,Mega-ASR 相对于强大的开源和闭源基线实现了超过 30% 的相对 WER 降低,为野外鲁棒 ASR 建立了可扩展的范式。


核心要点

  1. 提出了 Mega-ASR 框架,结合可扩展的复合数据构建与渐进式声学到语义优化,解决真实环境下的“声学鲁棒性瓶颈”。
  2. 引入了 Voices-in-the-Wild-2M 数据集,覆盖 7 种经典声学现象和 54 种物理上合理的复合场景。
  3. 训练方法包括 Acoustic-to-Semantic Progressive Supervised Fine-Tuning 和 Dual-Granularity WER-Gated Policy Optimization。
  4. 在恶劣条件 ASR 基准测试中,Mega-ASR 显著优于先前最先进系统:VOiCES R4-B-F 上 45.69% vs. 54.01%,NOIZEUS Sta-0 上 21.49% vs. 29.34%。
  5. 在复杂复合声学场景中,相对于强大的开源和闭源基线,实现了 超过 30% 的相对 WER 降低。

正文

尽管自动语音识别(ASR)和大型音频语言模型取得了快速进展,但在真实世界环境中的鲁棒识别仍然受到“声学鲁棒性瓶颈”的限制:模型在严重、复合失真下往往会失去声学基础,并产生遗漏或幻觉。

为了解决这一问题,我们提出了 Mega-ASR,一个统一的野外 ASR 框架,它结合了可扩展的复合数据构建与渐进式声学到语义优化。我们引入了 Voices-in-the-Wild-2M,覆盖 7 种经典声学现象和 54 种物理上合理的复合场景,并使用 Acoustic-to-Semantic Progressive Supervised Fine-Tuning 和 Dual-Granularity WER-Gated Policy Optimization 训练 Mega-ASR。

大量实验表明,Mega-ASR 在恶劣条件下的 ASR 基准测试中取得了显著优势(在 VOiCES R4-B-F 上为 45.69% vs. 54.01%,在 NOIZEUS Sta-0 上为 21.49% vs. 29.34%)。在复杂的复合声学场景中,Mega-ASR 相对于强大的开源和闭源基线进一步实现了 超过 30% 的相对 WER 降低,为野外鲁棒 ASR 建立了一个可扩展的范式。


关联概念

  • 自动语音识别 (ASR)
  • 声学鲁棒性
  • 复合数据构建
  • 渐进式声学到语义优化
  • WER (词错误率)

可操作项

可以尝试使用 Mega-ASR 框架的代码(https://github.com/xzf-thu/Mega-ASR)在自己的数据集上进行实验,特别是针对包含多种声学失真的真实世界语音数据。可以复现其 Voices-in-the-Wild-2M 数据集的构建方法,或应用其渐进式微调和策略优化技术来提升现有 ASR 模型的鲁棒性。


原文: Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation
自动加工于 2026-05-21 20:52

#语音识别#ASR#声学模拟#鲁棒性#数据集

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA