Mega-ASR：通过扩展真实世界声学模拟实现野外语音识别

Mega-ASR 框架通过复合数据构建和渐进式声学到语义优化技术，提升了真实世界语音识别的鲁棒性。该框架引入 Voices-in-the-Wild-2M 数据集，覆盖 7 种经典声学现象和 54 种物理上合理的复合场景，并采用声学到语义渐进式监督微调和双粒度 WER 门控策略优化进行训练。实验表明，…