近日,摩尔线程正式发布了其自主研发的音频理解大模型MooER,这是国内首个基于国产全功能GPU训练的开源项目。MooER不仅具备中文和英文的语音识别能力,还实现了中译英的语音翻译功能,标志着国内AI语音技术迈出了重要一步。
MooER在Covost2中译英测试集上的表现尤为亮眼,取得了25.2的BLEU分数,这一成绩已接近工业级应用水平。为了促进AI语音技术的进一步发展,摩尔线程AI团队已公开了MooER的推理代码及5000小时的训练模型,并计划在未来开放更多训练代码及8万小时的训练数据。
从技术层面来看,MooER采用了深度学习架构,特别是通过端到端的训练方式,直接从原始语音信号生成文本输出,省去了传统语音识别系统中复杂的模块划分。其内部结构设计包括Encoder、Adapter和Decoder(基于大型语言模型LLM)三个部分,分别负责特征提取、模型适应性和文本生成。此外,MooER还引入了LoRA(Low-Rank Adaptation)技术,通过优化模型中的少量参数,提高了训练效率和效果。
值得注意的是,MooER在训练过程中还采用了伪标签技术,即利用模型自身的预测结果作为训练数据,进一步增强了模型的学习能力。同时,该模型支持中文和英文的语音识别及中译英的语音翻译,展现了其强大的多语言处理能力。
摩尔线程的这一举措,无疑为国内AI语音技术的发展注入了新的活力。随着更多训练数据和代码的开放,MooER有望成为推动AI语音技术进步的重要力量。