小米官方技术微博传来喜讯,其大模型团队在音频推理领域取得了突破性进展。受DeepSeek-R1项目的启发,该团队创新性地引入了强化学习算法,应用于多模态音频理解任务中。短短一周内,他们便实现了64.5%的准确率,这一成绩在国际知名的MMAU(大规模多任务音频理解与推理)基准测试中拔得头筹,并同时向公众开源了相关技术。
MMAU基准是衡量音频推理能力的重要标尺,涵盖了10,000个涵盖语音、环境声音及音乐样本的测试用例,旨在全面评估模型在各项音频理解技能上的表现。人类专家在该基准上的准确率高达82.23%,而此前表现最佳的模型分别是OpenAI的GPT-4o(准确率为57.3%)和Google DeepMind的Gemini2.0Flash(准确率为55.6%)。
小米团队的研究始于对清华大学发布的AVQA数据集的微调,初步实现了51.8%的准确率。然而,真正的飞跃发生在将DeepSeek-R1的群相对策略优化(GRPO)算法应用于Qwen2-Audio-7B模型之后。仅凭借38,000个AVQA训练样本,团队便成功将准确率提升至64.5%,超越了现有的商业模型表现。
研究过程中,团队还发现,若强制模型在训练过程中输出推理步骤,反而会导致准确率下降至61.1%。这表明,明确的思维链输出或许并不利于模型的训练过程,而强化学习的实时反馈机制则更有效地帮助模型锁定了高质量答案的分布范围。尽管已取得显著成果,但当前的准确率与人类专家水平仍存在差距。
小米大模型团队的这一实验结果,不仅彰显了强化学习在音频推理领域的独特优势,也为未来的相关研究开辟了新的道路。为促进学术界与工业界的进一步交流与合作,团队还开源了训练代码、模型参数及技术报告。
相关资源链接如下:
训练代码:https://github.com/xiaomi-research/r1-aqa
模型参数:https://huggingface.co/mispeech/r1-aqa
技术报告:https://arxiv.org/abs/2503.11197
互动演示:https://120.48.108.147:7860/