阿里巴巴推出Qwen-Audio系列，打造通用音频理解和交互平台

2023年12月15日由 neo 发表 1004 0

Qwen-Audio

阿里巴巴集团的研究人员开发了Qwen-Audio，这是一个面向多样化任务的大规模音频-语言模型。他们采用了一个基于层次标签的多任务框架，解决了共同训练的干扰问题。Qwen-Audio在各种音频类型和任务上表现出色，无需任务特定的微调。Qwen-Audio-Chat在Qwen-Audio的基础上，支持多轮对话和多种音频场景，展示了它的通用音频理解和交互能力。

Qwen-Audio超越了以往的音频-语言模型，它不仅处理语音，还包括自然声音、音乐和歌曲，实现了不同粒度的数据集的共同训练。该模型在语音感知和识别任务上优秀，无需任务特定的修改。Qwen-Audio-Chat进一步扩展了这些能力，与人类的意图一致，支持音频和文本输入的多语言、多轮对话，展现了强大和全面的音频理解。

Qwen-Audio通过扩展预训练，覆盖了30个任务和多种音频类型，弥补了LLM的音频理解缺陷。一个多任务框架促进了知识共享，缓解了干扰。Qwen-Audio在基准测试上卓越，无需任务特定的微调。Qwen-Audio-Chat作为一个扩展，支持多轮对话和多种音频中心的场景，展示了LLM的全面音频交互能力。

Qwen-Audio和Qwen-Audio-Chat是通用音频理解和灵活人机交互的模型。Qwen-Audio采用了多任务预训练的方法，优化了音频编码器，冻结了语言模型的权重。Qwen-Audio-Chat采用了监督式的微调，优化了语言模型，固定了音频编码器的权重。训练过程包括多任务预训练和监督式微调。Qwen-Audio-Chat实现了多样化的人机交互，支持音频和文本输入的多语言、多轮对话，展示了它的适应性和全面的音频理解。

Qwen-Audio在多种基准任务上取得了最先进的结果，远超过了没有任务特定微调的对手。它在AAC、SWRT ASC、SER、AQA、VSC和MNA等任务上始终显著地领先于基准。该模型在CochlScene、ClothoAQA和VocalSound上建立了新的记录，展示了强大的音频理解能力。Qwen-Audio在各种分析中的优异性能证明了它在实现具有挑战性的音频任务的最先进结果方面的有效性和能力。

Qwen-Audio系列引入了具有通用理解能力的大规模音频-语言模型，覆盖了多种音频类型和任务。通过一个多任务训练框架开发的这些模型，实现了知识共享，并克服了不同数据集中不同文本标签的干扰。Qwen-Audio在基准测试上取得了令人印象深刻的性能，无需任务特定的微调，超越了以前的工作。Qwen-Audio-Chat扩展了这些能力，支持多轮对话和多种音频场景，展示了与人类意图的强大的一致性，并促进了多语言的交互。

Qwen-Audio的未来探索包括扩展不同音频类型、语言和特定任务的能力。改进多任务框架或探索替代的知识共享方法可以解决共同训练中的干扰问题。研究任务特定的微调可以提高性能。持续更新基于新的基准、数据集和用户反馈的目标，旨在提高通用音频理解。Qwen-Audio-Chat被完善，以与人类意图保持一致，支持多语言交互，并实现动态的多轮对话。

文章来源：https://www.marktechpost.com/2023/12/14/alibaba-researchers-introduce-qwen-audio-series-a-set-of-large-scale-audio-language-models-with-universal-audio-understanding-abilities/

标签：

阿里巴巴

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌推出MusicFX，一款只需几个词就能创作的音乐生成工具

下一篇和AI用声音聊天！OpenAI现已免费开放ChatGPT语音功能

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来