微软推出面向开放式任务的音频语言模型Pengi
2023年05月29日 由 Camellia 发表
571793
0
通过整合音频和文本输入,Pengi生成自由格式的文本作为输出,而不需要额外的微调。
迁移学习在推进音频处理、实现自我监督学习和零样本学习技术方面发挥了重要作用。然而,目前的模型缺乏为开放式任务生成语言的能力,如音频字幕或音频问答。针对这一限制,微软的研究人员推出了开创性的音频语言模型Pengi,采用迁移学习将所有音频任务重新构建为文本生成任务。通过整合音频和文本输入,Pengi生成自由格式的文本作为输出,而不需要额外的微调。涉及22个下游任务的广泛评估展示了Pengi最先进的性能,强调了通过语言模型与音频模型的集成在通用音频理解方面取得的重大进展。
音频语言模型通过将所有与音频相关的任务视为文本生成任务来利用迁移学习。它的工作原理是将录音和相关文本作为输入,随后产生自由格式的文本作为输出。Pengi的统一架构允许处理开放式和封闭式任务,而不需要额外的微调或特定任务的扩展。
在训练期间,Pengi接触到由音频—文本对组成的庞大数据集。该数据集包含各种音频记录,包括人类语音、音乐和各种声音,以及相应的文本转录本。音频记录通过音频编码器进行处理,该编码器将其转换为连续嵌入的序列。同时,文本转录本经过文本编码器处理,将其转换成相应的连续嵌入序列。这两个嵌入序列被整合为一个前缀,以提示预训练的冻结语言模型。语言模型随后以音频和文本输入为条件,以自回归的方式生成标记。
为了评估Pengi的能力,对包括音频字幕、音频问答和音频事件检测在内的22个下游任务进行评估。Pengi在这些任务中展示了最先进的性能,证实了它作为一种适用于广泛任务的强大音频语言模型的功效。
Pengi的功能包括为录音生成字幕,回答与录音相关的问题,检测录音中的事件,将录音翻译成文本,总结录音,以及生成创意文本格式,如诗歌,代码,脚本,音乐作品,电子邮件和信件。
虽然仍在开发中,但Pengi具有彻底改变音频交互的潜力。有了Pengi,与设备的自然对话变得可行,实现了以前无法实现的前所未有的音频相关功能。
来源:https://analyticsindiamag.com/microsoft-launches-pengi-an-audio-language-model-for-open-ended-tasks/