清华大学和字节跳动的研究人员开发了一种新的人工智能系统,叫做SALMONN,它可以让机器理解和推理语音、声音和音乐等音频输入。
在arXiv上发表的一篇研究论文中,科学家们将SALMONN描述为“一种能够处理语音、音频事件和音乐输入的大型语言模型(LLM)”。该系统将两种专门的AI模型——一个用于处理语音,一个用于处理通用音频——合并为一个单一的LLM,可以对音频提示生成文本回应。
“SALMONN不仅仅是语音输入或音频事件输入,它可以感知和理解各种音频输入,因此获得了诸如多语言语音识别与翻译和音频语音共同推理等新的能力。”论文指出,“这可以被视为给LLM‘耳朵’和认知听力能力。”
一个能听懂和理解的AI模型
研究人员展示了SALMONN在一系列音频输入上的能力,包括语音、枪声、鸭子叫声和音乐等声音片段。当给出每个声音片段时,系统生成了适当的描述性文本回应,展示了对音频内容的理解。
“文本提示用于指导SALMONN回答关于通用音频输入的开放式问题,答案在LLM文本回应中。”论文解释道。
根据研究人员的说法,这种认知音频问答技术代表了对传统AI语音和音频系统的重大突破,后者仅限于基本的转录。
“与传统的语音和音频处理任务如语音识别和音频字幕相比,SALMONN利用LLM的通用知识和认知能力实现了以认知为导向的音频感知,这极大地提高了模型的通用性和任务的丰富性。”论文指出。
研究人员暗示SALMONN还具有跨模态能力,比如遵循口头指令,而无需经过任何明确的语音到文本翻译训练。
“SALMONN只使用基于文本命令的训练数据,听取口头命令也是一种跨模态的新能力。”他们写道。
虽然目前的能力是有希望的,但研究人员承认模型在推理深度方面有局限性。然而,他们对未来的潜力持乐观态度,认为SALMONN“向具有听力能力的人工普适智能迈出了一步。”
SALMONN对企业数据分析的潜在影响
对于技术决策者来说,这一发展可能预示着一个新时代的到来,即通过语音激活数据分析和商业智能。SALMONN理解和解释各种音频输入的能力可能会彻底改变企业与数据的互动方式,消除了传统的基于文本的输入的需要,并为语音激活分析和数据驱动决策开辟了新的可能性。
此外,该团队还发布了一个基于网络的演示,让用户可以亲身体验SALMONN的能力。该模型也可以在Hugging Face上找到,Hugging Face是一个领先的托管和分享机器学习模型的平台。
在人工智能快速发展的世界中,SALMONN的推出是对机器学习和认知计算未来的一个有趣的展望。它凸显了字节跳动和清华大学推动人工智能实现更多的承诺。当我们走向一个人工智能不仅能通过计算机视觉“看见”而且能通过认知音频处理“听见”的世界时,对于企业和消费者来说,这意味着深远的影响。