研究人员正在使用基于人类语音训练的AI模型来解码狗的秘密语言。这项研究来自密歇根大学、墨西哥国家天体物理研究所和光学与电子研究所的研究人员。上周在国际会议上展示的具有前景的研究结果表明,当今的AI模型可能是理解动物语言的关键,至少在一定程度上是如此。
“关于与我们共享这个世界的动物,我们还有很多不了解的地方,”密歇根大学人工智能实验室主任拉达·米哈尔恰(Rada Mihalcea)在一份新闻稿中表示。“人工智能的进步可以用来革新我们对动物交流的理解,而我们的发现表明,我们可能不必从零开始。”
该研究利用最先进的AI语音模型Wav2Vec2来识别任何给定犬吠声背后的狗的情绪、性别和品种。研究人员使用了两种不同的数据集进行训练并比较了结果:一种仅从狗叫声开始训练,另一种先在人类语音上进行预训练,然后再对狗叫声进行微调。在将近1000小时的人类语音录音上进行预训练的模型表现更好。然后,研究人员在一个由74只狗的叫声(吠声)组成的数据集上对该模型进行了微调:其中42只是吉娃娃,21只是法国贵宾犬,11只是雪纳瑞犬。
这个在人类和狗身上训练的AI模型能够以62%的准确率识别狗的情绪,以62%的准确率识别狗的品种,以69%的准确率识别狗的性别,以及以50%的准确率从一群狗中识别出特定的狗。所有这些分数都超过了仅对狗进行训练的AI模型,这表明来自人类语音的声音和模式可能作为理解动物的基础。
在试图解读狗吠背后的情绪时,研究人员假设狗的叫声与其背景有关。现有证据表明,猴子和草原犬鼠发出的声音可以根据它们所处的情境来预测。在这项研究中,研究人员试图将狗的一些情绪归为攻击性吠叫、正常吠叫、负面尖叫声和负面咆哮声。虽然狗可能经历更多的情绪,但这些噪音在他们的数据集中大部分都有。
“通过使用最初在人类语音上训练的语音处理模型,我们的研究打开了一个新的窗口,让我们可以利用到目前为止在语音处理方面所建立的知识,开始理解狗吠声的细微差别,”米哈尔恰说。