今天,谷歌发布了DolphinGemma,这是一个开源AI模型,旨在通过分析海豚的点击声、哨声和爆发脉冲来解码海豚的交流。
该模型由谷歌与乔治亚理工学院和野生海豚项目(WDP)合作创建,学习海豚发声的结构,并能生成类似海豚的声音序列。
这一突破可能有助于确定海豚交流是否达到语言的水平。
DolphinGemma在世界上持续时间最长的水下海豚研究项目中训练,利用了自1985年以来WDP收集的数十年精心标记的音频和视频数据。
该项目通过他们称为“在他们的世界,以他们的方式”的非侵入性方法,研究了巴哈马的亚特兰大斑点海豚跨代的情况。
“通过识别重复的声音模式、簇和可靠的序列,该模型可以帮助研究人员揭示海豚自然交流中隐藏的结构和潜在的意义——这项任务以前需要巨大的人工努力”谷歌在其公告中表示。
该AI模型包含大约4亿个参数,小到可以在研究人员在现场使用的Pixel手机上运行。它使用谷歌的SoundStream分词器处理海豚声音,并预测序列中的后续声音,就像人类语言模型预测句子中的下一个词一样。
DolphinGemma并不是孤立运行的。它与CHAT(鲸类听觉增强遥测)系统一起工作,该系统将合成哨声与海豚喜欢的特定物体(如马尾藻、海草或围巾)相关联,可能建立一个用于互动的共享词汇。
“最终,这些模式,结合研究人员创造的合成声音来指代海豚喜欢玩的物体,可能会与海豚建立一个共享的互动交流词汇”谷歌表示。
现场研究人员目前使用Pixel 6手机进行海豚声音的实时分析。
团队计划在2025年夏季研究季节升级到Pixel 9设备,这将整合扬声器和麦克风功能,同时运行深度学习模型和模板匹配算法。
向智能手机技术的转变大大减少了对定制硬件的需求,这对于海洋实地工作是一个关键优势。DolphinGemma的预测能力可以帮助研究人员更早地预测和识别发声序列中的潜在模仿者,使互动更加流畅。
理解无法理解的事物
DolphinGemma加入了几个旨在破解动物交流代码的AI项目。
地球物种项目(ESP),一个非营利组织,最近开发了NatureLM,一个音频语言模型,能够识别动物物种、近似年龄,以及声音是否表示痛苦或玩耍——不是真正的语言,但仍然是建立某种原始交流的方式。
该模型在混合了人类语言、环境声音和动物发声的基础上训练,已经显示出有希望的结果即使是它以前未遇到过的物种。
CETI项目是该领域的另一个重要努力。
由包括伦敦帝国理工学院的Michael Bronstein在内的研究人员领导,专注于抹香鲸的交流,分析它们用于长距离交流的复杂点击模式。
团队已经识别出143种点击组合,可能形成一种音素字母表,他们现在正在使用深度神经网络和自然语言处理技术进行研究。
虽然这些项目专注于解码动物声音,纽约大学的研究人员从婴儿发展中汲取灵感用于AI学习。
他们的对比学习的儿童视角模型(CVCL)通过婴儿的视角观看世界,使用从6个月到2岁婴儿佩戴的头戴式摄像机拍摄的镜头学习语言。
纽约大学团队发现,他们的AI可以从自然数据中高效学习,类似于人类婴儿的学习方式,这与传统AI模型需要数万亿词进行训练形成鲜明对比。
谷歌计划在今年夏天分享DolphinGemma的更新版本,可能将其用途扩展到大西洋斑点海豚之外。不过,该模型可能需要针对不同物种的发声进行微调。
WDP广泛关注将海豚声音与特定行为相关联,包括母亲和幼崽用来重聚的标志性哨声、冲突期间的爆发脉冲“尖叫”,以及在求偶或追逐鲨鱼时使用的点击“嗡嗡声”。
“我们不再只是倾听”谷歌指出。“我们开始理解声音中的模式,为未来人类与海豚交流的差距可能缩小铺平了道路。”