Google推出 DolphinGemma 旨在帮助人们理解海豚的语言的大模型

摘要:

在推出由 Gemini 2.5 Pro Experimental 提供支持的深度研究几天后,Google再次推出了一个新模型 DolphinGemma。这个大型语言模型旨在帮助科学家“研究海豚如何交流”,并“希望也能了解它们在说什么”。


该公司正与佐治亚理工学院的研究人员以及由创始人丹尼斯·赫辛博士领导的野生海豚项目 (WDP)合作。正如您可能猜到的那样,WDP 的主要任务是通过“非侵入性、长期的实地研究”来观察、记录和报告野生海豚(特别是大西洋斑点海豚(Stenella frontalis))的自然行为、社会结构、交流模式和栖息地。

多年来,WDP 收集的数据使其能够将某些海豚的声音与行为关联起来。例如:

  • 标志性的口哨声(独特的名字),可供母象和小象团聚时使用

  • 打斗时经常听到的脉冲“尖叫声”

  • 求偶或追逐鲨鱼时常用的“嗡嗡”声

Google表示,“分析海豚自然而复杂的交流是一项艰巨的任务,而 WDP 庞大的标记数据集为尖端人工智能提供了独特的机会。”

这就是 DolphinGemma 的作用所在。简单来说,它是Google在 WDP 数据集上开发的人工智能模型,它使用Google自己的 SoundStream 分词器将海豚的叫声分解成更易于管理的音频单元。

然后,这些数据会通过一个专门设计的模型架构运行,该架构旨在理解复杂的序列。整个系统包含约 4 亿个参数,因此足够轻量,可以在 WDP 研究人员随身携带的 Pixel 手机上原生运行。


与传统的机器学习模型不同,DolphinGemma 不处理文字或图像;它严格意义上来说只处理音频输入和音频输出。它接收海豚的自然发声序列,采用一种受大型语言模型理解人类语音启发的方法进行处理,并预测序列中最可能的下一个声音。

丹尼斯·赫尔辛博士将其比作自动完成功能,只不过它针对的是海豚的哨声、脉冲串和咔哒声序列。它经过训练,可以识别这些声音的模式、结构和进展,就像基于文本的模型根据上下文预测句子中的下一个单词一样。

在Google推出 DolphinGemma 之前,鲸鱼听觉增强遥测技术 (CHAT) 的研究团队一直在探索与海豚进行双向交流的可能性。CHAT 的目标并非破解海豚语言的全部复杂性,而是构建一套更简单、更通用的互动词汇。

该系统的工作原理是将 CHAT 创造的新型合成哨声与海豚似乎喜欢的特定物体联系起来。比如马尾藻、海草,甚至是研究人员使用的围巾。

希望通过反复将这些合成的口哨声与物体联系起来,海豚会开始模仿声音来“索要”这些物品。

CHAT 使用 Google Pixel 6 运行,该设备可以实时处理高质量的音频分析。使用现成的手机意味着团队无需定制设备。这使得设备体积更小、成本更低、效率更高,也更易于在公海维护。

对于即将到来的季节,他们将升级到 Pixel 9,它增加了更好的扬声器和麦克风功能,并且有足够的能力同时运行深度学习模型和模式匹配。


搭载最新 CHAT 系统硬件的 Google Pixel 9

与其他 Gemma 模型一样,Google表示,今年夏天将推出 DolphinGemma 作为开放模型,希望“为世界各地的研究人员提供工具来挖掘他们自己的声学数据集,加速对模式的搜索,并共同加深我们对这些智能海洋哺乳动物的了解”。

Gemma 是 Google 开发的轻量级大型语言模型系列。该系列的最新成员是 Gemma 3,提供四种规模:10 亿、40 亿、120 亿和 270 亿个参数。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan