Google推出 DolphinGemma 旨在帮助人们理解海豚的语言的大模型

0 cnBeta.COM 2025-04-15 00:23:40

摘要：

在推出由 Gemini 2.5 Pro Experimental 提供支持的深度研究几天后，Google再次推出了一个新模型 DolphinGemma。这个大型语言模型旨在帮助科学家“研究海豚如何交流”，并“希望也能了解它们在说什么”。

该公司正与佐治亚理工学院的研究人员以及由创始人丹尼斯·赫辛博士领导的野生海豚项目 (WDP)合作。正如您可能猜到的那样，WDP 的主要任务是通过“非侵入性、长期的实地研究”来观察、记录和报告野生海豚（特别是大西洋斑点海豚（Stenella frontalis））的自然行为、社会结构、交流模式和栖息地。

多年来，WDP 收集的数据使其能够将某些海豚的声音与行为关联起来。例如：

标志性的口哨声（独特的名字），可供母象和小象团聚时使用
打斗时经常听到的脉冲“尖叫声”
求偶或追逐鲨鱼时常用的“嗡嗡”声

Google表示，“分析海豚自然而复杂的交流是一项艰巨的任务，而 WDP 庞大的标记数据集为尖端人工智能提供了独特的机会。”

这就是 DolphinGemma 的作用所在。简单来说，它是Google在 WDP 数据集上开发的人工智能模型，它使用Google自己的 SoundStream 分词器将海豚的叫声分解成更易于管理的音频单元。

然后，这些数据会通过一个专门设计的模型架构运行，该架构旨在理解复杂的序列。整个系统包含约 4 亿个参数，因此足够轻量，可以在 WDP 研究人员随身携带的 Pixel 手机上原生运行。

与传统的机器学习模型不同，DolphinGemma 不处理文字或图像；它严格意义上来说只处理音频输入和音频输出。它接收海豚的自然发声序列，采用一种受大型语言模型理解人类语音启发的方法进行处理，并预测序列中最可能的下一个声音。

丹尼斯·赫尔辛博士将其比作自动完成功能，只不过它针对的是海豚的哨声、脉冲串和咔哒声序列。它经过训练，可以识别这些声音的模式、结构和进展，就像基于文本的模型根据上下文预测句子中的下一个单词一样。

在Google推出 DolphinGemma 之前，鲸鱼听觉增强遥测技术 (CHAT) 的研究团队一直在探索与海豚进行双向交流的可能性。CHAT 的目标并非破解海豚语言的全部复杂性，而是构建一套更简单、更通用的互动词汇。

该系统的工作原理是将 CHAT 创造的新型合成哨声与海豚似乎喜欢的特定物体联系起来。比如马尾藻、海草，甚至是研究人员使用的围巾。

希望通过反复将这些合成的口哨声与物体联系起来，海豚会开始模仿声音来“索要”这些物品。

CHAT 使用 Google Pixel 6 运行，该设备可以实时处理高质量的音频分析。使用现成的手机意味着团队无需定制设备。这使得设备体积更小、成本更低、效率更高，也更易于在公海维护。

对于即将到来的季节，他们将升级到 Pixel 9，它增加了更好的扬声器和麦克风功能，并且有足够的能力同时运行深度学习模型和模式匹配。

搭载最新 CHAT 系统硬件的 Google Pixel 9

与其他 Gemma 模型一样，Google表示，今年夏天将推出 DolphinGemma 作为开放模型，希望“为世界各地的研究人员提供工具来挖掘他们自己的声学数据集，加速对模式的搜索，并共同加深我们对这些智能海洋哺乳动物的了解”。

Gemma 是 Google 开发的轻量级大型语言模型系列。该系列的最新成员是 Gemma 3，提供四种规模：10 亿、40 亿、120 亿和 270 亿个参数。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道，更好阅读体验，更及时更新提醒，欢迎前来阅览和打赏。

查看评论

今日最热

加载中...

最新资讯

今日最热