首页 > 业界 > 关键词  > 谷歌最新资讯  > 正文

能理解海豚声音!谷歌开发全新AI模型DolphinGemma

2025-04-15 17:45 · 稿源: 快科技

快科技4月15日消息,谷歌公布了一款名为DolphinGemma”的大型语言模型,旨在帮助科学家理解海豚的声音,并生成类似海豚的声音序列。

研究人员预计在未来几个月内测试DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry(CHAT)发声系统,以探索是否能够翻译并模仿海豚的声音,进而实现与海豚的某种对话”。

能理解海豚声音!谷歌开发全新AI模型DolphinGemma

海豚是地球上最聪明且最善于沟通的动物之一,其社交互动极其复杂,不仅能通过各种声响辨识不同的个体,还能在不同活动中发出不同的声音。

科学家们长期以来一直试图破解”这些声音的含义,并尝试模拟海豚的声音与它们沟通。

为此,谷歌与野生海豚计划”(WDP)组织以及美国乔治亚理工学院合作,利用WDP收集的大量海豚哨声、喀嗒声和脉冲声数据,训练了DolphinGemma这一AI模型。

DolphinGemma基于与谷歌Gemini系统相同的技术构建,拥有约4亿个参数,其运作方式与ChatGPT等生成式语言模型类似,但生成的是海豚声音而非文字。

目前的研究方向是让DolphinGemma在听完海豚声音的前半部分”后,由AI生成后半部分”,并比对AI生成的后半部分与海豚实际发出的后半部分是否一致,以初步判断海豚语”是否有固定的单词或结构。

研究计划初期定位在将海豚喜欢的物体与特定的合成声”相关联,期望海豚在想要这些物体时能发出对应的合成音,达成初步沟通。

但DolphinGemma究竟能达到什么程度,以及是否能让海豚与人类真正对话,目前仍是一个遥远的课题。

举报

  • 相关推荐
  • 少年科学家陈佳玉:8年读完本硕博,用因果世界模型让机器人自主思考

    27岁的北大本科、普渡直博、卡内基梅隆博士后、现任港大助理教授陈佳玉,用5年完成本硕博一体化研究,成为具身智能与强化学习领域一流学者。他通过原力无限发布的双臂协作演示,展示了基于因果世界模型的机器人自主执行能力——机器人不仅能完成桌面清扫等长程任务,还能在持续执行中根据实时状态动态调整策略,而非依赖预编程或简单视觉识别。这标志着从“看见未来”到“理解行动后果”的转变,因果世界模型正重新定义机器人的思维方式。

  • “金海豚×好游快爆游戏开发大赛”正式启动!八大奖项&百万奖金静候佳作,等你用创意打造动人的作品

    “金海豚奖”与好游快爆联合举办的游戏开发大赛将于2026年5月15日开放报名,面向全球开发者,零门槛参赛,总奖金超百万。大赛设最佳游戏奖(15万元)、金银铜奖及最佳创意奖(8万元)等,另设最佳人气奖、学生奖及海峡之星特别奖。赛程包括21天限时开发、评审试玩及线下颁奖,优胜者可获千万级曝光、人气投票、真实用户反馈及全链路孵化支持。

  • 不只能画图!谷歌推出Gemini Omni:只需动动嘴 AI自动帮你改大片

    在Google I/O 2026上,谷歌正式发布Gemini Omni模型。该模型支持文本、图像、音频、视频作为输入,实现跨模态生成与编辑。 其中在音频方面,目前该模型初期仅支持语音输入,但Google表示未来将很快扩展更多类型的音频输入能力。 首发产品Gemini Omni Flash已在Gemini应用上线,后续将向企业客户开放API。 该模型核心卖点在于深度视频编辑能力。用户通过自然语言指令即可对生成内�

  • AI日报:谷歌发布最強模型Gemini 3.5 Flash;阿里云“千问云”上线;苹果AI辅助功能升级

    本期AI日报聚焦六大热点:谷歌发布性能与效率显著提升的Gemini 3.5 Flash模型并免费开放;阿里云推出面向Agent时代的“千问云”平台,重构大模型服务链路;谷歌与三星联合推出两款集成Gemini的智能眼镜;苹果推出Apple Intelligence驱动的AI辅助功能及Vision Pro眼控轮椅;谷歌发布多模态交互模型Gemini Omni;通义实验室发布Qwen3.7-Max模型,采用正交解耦技术,多项评测国内第一。

  • 谷歌展示新一代智能眼镜:Gemini加持 实时识别世界

    在今年的I/O大会上,谷歌首次展示了新一代智能眼镜,意图在可穿戴设备市场抢占一席之地。 谷歌宣布,将与三星以及眼镜品牌Gentle Monster、Warby Parker合作推出新款智能眼镜。该产品内置Gemini AI助手,支持与安卓及iOS手机配对使用。 谷歌XR业务总经理兼副总裁Shahram Izadi在主题演讲中表示,这款眼镜预计于今年秋季晚些时候推出,目标是将信息私密地通过语音传入耳中,而非�

  • 谷歌正式发布Gemini 3.5:Flash版率先发布 速度快4倍

    谷歌在I/O 2026开发者大会上发布全新Gemini 3.5 Flash模型,宣布对全球用户免费开放。该模型被定义为迄今最强智能体与编程模型,在多项基准测试中超越前代旗舰Gemini 3.1 Pro,输出速度超每秒280 token,是GPT-5.5和Claude Opus 4.7的4倍。其使用成本不到其他前沿模型的一半,大幅缩短开发与审计耗时,兼具高性能与极致速度,对AI应用市场形成冲击。

  • 女子不咳嗽声音有点哑:一查竟是肺癌

    42岁李女士因声音沙哑持续两周未好转就医,发现肺部肿瘤已侵犯纵隔淋巴结压迫喉返神经,导致声音嘶哑。医生提醒,喉返神经受压迫会造成声带运动异常,长期不明原因声音嘶哑可能预示体内病变,不可当作普通上火处理。目前李女士正在接受规范治疗,预后乐观。建议出现持续咳嗽、咳血、胸痛等症状者及时就医,高危人群应定期做胸部CT筛查,早发现早干预。

  • 告别免费午餐!Google Gemini引入配额限制:用完只能等刷新

    谷歌近日对其Gemini产品实施了严格的使用限额。用户不再享受无限制访问权限,官方针对不同模型及功能强制执行用量封顶机制。 此次调整引入双重计数器系统。第一项限制为当前用量,该配额每5小时刷新一次。第二项限制为每周用量,一旦触发该上限,即使用户的5小时配额重置,账号仍将被锁定,直至每周周期结束。 谷歌并未公布具体的请求对话发送次数,表示限制触�

  • 谷歌官宣安卓Noto 3D设计:重绘全部约4000个Emoji表情

    谷歌在Android Show I/O Edition活动中宣布全面重绘安卓系统约4000个Emoji,升级为3D设计,定名Noto 3D。 在名称方面,谷歌沿用了现有的Noto emoji体系,宣布推出Noto 3D全新设计,重绘安卓系统当前支持的约4000个Emoji。 谷歌强调,新版3D表情会显得更鲜活,进一步增强情绪表达效果,让表情不只是附着在文字后面的点缀,而是成为更有存在感的沟通元素。

  • 阿里发布千问旗舰模型Qwen3.7-Max

    阿里巴巴在今日开幕的2026阿里云峰会上,投下了一枚重磅炸弹——全新一代千问旗舰模型Qwen3.7-Max正式亮相。在第三方机构Arena公布的全球大模型盲测总榜中,这款模型超越Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等国产竞品,与GPT、Claude、Gemini等最强模型同处第一梯队,成功登顶国产模型榜首。 这已经是千问旗舰模型在短短三个月内完成的第三次重大迭代,从3.5到3.6再到3.7,阿里大模型

今日大家都在搜的词: