首页 > 业界 > 关键词  > 正文

多模态神经网络SALMONN 能够理解声音世界的AI模型

2023-10-25 10:51 · 稿源:站长之家

站长之家(ChinaZ.com)10月25日 消息:SALMONN是一个多模态神经网络,能够直接处理和理解包括语音、音频事件和音乐在内的一般音频输入,并在多种语音和音频任务上取得竞争性表现。

image.png

论文地址:https://arxiv.org/pdf/2310.13289v1.pdf

SALMONN采用了两个互补的音频编码器,一个用于处理语音,另一个用于处理非语音音频事件,以实现对各种音频任务的优越性能。

论文提出了激活调整阶段,以解决SALMONN在训练中过度拟合到某些任务的问题,该阶段能够使SALMONN具备跨模态的新能力,如问答和叙述。这一研究有望推动具有通用听觉能力的人工智能的发展。

举报

  • 相关推荐
  • MWC首秀即焦点!讯飞AI眼镜携多模态同传大模型革新智能穿戴体验

    在2026年世界移动通信大会(MWC)上,科大讯飞以“AI Connecting Ideas”为主题,首次全球亮相其AI眼镜。该产品集多模态同传翻译与极致轻量化设计于一身,凭借领先的多模态降噪、全能翻译及多模态记录功能,吸引了众多海外运营商、技术伙伴及专业媒体的关注。其创新的唇动识别多模态降噪方案,通过摄像头捕捉说话者唇部运动,融合骨传导麦克风捕捉佩戴者声音,将音视频两路信息融合处理,在多人交谈的嘈杂背景中精准锁定目标讲话人,将语音识别和翻译的准确率提升50%以上。整机重量仅40克,相比当前市面主流同类产品重量降低了约20%,是目前全球最轻的双目单色显示多模态智能眼镜。此外,讯飞AI眼镜还具备多模态记录功能,能自动智能生成图文声并茂的会议纪要,覆盖信息记录和总结的全流程,为跨国商务人群提升工作效率。讯飞AI眼镜于北京时间3月4日上午10:10在国内电商开启预约。

  • 科大讯飞AI眼镜开放预约:仅重40克 支持多模态降噪翻译

    科大讯飞近日在世界移动通信大会上发布了一款创新产品讯飞AI眼镜。这款专为跨语言交流设计的智能设备重量仅40克,目前产品已开启预约通道。 虽然具体售价和正式发售日期尚未公布,但官方透露提前预约可享受299元抵扣优惠。 这款眼镜突破了传统翻译设备的形态限制,通过镜片实时投射翻译字幕,并配合内置扬声器输出语音译文。 当对话双方交流时,系统可同步完成�

  • AI日报:多模态大模型DeepSeek V4即将发布;谷歌即将停用Gemini 3 Pro Preview;微软推出AI软件组合

    本期AI日报聚焦行业动态:谷歌将停用Gemini 3 Pro Preview,开发者需迁移至3.1版本;DeepSeek V4发布,支持多模态生成并与华为、寒武纪合作优化硬件;微软计划推出AI软件组合,月费或高达99美元;爱奇艺财报显示利润下滑,将押注AI电影制作与去中心化转型;壁仞智能完成数亿元融资,深化端侧AI布局;英伟达将发布集成Groq技术的推理处理器,巩固市场地位;联想展示模块化AI PC概念,提升用户体验;我国发布首个国家级人形机器人标准体系,推动产业高质量发展。

  • 抖音再战社交,“小火人”打头阵:上线世界广场,内测AI精灵聊天

    抖音“小火人”,正成为抖音社交的新纽带。 Tech星球独家获悉,抖音在主App内已推出新的社交模块“世界广场”,不同于抖音以往在社交方面的尝试,“世界广场”以派对游戏为核心载体,风格类似热门休闲社交游戏《蛋仔派对》,用户可在虚拟广场中以“小火人”的虚拟身份,选择各类轻量级派对游戏,通过实时互动完成社交连接。 Tech星球从抖音渠道获取的数据显示,�

  • 白岩松谈AI养龙虾热潮:人永远是世界的主角

    近日,白岩松针对当下火爆的AI养龙虾”现象发表观点:请相信这个世界的主角,一定是人,只能是人。”对于AI龙虾”的火爆,白岩松首先给予了肯定,他认为,这股热潮恰恰体现了中国人在AI赛道上的发展速度与探索热情。 但与此同时,他也针对不同人群给出了理性建议,尤其提醒非专业人士,面对这款新型智能体,不妨尽早了解、延迟使用”,耐心等待平台完善使用功能

  • 海尔周云杰回应走红后开始做自媒体:是为了更好地理解用户

    全国人大代表,海尔集团公司董事局主席、首席执行官周云杰回应了去年走红后与海尔高管集体开通自媒体账号一事。 周云杰表示,自己做自媒体并非为了追逐流量,而是为了更贴近用户、更深刻地理解市场需求,从而推动企业变革。 过去一年,周云杰认真投入内容创作,个人账号几乎每周都有更新。他坦言,如今已习惯走在路上偶尔被认出的状态。不过,维持账号运营并�

  • 字节聚力GEO技术解读:如何让AI大模型主动推荐你的品牌

    文章介绍了字节聚力公司提出的GEO(生成式引擎优化)技术,旨在帮助品牌在AI大模型时代获得优先推荐。GEO通过四大核心系统实现:构建企业知识图谱,使AI能“理解”品牌价值;训练专属智能体(GEO-Agent)进行策略决策;针对不同AI平台优化内容分发;并通过用户意图监测平台实现动态优化。该技术标志着从传统SEO到适应AI认知逻辑的转变,帮助品牌成为大模型眼中的“可信答案”。

  • AWE2026:新一代AI智能空调登场!海信2026世界杯定制空调全阵容亮相

    3月12日,AWE2026在上海开幕。海信空调携2026世界杯定制空调亮相,其中全球首款搭载SLP星闪人感2.0技术的大力神空调U6、国内首款滑盖空调智慧风E5系列成为焦点。展会期间,海信以“AI智能”为主线,展出新一代AI智能空调矩阵,涵盖智新风、智慧风、智省电三大系列及璀璨高端套系,基于智能净化、智能风感、智能操控、智能节能“四维智感”标准,重新定义技术方向。现场展出的U6可实现“风随人动、风避人吹”等精准控风体验,搭载TVOC传感器监测空气质量,通过双重过滤有效净化空气,并配备“好空气管家”与DeepSeek语音智控,提供便捷服务。智慧风E5系列作为国内首款滑盖空调,搭载星闪人感和语音智控,支持双人双风感与广角送风。此外,智新风X5聚焦睡眠健康,智省电Ultra凭借自研芯片实现高能效。海信空调致力于将技术创新转化为用户可感知的舒适体验。

  • 2026大模型时代的电销变革:五大主流AI外呼平台核心能力横向对比

    本文分析了2024-2025年AI外呼行业因大语言模型渗透而发生的范式转变,市场规模已突破百亿。文章从语义理解深度、多轮对话能力、部署灵活性、行业适配度及性价比五个维度,横向对比了市场上五家代表性AI外呼平台(Avavox、中关村科金·得助智能、合力亿捷、沃丰科技Udesk、百应科技),为不同规模与行业的企业提供选型参考。核心结论是:企业应回归自身业务场景的核心需求进行匹配,初创和中小企业可关注低门槛、快部署、按需付费的轻量化平台;对合规与专业度要求高的大型企业,深耕行业的定制化方案更为合适;而需嵌入现有全渠道系统的大型集团,老牌厂商是更稳妥的选择。趋势上,行业正从“工具思维”转向“数字员工思维”,平台的大模型能力深度、角色配置灵活性及与企业现有系统的集成能力将成为长期价值的关键。

  • 老板电器发布全球首款AI烹饪眼镜!搭载自研大模型食神 新手秒变大厨

    3月12日,2026中国家电及消费电子博览会在上海开幕。老板电器正式发布全球首款AI烹饪眼镜,搭载自研“食神”大模型,通过镜头识别食材、感知灶具火力变化,实时提供烹饪步骤提醒。该产品可联动AI数字厨电生态,实现油烟机、燃气灶等设备协同工作,完成从备菜到出锅的完整流程。AI大模型与智能硬件的深度融合,标志着厨房正迈向智能烹饪助手时代。

今日大家都在搜的词: