首页 > 热点 > 关键词  > 情感识别技术最新资讯  > 正文

阿里巴巴等开源语音情感基座模型emotion2vec

2024-03-07 08:40 · 稿源:站长之家

站长之家(ChinaZ.com)3月7日 消息:情感识别技术在各种场景中都有广泛的应用,如客服机器人根据客户语气调整策略、智能助手根据用户情绪提供建议、情感健康应用监测用户情感状态。为了支持情感理解,上海交通大学、阿里巴巴、复旦大学和香港中文大学的研究者联合开发了通用的语音情感表征模型 emotion2vec。

这个模型利用自监督学习方法在大量无标记的公开情感数据上进行预训练,成功学习到高度通用的语音情感特征。经过多语言和不同场景数据集测试,emotion2vec 在多种情感任务上表现超越了现有技术,为各种情感理解场景提供强大支持,有望提升用户体验和满意度。

微信截图_20240307084128.png

基于 emotion2vec,研究者们进一步开发了语音情感识别基座模型。首先在语音情感识别学术数据集上对 emotion2vec 进行 fine-tune,然后对15万小时中英数据进行标注,筛选文本情感与语音情感相同且置信度高的数据,再次 fine-tune emotion2vec,得到该版本权重。相较于以往工作,通过迭代训练和大幅增加数据量,这个模型可作为语音情感识别的基座模型,已经开源并在 modelscope 上线体验 demo。

emotion2vec 的总体框架包括句子级别损失、帧级别损失和在线蒸馏。句子级别损失通过均方误差计算整体全局情绪,包括单嵌入、块嵌入和全局嵌入三种方法。帧级别损失设计为逐帧任务,学习上下文情绪信息。在线蒸馏是一种自监督学习策略,学生网络通过反向传播更新参数,教师网络通过指数移动平均更新参数,促使模型不断学习提升情感特征捕捉和理解能力。

实验结果显示,emotion2vec 在 IEMOCAP 数据集上表现最佳,性能超越其他 SSL 预训练模型和专家模型。在其他主流英语数据集上也展现出优异泛化能力,证明了其在不同环境中的先进性能。这表明 emotion2vec 不仅在训练数据集上表现优秀,还能适应不同录音环境,为多样情感任务提供支持。

emotion2vec通用语音情感表征模型:

https://www.modelscope.cn/models/iic/emotion2vec_base/summary

emotion2vec语音情感识别基座模型在线体验:

https://www.modelscope.cn/models/iic/emotion2vec_base_finetuned/summary

论文链接:

https://arxiv.org/abs/2312.15185

开源代码仓库:

https://github.com/ddlBoJack/emotion2vec

举报

  • 相关推荐
  • 阿里巴巴发布全球首个胃癌影像筛查AI模型:CT就能识别早期胃癌

    浙江省肿瘤医院联合阿里巴巴达摩院,发布了全球首个胃癌影像筛查AI模型DAMO GRAPE。 该模型首次利用平扫CT影像识别早期胃癌病灶,并联合全国20家医院,在近10万人的大规模临床研究中大幅提升胃癌检出率。 相关论文在24日登上了国际顶级期刊《自然医学》(Nature Medicine)。 据国家癌症中心统计,我国每年新发胃癌约36万例,死亡26万例,死亡人数在所有恶性肿瘤中位列第�

  • 最高网络安全标准,追觅扫地机获UL Solutions钻石级安全认证

    追觅X50系列扫地机器人获得UL Solutions颁发的"钻石级网络安全认证证书",成为全球首个获此认证的扫地机器人品牌。该认证表明产品在设备端防护、应用层数据加密、云端数据管理等全链路安全体系均达到国际最高标准。追觅还获得TÜV南德消费类物联网安全认证,构建起完善的安全防护体系。这些认证不仅验证了追觅产品的网络安全性能,更彰显了其在智能清洁赛道的核心竞争力。随着物联网安全要求提高,追觅构建的"全链路安全解决方案"或将成为行业重要参考,推动智能家居产业安全标准升级。

  • 出门问问发布Agentic AI软硬结合产品TicNote,定义新一代“AI思考伙伴”

    出门问问发布新一代AI硬件TicNote,内置"Shadow AI"系统,实现"有记忆的AI记录+主动洞察+主动分析+陪伴创作"功能。该产品通过软硬件结合,成为用户的随身AI思考伙伴,适用于会议、商务沟通、学习等场景。TicNote具备20小时续航、10米远距收音、120+语言转写能力,支持跨文件项目管理。CEO李志飞表示,TicNote是"用AI的AI做AI"的AGI实践产品,标志着公司在软硬结合道路上更进一步。国内版已上线,海外版自2025年4月推出以来获广泛认可。

  • @开发者们:百度文心大模型4.5系列模型开源,国内首发平台GitCode现已开放下载!

    6月30日,百度文心大模型4.5系列正式开源并在国内领先的开源平台GitCode首发上线。该系列包含10款模型,涵盖47B和3B参数的混合专家(MoE)模型及0.3B的稠密参数模型,采用创新的多模态异架构结构实现跨模态知识融合。模型基于飞桨框架开发,训练效率达47% MFU,在文本和多模态基准测试中达到SOTA水平。所有模型按Apache2.0协议开源,配套产业级开发套件支持多种芯片部署。GitCode平台已汇聚620万用户,为AI开发者提供代码托管、协同开发等全流程支持。此次开源将推动中国AI生态创新,加速大模型技术产业化应用。

  • 苹果用户再也不敢乱用emoji了 系统差异或致误解

    ​近日,苹果用户在使用emoji表情时变得更为谨慎,这一变化源于不同设备系统间emoji显示的差异可能引发的误解。 有网友发现,尽管大多数emoji表情在苹果和安卓等设备上可以通用,但一些不太常用的表情在跨系统发送时会出现显示差异。例如,某些在苹果设备上看起来可爱的emoji,在安卓设备上可能会呈现为完全不同的样子,甚至可能导致信息接收者产生误解。 针对这一�

  • 有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型

    网易有道6月23日开源国内首个专注数学教育的"子诳3"大模型系列数学模型(Confucius3-Math)。该模型在单块消费级GPU上高效运行,在多项数学推理任务中性能超越更大规模的通用模型,高考数学题测试得分达98.5分。其训练成本仅2.6万美元,推理性能是DeepSeek+R1的15倍,服务成本低至每百万token0.15美元,大幅降低教育AI应用门槛。该开源模型为教育公平提供低成本、高性能的AI�

  • AI日报:MiniMax-M1开源;阿里Qwen3升级版适配苹果MLX架构;月之暗面发布新模型Kimi-Dev-72B

    《AI日报》汇总了近期AI领域多项重要进展:1)月之暗面推出开源编程模型Kimi-Dev-72B,在软件工程任务测试中创下新纪录;2)MiniMax开源M1模型,支持超长上下文推理且训练成本低;3)腾讯发布AI音乐模型LeVo,支持音色克隆和分轨生成;4)阿里云Qwen3升级版适配苹果MLX架构;5)豆包推出"AI播客"功能,可将PDF转为对话播客;6)夸克App上线个性化AI家教"夸克老师";7)松下发布多模态大模型OmniFlow,实现文本/图像/音频自由切换;8)TikTok推出三款AI视频创作工具;9)极氪与火山引擎合作,将豆包大模型接入智能座舱系统;10)Meta的Llama3.1模型在文本记忆方面表现突出;11)Grok上线定时追踪X热门话题功能;12)Gemini2.5Pro即将更新Deep Think功能;13)谷歌地图引入AI技术升级导航和个性化推荐功能。

  • AI日报:MiniMax推视频生成模型Hailuo 02;Cursor Pro取消500次请求限制;谷歌发布AI模型 Gemini 2.5 Flash-Lite

    本文汇总了AI领域最新动态:1)Cursor Pro取消500次请求限制;2)稀宇科技推出视频生成模型Hailuo02;3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite;4)科大讯飞星火X1升级版7月上线;5)腾讯元宝推出AI编程模式;6)OpenAI将下架GPT-4.5 API;7)苹果Speech API转录速度超Whisper 55%;8)百度推出数字人互动直播间;9)Meta曾试图高薪挖角OpenAI人才;10)Krea1公测开放,解决"AI感"问题;11)特斯拉Grok车载AI助手即将上线;12)谷歌Gemini新增视频分析功能。

  • GAITC2025全球人工智能技术大会 | 每日互动方毅:开源大模型+闭源小数据是AI时代的重要路径

    文章探讨了"人工智能"更应称为"人造智能",对应"神造智能"的概念。作者指出AI模拟了神造智慧过程中的规律,人类可从AI身上重新学习"神"的智慧。通过三种棋类游戏分析AI发展:五子棋代表专注规则,深蓝代表深度思考,AlphaGo代表强化学习。数据是AI的重要命脉,需通过可信数据空间转化使用。AI已在交通安全、医疗健康、反诈宣传等领域带来改变,如高速视觉AI检测、脑卒中早筛模型等。未来最重要的是个人知识库和提问能力,人类需学会驾驭AI而非被其取代,2%的人将成为定义问题的深度思考者,98%则是幸福生活者。技术应成为托举大众的方舟而非割裂世界的鸿沟。

  • 苹果用户再也不敢乱用emoji了 客服回应:iOS和安卓有差异性

    今日,词条#苹果用户再也不敢乱用emoji了#登上微博热搜,引发网友广泛热议。 事情源于有网友发帖,称发现苹果部分表情在安卓机型上显示存在区别,提醒大家谨慎使用一些特殊的专属emoji。这一情况迅速引起众多网友关注,大家纷纷分享自己在使用emoji时因系统差异而遇到的尴尬经历。