首页 > 热点 > 关键词  > 情感识别技术最新资讯  > 正文

阿里巴巴等开源语音情感基座模型emotion2vec

2024-03-07 08:40 · 稿源:站长之家

站长之家(ChinaZ.com)3月7日 消息:情感识别技术在各种场景中都有广泛的应用,如客服机器人根据客户语气调整策略、智能助手根据用户情绪提供建议、情感健康应用监测用户情感状态。为了支持情感理解,上海交通大学、阿里巴巴、复旦大学和香港中文大学的研究者联合开发了通用的语音情感表征模型 emotion2vec。

这个模型利用自监督学习方法在大量无标记的公开情感数据上进行预训练,成功学习到高度通用的语音情感特征。经过多语言和不同场景数据集测试,emotion2vec 在多种情感任务上表现超越了现有技术,为各种情感理解场景提供强大支持,有望提升用户体验和满意度。

微信截图_20240307084128.png

基于 emotion2vec,研究者们进一步开发了语音情感识别基座模型。首先在语音情感识别学术数据集上对 emotion2vec 进行 fine-tune,然后对15万小时中英数据进行标注,筛选文本情感与语音情感相同且置信度高的数据,再次 fine-tune emotion2vec,得到该版本权重。相较于以往工作,通过迭代训练和大幅增加数据量,这个模型可作为语音情感识别的基座模型,已经开源并在 modelscope 上线体验 demo。

emotion2vec 的总体框架包括句子级别损失、帧级别损失和在线蒸馏。句子级别损失通过均方误差计算整体全局情绪,包括单嵌入、块嵌入和全局嵌入三种方法。帧级别损失设计为逐帧任务,学习上下文情绪信息。在线蒸馏是一种自监督学习策略,学生网络通过反向传播更新参数,教师网络通过指数移动平均更新参数,促使模型不断学习提升情感特征捕捉和理解能力。

实验结果显示,emotion2vec 在 IEMOCAP 数据集上表现最佳,性能超越其他 SSL 预训练模型和专家模型。在其他主流英语数据集上也展现出优异泛化能力,证明了其在不同环境中的先进性能。这表明 emotion2vec 不仅在训练数据集上表现优秀,还能适应不同录音环境,为多样情感任务提供支持。

emotion2vec通用语音情感表征模型:

https://www.modelscope.cn/models/iic/emotion2vec_base/summary

emotion2vec语音情感识别基座模型在线体验:

https://www.modelscope.cn/models/iic/emotion2vec_base_finetuned/summary

论文链接:

https://arxiv.org/abs/2312.15185

开源代码仓库:

https://github.com/ddlBoJack/emotion2vec

举报

  • 相关推荐
  • 阿里巴巴正式开源千问3 仅需4张H20即可部署满血版

    阿里巴巴开源新一代通义千问模型Qwen3,采用混合推理架构,集成"快思考"与"慢思考"模式,能根据任务复杂度自动调整计算资源。该模型参数规模235B,在GPQA等权威评测中表现优异,以更小规模实现超越上一代模型的性能。Qwen3包含2款MoE模型和6款密集模型,部署成本大幅降低,仅需4张H20显卡即可运行满血版,显存占用仅为同类模型的三分之一。新模型通过智能分配算力,在简单任务上快速响应,复杂问题上深度思考,显著提升能效比。

  • 全球首创!阿里巴巴AI攻克“癌症之王”早筛难题 获FDA最高级别认证

    快科技4月18日消息,据报道,阿里巴巴AI模型DAMO PANDA被FDA认定为突破性医疗器械”。DAMO PANDA是阿里巴巴达摩院研发的胰腺癌筛查AI模型,可精准识别平扫CT影像中的细微病灶,攻克了胰腺癌早期筛查的国际难题。这也是中国头部科技企业首次拿下该项权威认可。达摩院在国际上率先提出平扫CT AI”筛查方案,联合全球顶尖医学机构开发出DAMO PANDA模型。测试数据显示,其筛查敏感

  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • Windows Arm64 托管运行器正式支持 GitHub Actions,加速开发流程

    Arm与GitHub深化合作,为Arm平台开发者提供更高效的开发体验。

  • 追觅全球首创20万转高速数字马达量产落地!吸尘器Z50 Station突破行业天花板

    在吸尘器行业持续突破性能极限的进程中,追觅科技以突破性创新技术再次领跑赛道。2024年,追觅科技自研的20万转/分钟高速数字马达获全球权威机构沙利文全球首创认证。追觅科技将以创新为引擎,持续引领全球清洁电器行业迈向智能化、高效化的新时代。

  • 忆联PCIe 5.0 ESSD基于H3C UniServer G7服务器的SPECstorage Solution 2020卓越性能验证

    忆联PCIe 5.0企业级固态硬盘UH812a/UH832a与H3C UniServer G7服务器强强联合,在SPECstorage Solution 2020测试中表现卓越。测试结果显示,该组合在AI图像处理、电子设计自动化、基因组分析等场景下性能领先:AI处理响应时间最快0.24毫秒,较上一代提升48.94%;EDA工作负载响应时间仅0.03毫秒;基因组分析吞吐量达21236MB/s。产品采用PCIe 5.0技术,带宽较PCIe 4.0翻倍,延迟降低43%,支持1.6TB-15.36TB多种容量,为AI训练、边缘计算、金融核心系统等场景提供高性能存储解决方案,重新定义企业级存储性能标杆。

  • AI日报:智谱开源32B/9B系列GLM模型并启用Z.ai域名;OpenAI发布GPT-4.1系列模型阿里魔搭上线MCP广场

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱AI启用全新域名Z.ai 并开源32B/9B 系列 GLM 模型智谱技术团队近期宣布开源32B和9B系列的GLM模型,并推出全新交互体验平台Z.ai。这些模型遵循MIT许可协议,支持商业用途,提升了

  • 阿里千问3登顶全球最强开源模型 已在通义App上线

    阿里集团推出新一代开源AI模型"通义千问3"(Qwen3),包含8款不同规格的混合推理模型。旗舰型号Qwen3-235B采用混合专家架构,创下国产模型性能新纪录;Qwen3-32B则以部署成本低、运行稳定见长。该系列在逻辑推理、编程、翻译等专业领域表现卓越,用户可通过通义App和网页版体验。升级后的通义App整合问答对话、图像理解与生成等多项功能,持续强化代码生成、数学解题等专业场景应用能力,致力于打造实用性强的个人AI助手。

  • 奥特曼:ChatGPT不是AGI!OpenAI最强开源模型直击DeepSeek

    【新智元导读】代码截图泄露,满血版o3、o4-mini锁定下周!更劲爆的是,一款据称是OpenAI的神秘模型一夜爆红,每日处理高达260亿token,是Claude用量4倍。奥特曼在TED放话:将推超强开源模型,直面DeepSeek挑战。持续的创新、丰富的资源和智能AI将会无缝融入日常生活,未来一代人将会觉得当前人们又辛苦又落后。