首页 > 业界 > 关键词  > 正文

阿里通义实验室开源多模态说话人项目3D-Speaker

2024-02-27 17:37 · 稿源:站长之家

站长之家(ChinaZ.com) 2月27日 消息:3D-Speaker 是通义实验室语音团队贡献的一个开源项目,结合了声学、语义、视觉三维模态信息来解决说话人任务。

项目涵盖了说话人日志、说话人识别和语种识别任务,提供了工业级模型、训练代码和推理代码。同时还开源了研究数据集3D-Speaker dataset,包含了多设备、多距离和多方言的音频数据和文本,适用于高挑战性的语音研究。

微信截图_20240227173912.png

1. 结合视觉信息的说话人日志技术:

- 在复杂声学环境中,引入视觉信息可以提升说话人识别能力。

- 系统包括声学和视觉模态识别路线,通过联合多模态聚类得到最终识别结果。

2. 结合语义信息的说话人日志技术:

- 将说话人日志任务从传统的音频切割转为对文本内容进行说话人区分。

- 提出了对话预测和说话人转换预测模块,基于 Bert 模型,用于提取语义中说话人信息。

3. 基于经典声学信息的说话人和语种识别:

- 包含全监督和自监督说话人识别模型,支持多种数据增强、多模型训练和多损失函数。

- 提供一键式训练推理,支持多种经典模型,并提供有效的学习率调节方案和 margin 变换值。

3D-Speaker 项目在说话人任务中探索了多模态信息的结合应用,提供了一系列有效的技术解决方案和开源资源,为语音研究领域的发展做出了贡献。

开源代码链接:

https://github.com/alibaba-damo-academy/3D-Speaker/blob/main/egs/3dspeaker/speaker-diarization/run_video.sh

举报

  • 相关推荐
  • 阿里通义App重大品牌升级!正式更名为“千问”

    11月14日,阿里巴巴旗下“通义”App正式更名为“千问”,版本号从3.60.0跃升至5.0.0,已登陆苹果及各大安卓应用商店。该应用基于阿里最强Qwen大模型打造,具备对话问答、智能写作、多模态相机等核心功能,被定位为“阿里最强大模型官方AI助手”。阿里巴巴视其为“AI时代的未来之战”,已抽调上百名工程师加速推进,并同步研发国际版,计划借助Qwen模型的海外影响力与ChatGPT直接争夺全球用户。

  • AI日报:李飞飞Marble 3D世界模型公测;OpenAI首次推出ChatGPT群聊功能;百度发布多模态 AI助手超能小度

    本期AI日报聚焦多项技术突破:World Labs推出Marble 3D模型,实现多模态生成可交互虚拟世界;OpenAI在韩新试点ChatGPT群聊功能,支持多人协作互动;苹果更新隐私政策,要求第三方AI调用需明示授权;百度发布多模态助手“超能小度”,支持空间感知与设备免费升级;LinkedIn推出AI人脉搜索,通过自然语言精准匹配专业人士;Cursor完成23亿美元融资,估值达293亿;Character AI与耶鲁合作实现音画同步技术Ovi;Google NotebookLM上线深度研究工具,支持多格式文件分析与知识库构建。

  • 海尔冰箱唯一获评“轻工业绿色节能技术重点实验室”

    在环保政策收紧与消费者节能意识提升的双重驱动下,冰箱行业竞争正从传统功能、设计维度全面转向“绿色节能”新赛道。海尔冰箱率先实现突破,成为行业首个获评“轻工业绿色节能技术重点实验室”的企业。其通过精准控温、多气室串联隔热门封、自适应高效变频等创新技术,实现能耗降低10%-23.78%,并应用于全产品线。生产端依托绿色工厂,实现全生命周期绿色智造,入选国家绿色低碳先进技术示范项目,年减碳约10万吨。消费端,一级能效产品占比超90%,核心保鲜科技获国家科技进步奖,为用户提供健康保鲜体验。海尔以系统性绿色低碳解决方案引领行业升级,敦促同行加大研发投入,推动行业向高效、低碳、可持续方向加速前行。

  • 爱康国宾所属集团再获「ISO15189」医学实验室认可

    爱康集团重庆区中央实验室近日获得CNAS颁发的ISO15189医学实验室认可证书,成为重庆首家获此认证的专业体检机构。该认证表明其检验质量、管理与技术能力已达国际标准。ISO15189是医学实验室行业"金标准",由国际标准化组织发布,获认可实验室的检验报告可在全球100多个国家地区互认,避免重复检验,节省时间与经济成本。爱康重庆实验室配备高端进口设备,日检测能力超3万项,致力于为客户提供精准、安全的健康管理服务。

  • 工程师变身AI“指挥者”,吉利与阿里云的软件开发变革实验

    1975年,IBM工程师Fred Brooks在《人月神话》中指出软件工程的核心难题:系统与团队规模增长会导致复杂度指数级上升,且“没有银弹”能单一提升生产力。如今汽车行业正经历软件史上最大挑战,吉利汽车软件人员占比从不足10%跃升至40%,智能汽车代码量超亿行。面对异构系统协同、安全标准严苛等难题,吉利与阿里云通义灵码深度合作,通过AI生成代码(占比超30%)、代码审查测试等,提升开发效率20%,并探索用AI破解遗留系统维护、知识传递等痛点。工程师角色正从“执行者”转向“AI指挥官”,未来或实现从需求到交付的全流程自动化协同。

  • 国内首个!海尔智家获评TÜV认可智能家电检测免目击实验室

    海尔全球检测中心近日通过TÜV莱茵2025年度认证评审,升级为免目击实验室。这是国内首个在智能家电检测领域获此资质的企业,标志着其检测实力获国际权威认可。该资质可大幅缩短认证周期,提升产品上市效率,助力企业抢占市场先机。海尔还拥有CNAS、UL等多项国际认证,实现检测数据互认,未来将持续创新检测技术,为全球用户提供更优质产品体验。

  • 华为Mate 80标准版首次支持3D人脸识别:看齐Pro

    博主数码闲聊站爆料,华为Mate 80全系支持3D人脸识别,包括标准版,这在Mate系列史上还是第一次。 已知Mate 70 Pro系列支持3D人脸识别,其正面采用三挖孔形态,预计Mate 80系列正面也将是三挖孔设计,而且该机还将支持侧边指纹识别。 据悉,全新的华为Mate 80系列共有4款机型,分别是Mate 80、Mate 80 Pro、Mate 80 Pro Max、Mate 80 RS非凡大师。 其中Mate 80和Mate 80 Pro屏幕尺寸是6.75英寸,M

  • 荣耀Magic 8系列上新,火山引擎助力“YOYO助理”多模态升级

    10月15日,荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等年度旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力,结合火山引擎与豆包大模型技术,支持联网问答、识图、修图、闲陪伴、口语练习、出行规划等场景,提供图文、语音、视频等多种输入输出形式,实现秒级响应与沉浸式交互体验,成为用户“口袋里的万能管家”。

  • AI日报:Lovart AI上线“元素拆分”功能;Xcode 26.1.1发布;阿里云通义模型首次大规模赋能双11

    本期AI日报涵盖八大热点:Lovart AI推出"元素拆分"功能,实现海报智能分层编辑;苹果Xcode 26.1.1优化AI编码性能;阿里云通义模型双11单日翻译调用量突破14亿次;Gemini 3在历史手稿破译中展现专家级能力;德国法院裁定OpenAI使用歌词训练构成侵权;开源语音模型Maya1实现富有表现力的实时文本转语音;Meta首席AI科学家LeCun计划离职创办世界模型公司;AI专家罗福莉加入小米,将致力于构建物理世界智能。

  • 超30余项目实测验证,海尔首创AI多联机节能约20%

    2025年建筑环境与能源应用技术交流大会在福州召开,聚焦智能化推动建筑节能降碳。海尔智慧楼宇分享的AI多联机方案引发关注:经全国30多个项目实测,平均节能约20%,相当于电费打八折。该产品首创MCU+NPU双芯设计,实现自主优化运行,在杭州南湖科技园对比测试中节能率达21.3%。其“五不四省”无感焕新方案已应用于200余项目,通过芯片级协同设计,无需云端指挥即可自主分析数据、优化运行,展现出强劲技术引领力。

今日大家都在搜的词: