首页 > AI头条  > 正文

西北工业大学开源语音理解模型OSUM,结合Whisper和Qwen2,支持8种语音理解任务

2025-02-20 16:33 · 来源: AIbase基地

在人工智能领域,语言模型的快速发展引发了语音理解语言模型(SULMs)的广泛关注。近日,西北工业大学 ASLP 实验室发布了开放语音理解模型 OSUM,旨在探索在学术资源有限的情况下,如何有效训练和利用语音理解模型,以推动学术界的研究与创新。

OSUM 模型融合了 Whisper 编码器与 Qwen2语言模型,支持8种语音任务,包括语音识别(ASR)、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)及语音转文本聊天(STTC)。该模型通过采用 ASR+X 训练策略,能够在进行目标任务的同时高效稳定地优化语音识别,提升多任务学习的能力。

OSUM 模型的发布不仅注重性能表现,还强调透明性。其训练方法和数据准备过程均已开放,旨在为学术界提供有价值的参考与指导。根据技术报告 v2.0的介绍,OSUM 模型的训练数据量已提升至50.5K 小时,显著高于之前的44.1K 小时。其中,包括3000小时的语音性别分类数据和6800小时的说话人年龄预测数据。这些数据的扩展使得模型在各种任务中的表现更加优异。

据评估结果显示,OSUM 在多项任务上优于 Qwen2-Audio 模型,即使在计算资源和训练数据方面明显较少。相关的评估结果不仅涵盖了公共测试集,还包括内部测试集,展示了 OSUM 模型在语音理解任务上的良好性能。

QQ_1740040417911.png

西北工业大学 ASLP 实验室表示,OSUM 的目标是通过开放的研究平台,促进先进语音理解技术的发展。科研人员和开发者可自由使用该模型的代码和权重,甚至可用于商业目的,从而加速技术的应用与推广。

项目入口:https://github.com/ASLP-lab/OSUM?tab=readme-ov-file

划重点:  

🌟 OSUM 模型结合 Whisper 编码器与 Qwen2语言模型,支持多种语音任务,助力多任务学习。  

📊 OSUM 在技术报告 v2.0中,训练数据量增至50.5K 小时,提升了模型的性能。  

🆓 该模型的代码和权重在 Apache2.0许可下开放使用,鼓励学术界和工业界的广泛应用。  

  • 相关推荐
  • 全球优质AI语音大模型盘点:Whisper、Gemini Speech

    本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括:OpenAI Whisper(多语言识别与翻译)、Google Gemini(情感化语音生成)、Meta AudioCraft(音乐创作与风格转换)。国内讯飞星火(方言识别)、阿里通义(电商客服)、百度文心(车载场景)表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

  • 小红书支持发布语音评论 官方回应:内测中

    近日,小红书平台悄然上线语音评论功能引发网友广泛关注。部分用户在评论区发现可发送语音消息的新选项,但更多用户反馈其App更新后仍未获得该功能入口。 据小红书官方客服回应,语音评论功能目前处于内测阶段,仅向特定用户群体开放测试权限,尚未支持主动申请开通。 这一说法与用户反馈的“部分账号可见”现象相吻合,平台或通过分层测试评估功能稳定性与用�

  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

  • 选空调别犯难!齐鲁工业大学一次买进4600套海尔空调

    齐鲁工业大学一次性采购4600套海尔空调,打造"海尔空调墙"校园景观。目前长清校区已完成4500套安装,千佛山校区100套也已完工。这批空调具备快速制冷制热、智能自清洁、节能低噪等特点,将为师生提供舒适环境。校方表示选择海尔主要考量其卓越品质、可靠性和完善服务保障。618期间海尔空调线上销量增长超80%,增幅居行业前三品牌之首。开学后这批空调将全面启用,让师生第一时间感受清凉舒适。

  • 4600套!齐鲁工业大学立起“海尔空调墙”为学生送清凉

    齐鲁工业大学为改善校园环境,今年启动大规模空调安装工程,一次性采购4600套海尔空调,分阶段高效推进:1月完成长清校区4500套安装,6月完成千佛山校区100套安装。这批空调具备快速制冷/制热、自清洁、节能静音等功能,旨在为师生提供舒适节能的学习生活环境。校方表示选择海尔主要考量其卓越品质、可靠性和完善服务保障。618期间海尔空调线上销量增长超80%,增幅居行业前三品牌之首。9月开学季,这批空调将全面投入使用,显著提升校园舒适度。

  • 开源赋能·智领未来 青山工业与深蓝汽车技术开源共享生态建设

    深蓝汽车首创"微核高频脉冲加热技术",有效解决电动车低温续航短、充电慢、动力弱等痛点,加热速率提升200%以上,达到国际领先水平。该技术通过电池内部产生脉冲电流实现自加热,无需额外硬件,已获中国专利金奖。2024年5月,深蓝宣布将相关专利群开源,与青山工业等合作伙伴共建产业生态。实测显示,-30℃环境下电池温升超4℃/min,动力性能提升55%,充电时间

  • 深度理解,服务在地|Moka 用本地化实践深化全球布局

    Moka持续深耕海外市场,通过产品迭代和生态合作拓展全球化布局。2024年5月和6月,Moka先后亮相亚洲HR Tech展会和香港HR峰会,展示其AI驱动的智能招聘系统在多语言支持、跨时区面试安排等场景的解决方案。公司已在香港和新加坡设立办公室,并与当地服务商建立合作网络,强化区域落地能力。Moka Recruiting已服务东南亚、中东和欧洲客户,覆盖零售、金融科技等行业,通过持续打磨产品合规性和本地化功能,助力企业构建全球化人才连接能力。未来Moka将继续以技术驱动提升全球招聘效率,支持企业人力资源管理的全球化进程。

  • “晓妙”产业大模型——AI驱动的产业变革

    7月4日,安徽数智建材研究院在长城工程科技会议上发布"晓秒"产业大模型。该模型由傲林科技投资支持,采用"1+1+N"架构,融合数据、机理和业务模型,实现生产运营全流程实时闭环优化。中国建材集团董事长周育先表示,该模型已在水泥板块试点应用,吨水泥成本降低1%以上,能耗电耗下降2%以上。会议指出,AI落地制造业需突破三大关键:建立数字化体系、夯实数据基础、实现工艺与数据融合。未来将拓展至新能源、钢铁等十余个行业,推动产业智能化升级。

  • 印度失事波音客机飞行员语音对话曝光

    当地时间12日,印度航空事故调查局披露了此前印度航空波音787-8型客机坠毁事故的初步调查结果。 报告显示,飞机起飞后数秒内,两台发动机的燃油开关几乎同步从运行”位切换至切断”位,导致发动机燃料供应中断而空中熄火。 报告称,在驾驶舱语音记录中,可以听到一名飞行员向另一名飞行员提问说,为什么切断”。而另一名飞行员回答说,他没有这么做。”

  • 腾讯云GooseFS团队与厦门大学合作成果 AC-Cache入选 PPOPP

    腾讯云研发的AC-Cache内存缓存系统入选并行编程顶会PPOPP2025。该系统针对小型对象存储场景,通过感知访问关联性的创新设计,成功解决负载不均衡问题。实测显示,AC-Cache可降低80.2%尾部延迟,提升5倍以上访问吞吐量。该技术已开源并应用于腾讯云GooseFS产品,在手机制造、自动驾驶等领域取得显著成效:某手机厂商模型分发速度达300MB/s,带宽提升10倍;某车企训练效率提高30%,数据命中率超90%。AC-Cache的突破将助力企业突破存储性能瓶颈。

今日大家都在搜的词: