首页 > 传媒 > 关键词  > TGCritic:ATimbreGuidedModelforReferenceIndependentSingingEvaluation最新资讯  > 正文

超过现有先进模型!网易云音乐2篇论文入选ICASSP2023

2023-02-20 11:34 · 稿源: 站长之家用户

近日,网易云音乐2篇论文《TG-Critic: A Timbre-Guided Model for Reference-Independent Singing Evaluation》《TrOMR:Transformer-based Polyphonic Optical Music Recognition》入选ICASSP2023,论文提出的两种算法模型均优于现有先进模型。

一种是歌唱评价算法模型TG-Critic,利用它可以仅依靠一段演唱音频判断歌手演唱水平,实验结果表明,算法模型评估的歌曲与人工专家评价“演唱水平好”的歌曲,相似度达91%;另一种是识别图像乐谱的算法模型,通过模型识别图片中的五线谱,实验结果在复音乐谱上的错误率最 高也仅为2.1%。

据了解,ICASSP(International Conference on Acoustics, Speech and Signal Processing)即国际声学、语音与信号处理会议,是IEEE主办的全世界最 大的,也是最 全面的信号处理及其应用方面的顶 级会议,在国际上享有盛誉并具有广泛的学术影响力。此次入选,代表了网易云音乐在国际舞台上,展示出了在音乐音频领域的技术实力。

而且凭借在音乐技术领域的积累创新,网易云音乐也不断将前沿领域研究成果应用于实践。依靠目前准确率最 高的歌曲质量评价算法,歌唱评价将不再依赖人力手工准备模板物料,歌手也不再需要模仿模板以获取高分,更鼓励歌手的个性化演绎。而且相比卡拉ok中的传统歌唱评价,该模型未来将用于更加丰富的使用场景,如歌曲分发、优质歌手挖掘、声音社交等等领域。而利用识别图像乐谱的算法模型,可以将模糊的图片乐谱准确识别,方便转换为利用率更高的格式,服务于音乐人、用户在欣赏、教育、创作等场景的需要。

三大技术创新拆解“开口跪”,将全球最 优算法准确率至少提升4%

当歌唱老师和专家听到一首歌,就能迅速可以判断出歌手的演唱水平,而普通人则会用“开口跪”表达夸赞。当人们评价歌声质量时,人声的音色是影响判断的重要因素。受其启发,网易云音乐首创提出了一个音色为指导的歌唱评价模型:TG-Critic,将全球最 优算法准确率提升4%以上。

据介绍,网易云音乐音频实验室在歌唱评价模型的设计过程中引入了三个主要创新点: 

1.首 次在模型中显式引入音色信息辅助歌声评价:研究表明,歌手的"音色"是影响人们对于歌声感受的重要因素。但不同于音准、节奏等较为简单的属性,音色是一系列复杂而抽象的感受的集合,因此其提取过程更为复杂,更难被模型直接捕捉到。至今为止的歌声自动评价系统中,还没有研究聚焦音色特征对于模型预测的影响。 为了填补这一空缺,团队创新性地使用原本为“歌手识别”任务设计的预训练模型,提取与音色相关的高 级特征,并将其用作歌声评价模型的输入。尽管这些特征原本并非为歌声质量设计,但是来自质量标签为“好”和“差”的样本的特征,在高维空间中分别呈现出较明显的聚集现象,证明了其与歌声质量的相关性。

2.迁移高分辨率网络结构处理声谱特征:除了音色特征输入,团队从音频样本中提取CQT声谱特征作为模型的主要输入。为了解决卷积网络局部性带来的问题,团队将图像分割领域较为常用的“高分辨率网络”迁移到歌声评价任务中,分别通过高、中、低三个不同的分辨率分支分别处理特征。通过高分辨率特征捕捉局部信息(如演唱技巧、小瑕疵等)、低分辨率特征捕捉长距离信息(气息稳定性、音准等),从而实现保持有效性的同时,提升模型提取有用信息的能力。 

3.提出循环自动数据标注降低人工成本: 对于一个模型的训练,可靠的标注数据尤为重要。团队收集了3万余条歌声数据样本,以及其对应的机器打分(针对音准、节奏等)、红心数、评论数等可以一定程度反映歌声质量的元数据。通过一个循环迭代过程,只需要人工标注其中小部分样本,便能获得足够可靠的自动数据标签,大大降低了标注所需的人工成本。

实验结果表明,在各类公开数据集上,网易云音乐提出的TG-Critic均达到国际先进水平,相比已有算法,准确率提升至少4%,部分数据集提升10%以上。而且应用于网易云音乐业务测听的结果显示:在音乐人业务:运营评估歌曲推荐值≥3共159首歌曲中,算法评价为“演唱水平好”共144首,准确率达90.5%;在直播业务:运营提供100首算法判定“演唱水平好”歌曲的人工验证,准确率91%;在500+全演唱水平分类实验中,准确率81.2%。

据了解,TG-Critic歌曲质量评价模型将进一步减少人力依赖并扩大应用场景在直播、音乐人等内容分发场景,可协助人工挑选优质内容,可服务于作品审核、分发或推荐,优质歌手挖掘在社交、游戏等C端场景,可提供“开口跪挑战”等运营玩法。

懂AI又懂乐理,看图识谱技术上的又一次突破

随着深度学习方法的应用,OCR(图像文字识别 )近年得到了长足的进步,而OMR(图像乐谱识别)却始终处于研究应用的初级阶段。由于这个方向属于交叉学科,既要懂视觉算法又要懂乐理。目前市面上的商业或开源软件都不具备可用的准确率。

因此,网易云音乐音视频实验室采用基于端到端的算法识别路线,优化识别流程:1)拿到一个乐谱图片,检测图片中的曲谱位置坐标;2)提取曲谱区域,进行曲谱识别,识别出乐谱中的内容信息,如下图:

针对该乐谱识别模型,网易云音乐音频实验室也做了多方面的创新,大大提高了准确性。例如,将Transformer引入到乐谱识别任务中,通过该结构可以实现更大的感受野,有利于对长序列进行预测,提升识别准确率;同时,将乐谱的信息维度将乐谱符号分为:乐谱符号全局表征+乐谱符号局部表征+音符音高。这样的拆分方式更利于机器理解和学习。

值得注意的是,团队还精心设计了一套乐谱图片拍摄的方案。为了收集大量真实的数据,使用手机作为拍照工具,模仿最真实的拍照场景,对明、暗光场景的纸质乐谱进行拍照,以及对显示在显示屏上的乐谱进行拍照。

实验结果表示,网易云音乐的乐谱识别算法的准确性已经超过目前最 好的端到端音乐谱识别方法,大幅降低错误率。下图中第 一行为正确的乐谱识别结果,第二行为目前最 好的复音乐谱识别方法的识别结果,第三行为本技术提出方案的识别结果,红框标记的为错误区域。

据介绍,该方法可以准确地将图片乐谱转换为midi、musicxml等格式,未来可用于音乐辅助教育、听歌搜谱等场景中,致力于在音乐欣赏、教育、创作等场景上,为音乐人、用户提供更好的服务。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • 网易云音乐首发适配iOS 17!Standby模式、全新小组件上线

    苹果新一代操作系统iOS17将于明天正式推送,兼容第二代iPhoneSE及之后的所有机型,算上iPhone15系列的话,共兼容23款iPhone。在iOS17推送前夕,网易云音乐今日发布8.10.75更新,宣布首发适配iOS17,多个新功能上线。StandBy功能利用设备端的机器学习技术,根据用户使用习惯和环境条件,智能调节iPhone屏幕亮度、声音大小、网络连接等设置,以减少电量消耗。

  • 2023王者荣耀挑战者杯直播地址 2023王者挑杯比赛赛程

    2023王者荣耀挑战者杯即将在10月13日正式开赛,此次大赛将持续近一个月的时间,来自四个赛道共16支队伍参赛,下面就给大家带来2023王者荣耀挑杯直播地址和赛程详细安排情况。2023王者荣耀挑战者杯直播地址:虎牙直播:搜索KPL进入KPL直播间观赛斗鱼直播:搜索王者赛事直播间观赛B站直播:搜索王者荣耀挑战者杯即可找到直播间2023王者荣耀挑战者杯赛程安排:瑞士轮阶段:10月13日-1

  • 2023年,谁还“信”主播?

    今年以来,不少头部主播或翻车或声量减小。他们的共同点在于,原本是站在消费者一边的主播,在享受信任红利后,转头站到了消费者的对立面。在这些主播中,打假博主是将信任红利运用到极致的一批人。他们往往因为一次打假一战成名,又会因为一次“失误”一朝跌落神坛。曾经因为揭露三亚海鲜市场缺斤少两而走红的“铁头惩恶扬善”(下称铁头),就是近期一位有�

  • 2023凤凰之星港股最佳上市公司:海尔智家、比亚迪等13入选

    9 月 27 日,由凤凰卫视、凤凰网发起,中国上市公司协会和德鲁克管理学院的支持的“新空间·新动能——凤凰湾区财经论坛2023”在深圳、香港两地同步开幕。论坛期间,“ 2023 凤凰之星港股最 佳上市公司”榜单公布,海尔智家、比亚迪、华润万象生活等 13 家企业入选。 据了解,此次评选旨在进一步展示港股上市公司综合价值,助力香港资本市场提升韧性与活力。 在评选过

  • 2023社交进入大变革时代

    2023社交还有新故事,微信巨头位置坐得还稳吗?不久前,Meta推出社交平台Threads、微信种草社区“小绿书”开启内测,字节跳动推出了海外生活方式社区Lemon8。社交赛道为何再度火热,似乎没有终局?简单来说,过去几年,社交赛道一度遭遇增长困境——传统的IM和“左划右划”的陌生人社交早已无法获取和留住用户,面向大众的兴趣社区也逐渐遭遇流量天花板。AIGC的出现,似乎

  • 2023天大会落幕!美利第四次成功承办分论坛

    9月16日,由美利云和并行科技共同承办的“2023云天大会 | 超算混合云助力制造企业智算未来论坛”在宁夏中卫圆满落幕。中卫市市委常委、副市长许洪波、美利云党委书记、董事长张春华、誉成云创总经理曲鸣、誉成云创副总经理陈金兴及业内数百位行业精英共同出席了本次论坛。伴随 “东数西算”国家战略的快速推进,宁夏中卫跻身“全国一体化算力网络国家枢纽”八大节

  • 数聚中卫,算引未来 2023 天大会成功举办

    2023 年 9 月 16 日,以“数聚中卫 算引未来”为主题的 2023 云天大会在宁夏中卫隆重举行。本届大会由宁夏回族自治区发展和改革委员会、宁夏回族自治区工业和信息化厅、宁夏回族自治区通信管理局、宁夏回族自治区中卫市人民政府主办,中国通信工业协会数据中心委员会、宁夏中关村产业园科技投资有限公司承办,采用线下+线上的形式,吸引了来自全国各地的政府部门、学

  • 中兴服务器亮相2023中国算力大会

    中兴通讯出席由工业和信息化部、宁夏回族自治区人民政府共同在银川举办的2023中国算力大会,并亮相了中兴服务器及存储产品,其中包括服务器、GPU服务器、液冷服务器以及高端全闪磁阵等一系列的新一代算力基础设施。算力作为数字经济快速发展的核心生产力,正推动着千行百业数字化转型。中兴通讯作为“数字经济筑路者”,在未来将持续加大投入创新研发,为合作伙伴与客户带来更稳定、更安全、更可靠的中兴服务器以及存储产品,赋能千行百业,筑路数字经济,全力助推数字经济时代的高质量可持续发展。

  • ICCV'23论文颁奖“神仙打架”!Meta分割一切和ControlNet共同入选,还有一让评委们很惊讶

    计算机视觉巅峰大会ICCV2023,在法国巴黎正式“开奖”!今年的最佳论文奖,简直是“神仙打架”。获得最佳论文奖的两篇论文中,就包括颠覆文生图AI领域的著作——ControlNet。来自MIT的TedAdelson教授则获得了终身成就奖。

  • 2023 HEROSE Awards榜单发布,星光闪耀红颜会

    9月21日晚,在由红颜会主办的2023第十届女性商业时代盛典颁奖礼上,被誉为“商界女性奥斯卡”的《HEROSE50·2023中国商界女性领袖年度人物》榜单隆重揭晓。国际传奇女性梅耶·马斯克、奥黛丽·赫本长子肖恩·赫本·费雷尔、国际影响力华人女性榜样靳羽西、新希望联合创始人李巍、中国香港女演员翁虹、中国内地实力女演员刘敏涛、中国内地青年女演员蓝盈莹等嘉宾与众多商

今日大家都在搜的词: