超过现有先进模型！网易云音乐2篇论文入选ICASSP2023

2023-02-20 11:34 · 稿源：站长之家用户

近日，网易云音乐2篇论文《TG-Critic: A Timbre-Guided Model for Reference-Independent Singing Evaluation》《TrOMR:Transformer-based Polyphonic Optical Music Recognition》入选ICASSP2023，论文提出的两种算法模型均优于现有先进模型。

一种是歌唱评价算法模型TG-Critic，利用它可以仅依靠一段演唱音频判断歌手演唱水平，实验结果表明，算法模型评估的歌曲与人工专家评价“演唱水平好”的歌曲，相似度达91%;另一种是识别图像乐谱的算法模型，通过模型识别图片中的五线谱，实验结果在复音乐谱上的错误率最高也仅为2.1%。

据了解，ICASSP（International Conference on Acoustics， Speech and Signal Processing）即国际声学、语音与信号处理会议，是IEEE主办的全世界最大的，也是最全面的信号处理及其应用方面的顶级会议，在国际上享有盛誉并具有广泛的学术影响力。此次入选，代表了网易云音乐在国际舞台上，展示出了在音乐音频领域的技术实力。

而且凭借在音乐技术领域的积累创新，网易云音乐也不断将前沿领域研究成果应用于实践。依靠目前准确率最高的歌曲质量评价算法，歌唱评价将不再依赖人力手工准备模板物料，歌手也不再需要模仿模板以获取高分，更鼓励歌手的个性化演绎。而且相比卡拉ok中的传统歌唱评价，该模型未来将用于更加丰富的使用场景，如歌曲分发、优质歌手挖掘、声音社交等等领域。而利用识别图像乐谱的算法模型，可以将模糊的图片乐谱准确识别，方便转换为利用率更高的格式，服务于音乐人、用户在欣赏、教育、创作等场景的需要。

三大技术创新拆解“开口跪”，将全球最优算法准确率至少提升4%

当歌唱老师和专家听到一首歌，就能迅速可以判断出歌手的演唱水平，而普通人则会用“开口跪”表达夸赞。当人们评价歌声质量时，人声的音色是影响判断的重要因素。受其启发，网易云音乐首创提出了一个音色为指导的歌唱评价模型:TG-Critic，将全球最优算法准确率提升4%以上。

据介绍，网易云音乐音频实验室在歌唱评价模型的设计过程中引入了三个主要创新点:

1.首次在模型中显式引入音色信息辅助歌声评价:研究表明，歌手的"音色"是影响人们对于歌声感受的重要因素。但不同于音准、节奏等较为简单的属性，音色是一系列复杂而抽象的感受的集合，因此其提取过程更为复杂，更难被模型直接捕捉到。至今为止的歌声自动评价系统中，还没有研究聚焦音色特征对于模型预测的影响。为了填补这一空缺，团队创新性地使用原本为“歌手识别”任务设计的预训练模型，提取与音色相关的高级特征，并将其用作歌声评价模型的输入。尽管这些特征原本并非为歌声质量设计，但是来自质量标签为“好”和“差”的样本的特征，在高维空间中分别呈现出较明显的聚集现象，证明了其与歌声质量的相关性。

2.迁移高分辨率网络结构处理声谱特征:除了音色特征输入，团队从音频样本中提取CQT声谱特征作为模型的主要输入。为了解决卷积网络局部性带来的问题，团队将图像分割领域较为常用的“高分辨率网络”迁移到歌声评价任务中，分别通过高、中、低三个不同的分辨率分支分别处理特征。通过高分辨率特征捕捉局部信息（如演唱技巧、小瑕疵等）、低分辨率特征捕捉长距离信息(气息稳定性、音准等)，从而实现保持有效性的同时，提升模型提取有用信息的能力。

3.提出循环自动数据标注降低人工成本: 对于一个模型的训练，可靠的标注数据尤为重要。团队收集了3万余条歌声数据样本，以及其对应的机器打分（针对音准、节奏等）、红心数、评论数等可以一定程度反映歌声质量的元数据。通过一个循环迭代过程，只需要人工标注其中小部分样本，便能获得足够可靠的自动数据标签，大大降低了标注所需的人工成本。

实验结果表明，在各类公开数据集上，网易云音乐提出的TG-Critic均达到国际先进水平，相比已有算法，准确率提升至少4%，部分数据集提升10%以上。而且应用于网易云音乐业务测听的结果显示:在音乐人业务:运营评估歌曲推荐值≥3共159首歌曲中，算法评价为“演唱水平好”共144首，准确率达90.5%;在直播业务:运营提供100首算法判定“演唱水平好”歌曲的人工验证，准确率91%;在500+全演唱水平分类实验中，准确率81.2%。

据了解，TG-Critic歌曲质量评价模型将进一步减少人力依赖并扩大应用场景在直播、音乐人等内容分发场景，可协助人工挑选优质内容，可服务于作品审核、分发或推荐，优质歌手挖掘在社交、游戏等C端场景，可提供“开口跪挑战”等运营玩法。

懂AI又懂乐理，看图识谱技术上的又一次突破

随着深度学习方法的应用，OCR（图像文字识别）近年得到了长足的进步，而OMR(图像乐谱识别)却始终处于研究应用的初级阶段。由于这个方向属于交叉学科，既要懂视觉算法又要懂乐理。目前市面上的商业或开源软件都不具备可用的准确率。

因此，网易云音乐音视频实验室采用基于端到端的算法识别路线，优化识别流程:1）拿到一个乐谱图片，检测图片中的曲谱位置坐标;2)提取曲谱区域，进行曲谱识别，识别出乐谱中的内容信息，如下图:

针对该乐谱识别模型，网易云音乐音频实验室也做了多方面的创新，大大提高了准确性。例如，将Transformer引入到乐谱识别任务中，通过该结构可以实现更大的感受野，有利于对长序列进行预测，提升识别准确率;同时，将乐谱的信息维度将乐谱符号分为:乐谱符号全局表征+乐谱符号局部表征+音符音高。这样的拆分方式更利于机器理解和学习。

值得注意的是，团队还精心设计了一套乐谱图片拍摄的方案。为了收集大量真实的数据，使用手机作为拍照工具，模仿最真实的拍照场景，对明、暗光场景的纸质乐谱进行拍照，以及对显示在显示屏上的乐谱进行拍照。

实验结果表示，网易云音乐的乐谱识别算法的准确性已经超过目前最好的端到端音乐谱识别方法，大幅降低错误率。下图中第一行为正确的乐谱识别结果，第二行为目前最好的复音乐谱识别方法的识别结果，第三行为本技术提出方案的识别结果，红框标记的为错误区域。

据介绍，该方法可以准确地将图片乐谱转换为midi、musicxml等格式，未来可用于音乐辅助教育、听歌搜谱等场景中，致力于在音乐欣赏、教育、创作等场景上，为音乐人、用户提供更好的服务。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

StarRocks Connect 2025 圆满落幕：AI Native 时代，数据分析未来已来

StarRocks Connect 2025峰会圆满落幕，聚焦AI Native时代的数据分析未来。活动汇聚全球开发者与行业专家，分享StarRocks在复杂业务场景中的实践，探讨技术演进方向。从性能引擎到AI原生平台，StarRocks 4.0将支持多智能体协作框架，提升数据分析效率。多家企业展示应用案例，覆盖电商、金融、旅游等领域，验证了其高性能与成本优势。开源精神推动技术创新，共同探索数据智能的无限可能。

StarRocks 数据分析 AI
DeepSeek更新至V3.1 Terminus版本：两大升级

9月22日，深度求索宣布DeepSeek V3.1已更新至Terminus版本，官方App、网页端、小程序与API模型同步升级。本次更新在保持模型原有能力基础上，针对用户反馈进行改进：优化语言一致性，缓解中英文混杂、异常字符等问题；提升Code Agent与Search Agent表现。官方表示新版本输出效果更稳定，各领域评测表现优异。开源版本已在Hugging Face和ModelScope平台发布。

DeepSeek V3.1 Terminus版本
新品|灵动式三维扫描系统NimbleTrack Gen2震撼来袭！

思看科技9月17日发布新一代NimbleTrack+Gen2智能无线三维扫描系统。该系统采用全无线设计，无需贴点，最高精度达0.025mm，支持120FPS高速扫描，单站最远跟踪距离4.2米。创新融合跟踪式与手持式双模式，可覆盖中小型精密件到大型工业件的全场景测量，助力工业检测向高效化、智能化升级。

三维扫描系统智能无线工业检测
“无人测试”新趋势：2025服贸会公布领先AI测试平台——Testin XAgent

在数字化浪潮下，软件质量成为企业核心竞争力。传统测试依赖人工，面临效率瓶颈、覆盖局限和技术门槛三大痛点。AI技术正推动测试从自动化向智能化变革。Testin云测发布新一代AI智能测试系统Testin+XAgent，融合大语言模型和智能体技术，实现自然语言驱动测试、高精度视觉识别、全自动API测试和自主探索式测试，重塑测试流程。该系统代表软件测试向“无人测试”升级，助力中国技术出海，彰显AI+测试的全球竞争力。

软件测试 AI智能测试无人测试
OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

OpenAI宣布推出新一代AI编程模型GPT-5-Codex，其最大亮点是创新的动态时间分配系统。不同于传统AI追求秒级响应”，该模型可根据任务复杂度灵活调整处理时长，从数秒到7小时不等，以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称，传统模型在任务初期即固定计算资源，而GPT-5-Codex能实时评估需求：动态决定加速推进、暂停语法核�

GPT-5-Codex 动态时间分配 AI编程模型
两步生成企业级Agent，华为云Versatile平台打通智能体落地最后一公里

华为在2025全联接大会上发布企业级智能体平台Versatile，通过极简流程实现企业级Agent开发，仅需输入业务逻辑与流程图即可完成，效率提升10倍。同时公布昇腾芯片未来三年规划，将陆续发布多款高性能芯片。华为云还推出超节点产品Atlas系列，算力全球领先。CloudMatrix384 AI+Token推理服务全面上线，吞吐量达2400TPS，性能远超业界水平。该平台已与多个行业合作，助力企业构建数字化AI产线，实现业务效率飞速提升。

华为企业级智能体平台 Versatile
不止于价格，DigitalOcean、AWS和Linode该选谁？

本文对比了DigitalOcean、AWS和Linode三大海外云服务商，从定位、成本、易用性、GPU性能及本土化支持等维度分析其优劣势。DigitalOcean以开发者友好、简单易用和高性价比著称，适合初创企业和中小团队；AWS功能全面但复杂昂贵，适合大型企业；Linode性能稳定但生态有限。特别强调DigitalOcean通过卓普云提供本土化支持，解决支付、备案和技术响应等痛点，是中国企业出海的高效选择。

云服务商选择中国企业出海 AWS对比
美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

9月23日，美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时，性能更强大、更专业，在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平（SOTA），部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力，扩展了形式化定理证明能力，成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出，多项基准测试成绩领先开源及闭源顶尖模型，已在HuggingFace、Github全面开源。

高效推理模型 LongCat-Flash-Thinking 开源模型
霸榜双雄齐步走！Century Games专列直达东京电玩展

世纪华通旗下Century Games为参加2025东京电玩展（TGS2025）量身定制了游戏主题“专列”，覆盖地铁广告、户外展示、裸眼3D大屏等多元传播渠道。9月25日至28日展会期间，公司包下途经展馆的列车广告位，车厢内贴满《Whiteout Survival》与《Kingshot》海报，串联涩谷、浅草寺等人流密集站点。展馆外设置巨型玻璃钢装置，以两款游戏标志性场景为背景，结合本地化舞台节目与互动体验，强化品牌影响力。此次营销不仅为展会预热，更彰显公司深耕日本市场、以“场景化+本地化”策略提升用户粘性的决心。

东京电玩展游戏主题专列 Century
Claude 用不了？蓝耘 Coding Agent 提供原生替代方案，更轻量、高性价比的替代选择

Anthropic宣布停止向中国资本控股企业提供Claude服务，蓝耘Coding Agent凭借强代码能力、灵活适配性及高性价比成为可靠替代选择。支持多模型切换、低迁移成本，提供可视化控制台和本地化服务，助力开发者无缝衔接开发流程，确保工作连续性。

文章搜索核心标签 Claude服务

今日大家都在搜的词：

热文

3 天
7天

超过现有先进模型！网易云音乐2篇论文入选ICASSP2023

StarRocks Connect 2025 圆满落幕：AI Native 时代，数据分析未来已来

DeepSeek更新至V3.1 Terminus版本：两大升级

新品|灵动式三维扫描系统NimbleTrack Gen2震撼来袭！

“无人测试”新趋势：2025服贸会公布领先AI测试平台——Testin XAgent

OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

两步生成企业级Agent，华为云Versatile平台打通智能体落地最后一公里

不止于价格，DigitalOcean、AWS和Linode该选谁？

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

霸榜双雄齐步走！Century Games专列直达东京电玩展

Claude 用不了？蓝耘 Coding Agent 提供原生替代方案，更轻量、高性价比的替代选择

今日大家都在搜的词：

热文

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

全新问界M7小订破22万：将于明晚上市公布价格

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-

折叠屏iPhone细节曝光采用超薄钛合金：预计售价2000美元起

小米平板8系列搭载11.2英寸3.2K旗舰屏

雷军演讲主题《改变》官宣：聊玄戒芯片和小米汽车背后的故事

鸿蒙智行尚界H5小订破15万台：明晚上市

iPhone17遭首批用户吐槽客服回应：建议新机带壳

realme真我GT8系列官宣10月发布

微信员工回应新iPhone提示空间不足：代码Bug所致

AI日报：可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去

AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-A

小米召回116887辆SU7电动汽车：将OTA升级消除安全隐患

雷军回应小米召回11.7万辆SU7：将为用户带来更多期待功能

iPhone17 Pro Max续航实测夺冠 iPhone Air表现不俗

鸿蒙智行秋季发布会定档9月23日：尚界H5、新问界M7来了

小米发布REDMI 15R 5G手机：售价1099元起搭载6000mAh电池

苹果 iPhone 17/Pro 系列今日发售多维度升级

京东：iPhone 17开卖4小时全国超3万人签收

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

站长商机