首页 > 传媒 > 关键词 > AI最新资讯 > 正文

名校大厂 AI 高手云集,芒果 TV 音视频算法大赛硕果累累

2021-07-29 11:59 · 稿源:站长之家用户

东京奥运会已正式开幕,最新的IT技术也在进入奥运赛场。

本届奥运会引入的 AI 辅助打分,扮演了“助理裁判”的角色。这项技术可以追踪选手动作并实时转换为三维立体图像,再由系统根据图像对选手的身体旋转和扭动等动作进行分析,最终依据打分标准判断出选手技术的完成度。可以说是机器视觉在全球顶级运动赛事最核心领域的应用了。

图1:AI捕捉相机画面中选手动作

回到国内,工业界对于图形与音视频算法的探索与实践也在不停向前。近期,由中国(长沙)马栏山视频文创产业园(以下简称马栏山视频文创产业园)和芒果 TV 联合举办的第二届“马栏山杯”国际音视频算法大赛(以下简称大赛)刚刚结束赛程。

顶级赛事背书,全球 Top 高校与一线大厂 AI 人才齐集

在输出众多国内顶级的视频节目之外,马栏山视频文创产业园与芒果TV也是音视频领域实践最新 AI 技术的先行者。过去几年来,他们持续投入资源与资金培养扶持新兴的 AI 技术团队,已进行到第二年的“马栏山杯”国际音视频算法大赛即在此背景下诞生。

作为顶级的音视频算法赛事,大赛规模庞大,评委与参赛者级别也保持了最高水准。截止到大赛结束,本届大赛参赛队伍总数达到1959 个,参赛选手共2052 人次相比去年,参赛队伍数量增长51.4%。他们来自全球 Top 级科研院校与国内一线互联网科技大厂,是 AI 科研学术与工程界一线的实操者,也是 AI 领域最炙手可热的人才。

图2:国内Top60 参赛院校与部分国际院校

目前大赛正式赛阶段已全部结束,参赛者们围绕视频补全、视频推荐、音乐节拍检测三大赛道展开技术的交锋,最终每个赛道分别有十个团队胜出。

三大赛道获胜名单公布,超高实力选手高水平发挥

一、视频补全赛道

今年大赛的视频补全赛题,是由视频行业非常重要的技术需求催生而生。视频后期制作希望借助机器学习技术,通过 AI 分析视频中的点位和图像,实现劣迹艺人抹除、影视剧穿帮抹除、logo 抹除、水印抹除等操作。参赛者需要以大赛提供的视频片段数据为基础,进行模型训练,用 AI 算法实现视频缺失区域的补全。

视频补全赛道共有参赛队伍451 个,参赛人次473,众多参赛选手中,不乏国内各大AI与算法赛事的获胜者。其中,获得第一名的单人参赛选手惠政,是目前在阿里达摩院实习的西安电子科大博士,也是大赛去年视频修复赛道的第二名。获得第二名的是“景-artii”团队, 3 名成员来自华南理工大学与帝视科技公司,他们同时取得了音乐节拍检测赛道的第三名。第三名的两位参赛者都是阿里达摩院员工。视频补全赛道前十名名单如下:

图3:视频补全赛道前十名

在比赛中,视频补全赛道评分的基准分是68.7054,而前十名参赛选手得分已远高于此,可见选手的技术实力与在此届大赛中的高水平发挥。

另外,该赛道冠亚季军的方案设计也各有特色。第一名选手惠政采用端到端的训练方案 STTN,即用于视频修复的时空联合 Transformer,通过自注意力机制同时填充所有输入帧中的缺失区域,并使用 L1 +时空对抗性损失来优化 STTN。为了加速和减少显存,他使用了半精度模型并对输入进行裁剪。训练过程分为两步:首先使用较小的训练 patch (512 *288)、L1 损失+对抗损失对网络进行训练;然后使用较大的训练 patch(1024*448)、L1 损失对网络进行微调。测试阶段使用 self-ensemble 策略对结果进行增强。

第二名则设计了基于循环的 U-net 级联+注意力融合的深度学习模型,利用循环结构去充分利用帧间信息。

第三名团队采用了 STTN 和 DSTT 两个深度模型,针对不同的 mask 类型使用不同模型,更有针对性地解决对应视频补全的问题。他们在实战中发现 DSTT 在文字类型水印效果较好,STTN 则在其它类似数据上更优,基于此,他们使用 DSTT 训练文字水印数据,STTN 训练其它数据,并在训练中采用了多种策略去优化网络。

以下为在100 个补全视频下的前三名性能分析:

https://upload.chinaz.com/2021/0729/2021072911594741414.png

二、视频推荐赛道

大赛的第二个赛题是视频推荐,目标是通过数据驱动的设计与架构,提高视频推荐点击率以及人均有效观看时长。本赛题以芒果 TV 真实推荐业务场景为原型,设置丰富的特征维度以及海量的数据信息,希望选手设计出一套精准有效的推荐模型,以帮助提升视频推荐的效果,改善平台用户体验。

视频推荐赛道中共有参赛队伍627 个,参赛人次651。本赛道是数据科学领域高手的聚集地,前三名都是国内外算法竞赛常客,均在 Kaggle 上获得过多枚金牌。其中第一名和第三名更是在Kaggle 全球数据科学家最高总排名第12,获得 Kaggle Grandmaster 称号。视频推荐赛道前十名名单如下:

图4:视频推荐赛道前十名

本赛道参赛者对赛题的设计思路也值得深挖。第一名获胜选手黄钟山采用了基于召回+排序+回归的架构来预测本次赛题的多任务目标。召回层设计中,他从相关视频 fvid 的历史曝光点击记录、用户主站观看行为等层面设定了 7 种策略。在排序层,主要是借助多维度的特征工程,例如曝光日志点击日志数据、用户主站行为序列数据等。模型构建上,他选择了lightgbm,并结合了负采样、cross validation等策略。

获得第二名的获胜 OTTO 团队采用基于召回+排序+多分类的架构,他们在特征工程上下了很多功夫,主要有基础特征、用户兴趣和时间特征三类。例如转化率、频次特征、用户历史对tag的点击和转化、fvid下vid最近一次点击时间距离当前时间距离等。最后通过lightgbm对特征进行建模,得到预测结果。

第三名的获胜的江离团队采用了基于粗排+精排+二分类的架构,江离团队使用的信息与模型和前两名团队类似,只不过在架构思路上有所不同。该团队采用粗排+精排+二分类预测的设计。其中,粗排为每天召回3000w+样本量,使用了 50 个左右特征;精排根据每个did-fvid选取top60 作为候选,最后通过二分类模型输出预测结果。

三、音乐节拍检测赛道

大赛的第三个音乐节拍检测赛道中,参赛者基于AI算法对音乐中节奏节拍的学习和训练,实现如节拍踩点匹配视频的创新应用。本赛题提供数据集,选手需要通过深度学习算法实现对节拍 beat 和重拍 downbeat 的检测并标识时间点位,同时也可使用传统音频算法。

音乐节拍检测赛道共有参赛队伍452 个,参赛人次467,前三名来自清华大学、湖南大学、厦门大学和华南理工大学。第一名 mg13078804B 团队选手吴健是清华大学硕士,第二名 fuqianya 团队选手王志宇是湖南大学在读硕士,而第三名是帝视科技和华南理工大学的校企联合团队。其他前十名选手还有来自中国银行、华为等知名企业,以及多次夺得AI竞赛名字的人工智能领域优秀人才。音乐节拍检测赛道前十名名单如下:

图5:音乐节拍检测赛道前十名

对于音乐节拍检测赛题的分析与实现,赛道冠亚季军三个团队方案各有不同。第一名选手吴健在本次比赛中基于 TCN 网络和 GRU+MLP 网络,提出了两阶段的解决方案,同时通过模型集成策略,进一步提高结果准确率。为了减少预测耗时,特征提取采用固定 fft size,效率最高使用 torch.stft。另外,吴健在节拍处理时发现 DBNBeatProcessor 并不适合赛题数据,他通过 autocorrelation 对网络预测的结果进行优化,提高了最终结果的准确率。

第二名 fuqianya 团队选手王志宇提供了一种迁移学习方案。通过 BiLSTM 网络,首先在比赛提供的 GTZAN 数据集进行预训练,然后在验证集上进行微调,使模型更适应比赛验证集的音乐风格。为了平衡模型的速度和精度,他仅使单一模型进行推理。

赛道第三名十一月的肖邦提供了深度学习与规则后处理结合的新解决方案。通过对音频数据使用不同的解析方式,他们对同一个网络训练出两个模型,之后对两个模型的预测结果通过概率取平均融合。

纵观获胜队伍对赛题的拆解和设计实操,我们能看到,像 AI 模型需要千亿级别的参数不停训练一样,AI 应用的也早已不是停留在理论层面的探索,而是进行了大量地与现实工程问题结合研究与实践。芒果 TV 音视频算法大赛汇集了国内一线音视频项目的真实痛点,也正是因为此,连续两年的大赛都吸引到了国内外 Top 级 AI 高手参与赛题竞技。

本次大赛汇聚了视频节目制作方与知名高校、技术大厂的Top 级 AI 高手。为他们提供彼此竞争、相互激发的场景,助力产出 Top 级的音视频算法方案,这也是“马栏山杯”国际音视频算法大赛更重要的意义所在。作为顶尖赛事的算法大赛,“马栏山杯”国际音视频算法大赛促进了AI机器学习领域多方的共赢,也将成为 AI 音视频行业必不可缺的重要盛会。CSDN将持续跟进大赛后续发展与赛事最新技术实践,敬请关注。

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务。

  • 相关推荐
  • 大家在看
  • 上海电信IPTV广告可关闭

    今日,针对“电信IPTV开机广告关不掉”一事,中国电信上海公司再次回应称,一贯重视用户体验,上海市消保委微信公众号发布了关于IPTV广告的相关内容后,中国电信上海公司高度重视,连夜成立专项工作组,研究IPTV开机广告一键关闭相关技术方案,抓紧落实技术开发,力争在三个月内上线。

  • 这届Z世代,谁还去KTV、网吧和影院?

    比如80后的青春是迪斯科舞厅,90后的青春是KTV。对于80、90后来说,朋友聚会的选项里一定少不了KTV、电影院、网吧这些选项。但明显的现象是,这些传统社交场所对Z世代的吸引力是在边界递减的。

  • Zoom 宣布收购 AI 实时翻译公司 Kites

    Zoom公司宣布将收购一家名为 Kites(Karlsruhe Information Technology Solutions )的公司,Kites 公司专注于实时翻译和转录软件的开发。Zoom 表示,此次收购是为了帮助使用其会议软件的用户更轻松地与不同语言的人交流,并且计划为其视频会议软件添加实时翻译功能。另外Zoom 正考虑在德国开设一个研究中心,Kites 团队将加入此研究中心。

  • 十大KTV设计公司排行榜排名

    第一名:北风KTV设计事务所北风从业三十余年,为娱乐设计行业著名资深人士,是中国娱乐设计的奠基人。多年来一直以卓有成效和极富创意的工作而获得客户的高度认可和赞扬,擅长于大型项目的整体策划、设计,每个项目都将策划、设计、经营结合起来。在娱乐专刊上发表《娱乐项目的成功定律》《娱乐场所的策划与设计》等专业文章。第二名:JCD设计事务所JCD娱乐空间设计事务所由程济恒设计师创立于2004年,组建的几年以来创作设计北京.上

  • 上海电信IPTV开机广告中途无法关闭要怎么解决?

    不管是电视还是电视盒子开机有广告的现象已经屡见不鲜了,而近日出现的一则“上海电信IPTV开机广告”的新闻则是被广大消费者重视了起来,为什么这种屡见不鲜的现象突然就引起了广大消费者的注意呢?下面就具体来说说事情的经过好了。可以说电视开机有广告势必会给用户带来极差的体验,而事情的起因也是有用户在使用上海电信的IPTV盒子后发现开机广告无法关闭,需要等广告播放完后才能够看上电视,而这期间至少要等上半分钟。当用户?

  • 6月IPTV行业月报新鲜出炉,CCTV-5全天收视率上涨22.21%

    本月IPTV用户日活率51%,较上月有小幅上涨;本月直播、点播、其他场景分别上涨4min、6min、3min;本月不同省份到达率和粘性有较大差异。欧洲杯关注度较高,带动CCTV- 5 体育频道全天收视率上涨22.21%;电视剧方面,湖南卫视《温暖的味道》、《百炼成钢》、《理想照耀中国》、《猎狼者》四档节目上榜前十。

  • 电视怎么k歌?利用当贝酷狗音乐,家里秒变ktv

    为什么现在人们去ktv少了?随着版权时代的来临,越来越多的ktv下架了热门歌曲。无歌可唱,且高昂的包厢费,劝退了不少歌迷朋友。如若再碰上几位仗着麦不放手的麦霸朋友们,相信你k歌的时间寥寥无几。其实家里有一台智能电视,就可以好好利用当贝酷狗音乐,将家里秒变ktv!第一步:给家里的电视安装好当贝市场,安装当贝市场的具体教程可参考当贝市场官网第二步:在当贝市场的页面里搜索DBKGYY,找到当贝酷狗音乐app并安装第三步:打开当

  • 字节跳动辟谣出售TikTok AI技术:不会出售任何算法代码

    今日,针对“出售 TikTok  AI 算法”的传闻,字节跳动官方回应称,有关BytePlus出售TikTok AI技术的报道不实,相关业务只是提供技术服务,并不会出售任何算法或者AI技术代码。

  • 囧司徒在Twitter上分享Apple TV+新节目的首支预告

    囧司徒刚刚在个人推特账号上,分享了即将于 Apple TV+ 上架的新节目的首支预告。通过三分钟的视频,我们可知晓《The Problem with Jon Stewart》节目将紧跟时事,带来对杰夫·贝索斯(Jeff Bezos)和理查德·布兰森(Richard Branson)这两位致力于私人太空旅游业务的亿万富翁的各种调侃。据悉,《囧司徒的问题》节目定于今年 9 月在 Apple TV+ 流媒体平台首播。虽然目前尚不清楚预告剪辑与正片有多大的联系,但早前爆料称每期节目

  • Facebook和Matterport合作为AI提供逼真的虚拟训练环境

    要训练机器人浏览房屋,你要么需要在大量的真实房屋中给它大量的真实时间,要么在大量的虚拟房屋中给它大量的虚拟时间。后者肯定是更好的选择,而Facebook和Matterport正在合作,为研究人员和AI提供数以千计以真实空间为基础的虚拟空间。在Facebook方面,巨大的进步分为两部分:新的Habitat 2.0训练环境和为实现它而创建的数据集。Facebook组装了许多相当逼真的虚拟环境供它们浏览。许多机器人和人工智能已经学会了在理想化、不现?

  • 2021国内ktv设计公司排名

    最新中国ktv设计公司排行榜,是从历年ktv设计榜单、国内外设计奖项及各大ktv设计论坛网站中近3000家娱乐设计企业评选而来的,从作品的甄选到实力维度评估,我们选出了10家最佳实力与最具代表性的ktv设计公司,一起来看看吧。第一名:陈建秋设计事务所陈建秋从业三十余年,为娱乐设计行业著名资深人士,是中国娱乐设计的奠基人。多年来一直以卓有成效和极富创意的工作而获得客户的高度认可和赞扬,擅长于大型项目的整体策划、设计,?

  • 权威!十大KTV/酒吧设计公司排行榜排名

    第一名:北风KTV设计事务所北风从业三十余年,为娱乐设计行业著名资深人士,是中国娱乐设计的奠基人。多年来一直以卓有成效和极富创意的工作而获得客户的高度认可和赞扬,擅长于大型项目的整体策划、设计,每个项目都将策划、设计、经营结合起来。在娱乐专刊上发表《娱乐项目的成功定律》《娱乐场所的策划与设计》等专业文章。第二名:JCD设计事务所JCD娱乐空间设计事务所由程济恒设计师创立于2004 年,组建的几年以来创作设计北京

  • Google TV移动应用新设计新增新服务和推荐功能

    据外媒报道,继去年秋天推出的Google TV之后,Google今日(当地时间7月27日)将为其Android配套应用Google TV进行改版。Google TV移动应用的更新版本包括更新的用户界面、扩展的设置建议以及更多的电视和电影内容观看。早些时候,这款应用叫Google Play MoviesTV,但随着9月份在Chromecast上推出的变化,它被更名为Google TV。在这里,用户可以通过顶级流媒体应用浏览超过70万部电影和电视剧、找到新的看点、租用或购买电影和节目-

  • 上海电信IPTV称开机广告是为用户好 上海消保委:违法

    近日,针对“电信IPTV开机广告关不掉”的情况,上海市消保委约谈了中国电信上海公司智慧家庭运营中心。针对上述情况,中国电信上海公司智慧家庭运营中心方面回应称,在该段开机等待时间内投放广告,主要为提高用户开机体验,如未加入开机广告

  • 网传字节出售TikTok AI技术 官方辟谣:不会出售任何算法或代码

    今日字节跳动在其官方头条号辟谣称,有关BytePlus 出售TikTok AI技术的报道不实,相关业务只是提供技术服务,并不会出售任何算法或者 AI 技术代码。

  • IPO前扩大收入来源 字节跳动对外出售TikTok AI技术

    字节跳动赶在备受期待的首次公开招股(IPO)之前扩大营收渠道,正向中国以外的网站和应用出售TikTok所使用的人工智能(AI)技术。

  • GitHub Copilot可对整行或全部代码给出AI分析建议

    微软旗下代码托管平台 GitHub,刚刚推出了名叫 Copilot 的 AI 编程辅助工具。在将之引入集成开发环境(IDE)后,便可向程序员给出基于人工智能(AI)的分析建议。而且它不仅能逐行给出分析参考意见,还能够对完整代码进行遍历。此外 GitHub 表示,Copilot 将支持多种编程语言和框架。(来自:GitHub Blog)不过今日推出的技术预览版本,暂时仅限于 Python、JavaScript、TypeScript、Ruby 和 Go 语言。据悉,GitHub Copilot 是一个?

  • Ted Lasso》第二季第一集已在Apple TV+播出

    据外媒报道,Apple TV+收视率最高的节目《Ted Lasso》第二季第一集已于今日(当地时间7月22日)在该流媒体服务平台上播出。第二季备受期待,苹果CEOTim Cook甚至在公司4月份的发布会上对该剧进行过宣传。该剧集经常在苹果官方网站??Apple TV+??的顶部占据重要位置,并还有一系列与之相关的官方商品《Ted Lasso》第一季就获得了创纪录的20项艾美奖提名,是电视剧第一季获得提名最多的喜剧。该剧还赢得了多个奖项,其中饰演主角的Jas

  • AI赋能智能投顾 宽邦科技发布X-BigQuant1.0系统

    7 月 23 日,在“AI+金融数造未来”X-BigQuant1. 0 系统发布会上,湘财证券联合宽邦科技发布新一代AI量化系统,赋能智能投顾,服务投资人。系统上线之后迅速获得投资人青睐,数百位投资人已入驻。金融业天然的数据属性与智能化需求为人工智能的应用提供了坚实的基础,机器学习、大数据、大算力、AI算法已逐步应用于金融业务的各个层面,为资金、投研、客户资源、销售渠道、资产端、产品发行和人才团队提供业务上的深度协同,有效推

  • 事半功倍,科大讯飞AI学习机T10打造专属学习神器

    现在很多学生在学习的时候,都会使用题海战术的方法,进行大量低效率的反复练习,长时间下去就会产生学习疲劳。其实,想要提升解决学习问题的能力,一味地陷入题海战术中,会浪费很多时间,产生事倍功半的反作用。而科大科大讯飞AI学习机T10的出现,为学生提供了个性化的精准学习方法。 科大讯飞AI学习机T10不仅能帮助学生提升学习效率,作业辅导、预习复习、家长难辅导都能解决,讯飞AI学习机T10拥有AI个性化精准学习系统和独家?

  • 热门标签