首页 > 传媒 > 关键词  > 腾讯优图最新资讯  > 正文

腾讯优图9篇论文入选ACM MM 2021 含弱监督图像、人脸安全等领域

2021-10-23 12:28 · 稿源:站长之家用户

10月20日,第29届ACM国际多媒体会议(简称ACM MM)在成都正式举行。本次会议将针对单个媒体和跨界整合多媒体元素的最具创新性和影响力的顶级热点研究成果进行分享交流。此外,在视频编码、视觉识别、大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等研究方向有多场精彩的学术分享报告,将充分展示全球高校、研究机构及高新企业在多媒体研究方面的最新进展。

作为世界多媒体领域最重要的顶级会议和中国计算机学会推荐的该领域唯一的A类国际学术会议。本届ACM MM吸引了国内外多媒体领域中的知名厂商和学者广泛参与,将有70场精彩报告,其中囊括了6场国内外顶尖学者的主旨报告、13场重磅专题研讨、51场国内外知名学者及学术新星的学术报告。

其中,腾讯优图实验室9篇计算机视觉相关的优质论文成功入选,涵盖弱监督图像描述及定位、表格结构识别、人脸安全等多个研究方向,这些技术创新面向智慧城市、智慧文娱、智慧制造等场景的落地应用,助力进一步提升AI技术能力,推进全球人工智能的发展。

深耕计算机视觉领域成效显著9篇论文入选彰显强大实力

Distributed Attention for Grounded Image Captioning

弱监督图像描述及定位近年来逐渐受到国内外研究机构以及工业界关注。该任务是指对给定的图像自动生成一句话描述图像的内容,同时预测出描述中名词对应的目标位置。已有的工作主要通过正则化技术依靠注意力机制在生成图像描述的同时预测名词对应的目标的位置。这些方法的性能距离全监督的图像描述及定位有很大的差距。其中最主要的问题在于,依靠注意力机制的大部分方法预测结果往往集中于目标的最具判别性的局部位置,无法完整的预测目标的整体内容。基于此,我们提出一种十分简单且有效的分布注意力机制,挑选多个语义相同但位置不完全重合的目标之后进行聚合,从而得到更加完整的目标位置。在公开的Flickr30K Entities数据集上,保持图像描述性能不降的情况下大幅刷新目标定位性能SOTA,与全监督的方法性能持平。

Discriminator-free Generative Adversarial Attack

深度学习网络容易受到对抗样本的影响,在图像上加入一些不显眼的扰动后基于DNN的识别任务可能失效。目前大多数对抗攻击方法基于梯度搜索,这类方法生成对抗样本的耗时长,也会受到显存资源不足的影响。基于生成的方法(GAN)可缓解这些问题,但这类方法一方面训练比较难收敛,另外生成的攻击样本效果和视觉质量不稳定。我们发现判别器在对抗生成网络中并非必不可少,提出基于显著性区域的对称自动编码器方法(SSAE),该方法由显著性响应模块 (the saliency map)和特征角度正则解耦模块 (the angle-norm disentanglement)组成,用生成的显著性响应图去关注标签相关的区域,不再依赖判别器。在图像识别和图像检索任务上的大量实验证明SSAE方法生成的攻击样本不仅可以在主流网络模型上攻击效果好,同时也具有很好的视觉质量。

Show, Read and Reason: Table Structure Recognition with Flexible Context Aggregator

本文主要针对表格结构识别这一具有挑战性的问题进行研究。目前,业内方法往往采用基于图的上下文累积器,来稀疏地建模表格元素的上下文关系。然而,基于图的约束可能会引入过强的归纳偏置,无法充分地表示复杂的表格关系。为了让模型从数据中学习更合适的归纳偏置,本文引入Transformer作为上下文累积器。Transformer以密集上下文作为输入,同时由于的归纳偏置的弱化,Transformer对数据的规模要求更高,并且训练过程可能会不稳定。为了解决上述问题,本文设计了FLAG (FLexible context AGgregator) 模块,它将Transformer与基于图的上下文累积器以一种自适应的方式结合在一起。基于FLAG,本文设计了一个端到端的网络,称为FLAG-Net ,该网络不需要额外的OCR信息,并且可以灵活地调整密集上下文(dense context)和稀疏上下文(sparse context)的累积,进行表格元素的关系推理。本文还进一步探索了FLAG中的上下文选择模式,这对于识别表格结构是至关重要的。在标准测试集上的实验结果表明,本文提出的FLAG-Net的性能大大超过业内其他方法。

LSTC: Boosting Atomic Action Detection with Long-Short-Term-Context

相对于视频序列中的一般性运动检测,原子级的目标行为(如交谈,拾取,瞭望)的判断更加依赖于视频中上下文依赖关系的挖掘,同时这种依赖关系在不同的时间尺度上呈现若相关特性。本文将视频目标的行为与其以来关系解耦为稠密的短时上下文依赖(Dense Short-term Context)和稀疏的长时上下文依赖 (Sparse Long-term Context),并通过概率图模型将两者解耦为条件独立的交互关系分别辅助目标原子行为的判别,同时引入了一种近似高阶的注意力机制(High-Order Attention Mechanism),在计算复杂度不提升的条件下,将传统的注意力模型从一对一推广到一对多的交互关系。在AVA以及Hieve等基准测试集上表明,这种长短时依赖独立推断的机制能够有效帮助行为检测器正确推断目标行为。

ASFD: Automatic and Scalable Face Detector

在目前主流的目标检测器的设计范式中,特征增强以及特征融合模块已经成为了增强特征判别能力,提升检测效果的必备组件,但是由于数据分布上的差异,一般性目标检测网络中的特征增强模块并不能在人脸检测场景中带来稳定的提升。为此,本文系统性地分析了数据分布差异对于特征增强和融合模块效果的影响,并据此针对人脸检测场景,提出了一个可微分的自动化特征增强模块搜索流程AutoFAE, 同时,本文基于改搜索流程建立了用于网络搜索的超集,以满足不同推理速度约束下搜索到最优性能的模型结构。在主流的人脸检测数据集Wider-Face, FDDB上,本文搜索的人脸检测架构能够在相同的推理速度下达到更好的检测效果。

Adaptive Normalized Representation Learning for Generalizable Face Anti-Spoofing

随着多样化人脸攻击形式的出现,活体检测的泛化性受到越来越多关注。现有方法往往直接对网络学习的特征进行约束,然而忽略了模型特征提取的过程,尤其是标准化的影响。 针对该问题,本文提出了一种自适应标准化表征学习的活体检测新方法。具体而言,本文设计了一个自适应特征标准化模块(AFNM),该模块根据样本特征自适应地结合BN和IN标准化方式。并在在训练过程中结合元学习框架,在meta-test阶段重点学习AFNM模块,从而提升泛化性。此外,为进一步学习域无关的活体表征,本文设计了双重校准约束(DCC),包括域间兼容损失(IDC)和类间分隔损失(ICS)。多个学术数据集上实验结果表明我们方法优于现有方法,为实际场景下活体技术的应用提供了有效框架。

RecycleNet: An Overlapped Text Instance Recovery Approach

文本图像识别是理解多媒体媒介的关键技术手段。主流的设计范式关注独立文本行的精准识别,但这些方法在复杂真实场景如财务票据和学生作业簿上受到了严峻的挑战。简单通过优化识别方法本身或数据增强难以处理手写/印刷文本或印刷/印刷文本的套打(overlapping)。基于这个观察,本文介绍了RecycleNet,一个自动分离套打文本实例的策略。RecycleNet的关键设计在于定位并重用(recycle)了文本实例间套打的像素区域,将这些区域归还到其归属的全部实例,保障了分离后实例的完整性。RecycleNet平行于现有的文本识别解决方案,可作为可插拔模块,用很小的开销提升现有识别基线的精度。

Spatiotemporal Inconsistency Learning forDeepFakeVideo Detection

随着人脸生成技术的快速发展,人脸伪造检测也受到越来越多的关注。现有的方法往往将人脸伪造检测问题建模为二分类问题并提出了基于图像和视频的检测方法。 本文从一个新的角度出发,将该任务建模为时空不一致性学习过程,通过抓取伪造视频在空间和时序运动中的伪造痕迹来进行真假鉴别。具体地,本文设计了一个新的STIL单元,主要包括空间不一致性模块(SIM),时间不一致性模块(TIM)以及信息互补模块(ISM)。其中SIM采用具有残差结构的注意力机制重点捕捉空间不一致,TIM分别从水平和竖直两个方向捕捉时序运动中的不一致,ISM则进一步促进空间不一致和时序不一致间的信息交互。STIL单元非常灵活,可以插到大多数已有的2D网络中。大量的实验表明我们提出的方法在多个数据集上优于现有的方法,同时详细的可视化也充分证明了我们方法的可解释性。

以研促产腾讯优图实验室通过AI助力数字经济发展

作为腾讯旗下顶级的人工智能实验室,腾讯优图实验室始终聚焦计算机视觉技术,专注人脸识别、图像识别、OCR等领域,致力于在工业制造、医疗应用、金融保险、娱乐社交等多行业场景的研究与落地。

凭借在视觉AI技术上的研究成果,腾讯优图目前已拥有超过1000件全球AI专利,更有300余篇论文被AAAI、ICCV等国际顶级AI会议收录。同时,腾讯优图还通过腾讯云共输出超过20项AI解决方案,100+AI原子能力,助力各行各业实现数字化转型。

此外,腾讯优图还打造了如跨年龄AI寻人、青少年内容审核、AI探星等技术能力,践行腾讯“科技向善”的使命和愿景。未来,优图实验室将继续专注人工智能技术发展,通过推进AI基础设施研发的形式为产业数字化转型提供助力,促进数字经济加速发展。

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • AICon2021 | 内容安全需求激增 腾讯优图带来AI技术在内容安全场景中的应用实例

    近年来,伴随着深度学习技术的成熟以及计算机算力的增长,人工智能技术在各行业的业务场景中实现了快速的普及和落地。在人工智能技术进一步落地实践的背景下,将会为行业带来什么样的变革与技术创新,成为了大家共同关心的问题。11 月 25 至 26 日,以“AI商业化下的技术演进”为主要研讨方向的AICon全球人工智能与机器学习技术大会北京站顺利召开。据了解,AICon北京站设置了“人工智能前沿技术”、“计算机视觉实践”、“智能金?

  • 聚焦三维地行业难题,腾讯地图产业版本WeMap重磅升级

    不久前,自然资源部发布《实景三维中国建设技术大纲( 2021 版)》,提出了三维的六点转变——从抽象到真实,从静态到动态,从人理解到人机兼容,从平面到立体,从按要素分尺度到按实体分精度,从陆地表层到全空间。同时,从多行业的数字孪生发展、CIM的产业应用情况等都能看到三维化已成为大势所趋。在这个过程中,地图从二维到三维的转变却也面临着效果差、成本高、更新慢和开发难等困境,如何解决这些难题是行业的共同挑战。11 月

  • 腾讯地图上线《英雄联盟》金克斯语音导航:开车不规范会被“骂”

    随着科技飞速发展,地图App的功能也越来越丰富,如实景导航、拥堵预测等,同时为了缓解堵车、长途带来的烦躁,各大地图厂商相继推出五花八门的语音导航包。今日,腾讯地图官微宣布,《英雄联盟》金克丝语音导航正式上线腾讯地图,在App首页搜索英雄联盟”,即可选择进入金克斯”的导航频道。部分金克丝语音导航示例如下:你今天穿的还挺有模有样的嘛~这是要去见谁呀? 是我金克丝吗?”前方下陡坡,请小心驾驶,你要颠死我吗?”导航

  • 看齐华为!腾讯钟翔平:腾讯不碰硬件 不造车

    11月4日消息,在今天的2021腾讯数字生态大会智慧出行论坛上,腾讯副总裁、腾讯智慧交通与出行总裁钟翔平发表演讲。钟翔平表示,在汽车产业链价值重构背景下,腾讯也更加明确了自己的定位。他强调,腾讯不碰硬件,不造车,只专注所长三件事。第一,提供云、图为核心的数字基建”能力;第二,发挥以人为中心”的连接价值;第三,促进产业生态共创。腾讯希望,以云、图为核心,融合AI、大数据、LBS、5G、安全等技术,帮助车企打通数字

  • 腾讯安全首次披露“业务安全全景”,提供七大场景风控解决方案

    金融欺诈、虚假流量、内容安全、身份盗取……企业在数字化的进程中,如何迎接纷繁复杂的风控挑战?在11月3-4日举办的2021腾讯数字生态大会上,腾讯安全依托过去20多年的打击黑灰产能力和经验沉淀,首次对外披露“业务安全全景图”,通过四大核心AI风控能力和覆盖流量、金融、内容、监管、私域、品牌溯源、数字身份七大场景的风控解决方案,为企业数字化的业务安全保驾护航。腾讯安全副总裁黎巍表示,风控将成为企业经营过程中最大的

  • 字节官方称腾讯抖音商谈对等开放!腾讯回应:还在确认中

    今天下午,抖音官方公开发文表扬”腾讯,称腾讯方面已经主动向抖音方面发送邮件,希望接入抖音开放平台。抖音称,腾讯在邮件中提到,合作后将有大量全网热门的影视综独家版权作品的二创短视频可以外发到抖音,补充抖音内容生态。抖音表示,针对腾讯此次的申请已经回复邮件,双方产品技术人员将尽快推进相关细节。对此,有媒体联系到腾讯方面希望核实这封邮件的真实性,对方负责人表示:目前还在确认。其实,抖音和腾讯这两大互联网

  • 腾讯推员工法定退休福利

    今日,腾讯正式推出了员工退休待遇方案。据悉,员工在腾讯法定退休时,可同时享有定制纪念品、长期服务感谢金、退休荣誉金三项福利。

  • 腾讯钟翔平:我们不碰硬件 不造车

    钟翔平表示:腾讯明确自己的定位,不碰硬件,不造车,只专注所长三件事。第一,提供云、图为核心的“数字基建”能力;第二,发挥“以人为中心”的连接价值;第三,促进产业生态共创。

  • 腾讯官方辟谣:腾讯云数据库泄露系谣言

    日前,网上有传言称腾讯云数据库泄露,部分国企事业单位已经开始从微信撤退。对此,鹅厂黑板报微信公众号发公告辟谣,腾讯云数据库泄露系谣言。

  • 工信部对腾讯采取过渡性的行政指导措施 腾讯:可正常下载使用APP现有版本

    11月24日消息,网传即日起腾讯计算机主体旗下所有APP将暂停版本更新,各应用商店和分发平台立即执行。腾讯对此回应:我们正持续升级APP对用户权益保护的各项措施,并配合监管部门进行正常的合规检测。在此期间,用户可正常下载使用APP现有版本。据央视新闻消息,从工信部了解到,今年以来,在工信部开展的App侵害用户权益专项整治中,腾讯公司旗下9款产品存在违规行为,共计4批次被公开通报,违反了2021年信息通信业行风纠风相关要

这篇文章对你有价值吗?

  • 热门标签

热文

  • 3 天
  • 7天