首页 > 传媒 > 关键词 > CVPR最新资讯 > 正文

CVPR 2020 | 京东AI研究院对视觉与语言的思考:从自洽,交互到共生

2020-04-13 17:23 · 稿源:站长之家用户投稿

编者按:纵观视觉与语言在这六年间的飞速发展史,它就仿佛是两种不同文化(计算机视觉与自然语言处理)的碰撞与交融。这里每一种文化最初的进化都是自洽的,即独立地演化形成一套完备的视觉理解或语言建模体系;演化至今,我们当前所迎来的则是两种文化间的交互,自此视觉理解和语言建模不再是简单串联的两个模块,而是通过互相的信息传递成为共同促进的一个整体;对于视觉与语言的未来,则一定是聚焦于两者更为本质和紧密的共生,它所渴望的,将是挣脱开数据标注的桎梏,在海量的弱监督甚至于无监督数据上找寻两者间最为本质的联系,并以之为起源,如“道生一,一生二,二生三,三生万物”一般,赋予模型在各种视觉与语言任务上的生命力。

猴子在马背上.gif

This monkey on the back of horse

迪士尼.gif

Disney made the best cake of all time using projection

乌贼.gif

Tiny squid flopping around on the rocky bottom of fish tank

注:为了更好地便于读者理解和推动视觉语言领域的发展,将这几年我们关于视觉与语言的代表性工作(LSTM-A [1],GCN-LSTM [2],HIP [3],X-LAN [4])进行开源,这些对应的源码都在GitHub上陆续公开(https://github.com/JDAI-CV/image-captioning),敬请关注!

》》缘起:

视觉与语言,即视觉内容理解和自然语言表达,原本分属于计算机视觉(CV)和自然语言处理(NLP)两个不同的研究领域。然而在 2014 年,图像描述生成(Image Captioning)猛然打破了两者间的壁垒,凭借着机器翻译中经典的encoder-decoder模型一下贯通了从视觉内容到语言表达的转换,为CV和NLP领域的后继者同时打开了一个不同模态交叉融合的新世界。

与机器翻译中不同自然语言间的转化相仿,图像描述生成任务可以提炼为从一种视觉语言(图像特征表达)到自然语言(描述语句)的转换。现今主流的图像描述生成算法的原型都可概括为两个模块:视觉编码器(Visual Encoder)语言解码器(Language Decoder)。前者负责对视觉内容的理解,将视觉语言编码为富含语义信息的特征表达,后者则依据编码后的特征表达来解码出相应的语言描述。

》》自洽:

各自文化的起点都是从蹒跚学步的孩童开始,渐渐形成一个完备自洽的体系。对于视觉和语言也是如此。身处深度学习的浪潮之中,视觉和语言各自也都在不断地往前进步,譬如由底层纹理到高层语义的视觉内容理解(Visual Understanding),亦或是由单个词出发演化至整个词序列的语言建模(Language Modeling)。

在这一阶段的视觉与语言模型本质上是视觉编码器和语言解码器的简单串联。以图像描述生成任务举例,该阶段的研究重心往往是如何从图像视觉内容中解析出更多的高层语义信息,并将这些语义信息融入到视觉编码的过程中,以增强编码器输出的视觉特征表达。这一研究思路也正是我们在前三年一系列工作的脉络,即属性(Attributes)->关系(Relation)->结构(Hierarchy)。

rId9

如上图,首先是 2017 年我们尝试在视觉内容编码的过程中引入高层的语义属性,它不仅包含图像中显著的物体,也具备背景中的场景信息。在获取高层语义属性后,我们不仅可以在特征层面将语义属性特征融合至编码特征中(LSTM-A [1]),也可以将识别的语义属性词直接“拷贝”到解码出的描述中(LSTM-C [5])。接着在 2018 年,受到Bottom-Up [6]中通过物体检测器获取高性能的物体区域特征的启发,我们进一步去挖掘物体和物体之间的关系(GCN-LSTM [2]),构建出物体间语义和空间的关系图,从而促进对图像的理解。尽管物体间关系图有效地引入了物体间关系的语义信息,但依然无法充分表达整个图像所包含的丰富语义。故在 2019 年,我们提出了一种多层次的树形语义结构(HIP [3]),它囊括了从语义分割后的物体实例到检测后的物体区域再到整个图像的不同层级之间的语义信息。通过这样一种树形结构可以实现对物体不同层次间语义关联性的编码,以解码出更为精准的描述文本。

》》交互:

视觉与语言发展的第一阶段自洽可以看做是每个文化独立的发展史,所衍生的算法模型也大多是视觉编码器和语言解码器的简单串联。然而没有一种文化可以在发展中独善其身,互相调和与交互将是必然。因此现今的视觉与语言渐渐步入交互的阶段,目的是促进视觉编码器和语言解码器间的信息交互。

注意力机制(Attention Mechanism)是不同模态间最典型的信息交互手段。它可以通过每一时刻解码器的隐状态来推断当前编码器中需要关注的图像区域,以此帮助编码器更好地理解图像内容。如下图,早期的注意力机制soft-attention [7]会依据条件特征Q(解码器当前的隐状态)与每一个图像局部区域特征K的线性融合来获取该区域对应的注意力权重,再将每一个注意力权重作用于局部区域特征V实现图像特征的聚合编码。在这两年也涌现了多种升级版本的注意力机制,比如自顶向下的top-down attention (Bottom-Up [6])、同时捕捉多种注意力的multi-head attention(Transformer [8])和利用门控进一步过滤注意力的attention on attention(AoANet [9])。

rId10

当我们回顾传统的注意力机制时,可以发现它往往利用线性融合来进行跨模态的特征交互学习,所以其本质只挖掘了不同模态间一阶的特征交互,大大限制了注意力机制在视觉与语言这一复杂的跨模态内容推理任务中的作用。针对这个问题,我们在最新的CVPR2020 工作X-LAN [4]中打造了一个能实现高阶特征交互的注意力机制X-Linear attention。它可以利用双线性融合技术去挖掘不同模态间二阶乃至更高阶的特征交互信息,以增强跨模态的内容理解

同时,该X-Linear attention可以作为一个灵活的插件接入到目前流行的各种图像描述生成模型中,极大地提升编码器和解码器在模态内和跨模态间的特征交互能力。我们也在最为权威的COCO在线评测系统上对所设计的图像描述生成系统进行测试,在多个指标上均达到世界第一的水平(如下图)。

》》共生:

尽管视觉内容的理解可以随着各种高性能网络的设计和语义的深入挖掘不断升级,视觉和语言间交互的方式也已经从传统的soft-attention演化到捕捉高阶信息交互的X-Linear attention,但视觉与语言的技术发展依然逃脱不了深度学习对于训练数据的贪婪。COCO12 万+的图像,约 60 万的人工标注语句,天然制约了图像描述生成技术进一步的发展。无论是对于更多物体的理解还是对于更广泛语言的表达,亦或是更精细更本质的视觉-语言匹配,都需要更细粒度、更大规模的视觉与语言标注数据来支撑。那么如何打破这一视觉语言数据的壁垒?如何突破当前算法的瓶颈?

当人们对某种文化进行反思甚至于迷茫的时候,就意味着一个新的起点将应运而生。因此在当下,视觉与语言也需要迎来一个新的阶段,其目的是在更广大的数据上挖掘出两者间最为本质的共生特质,从而促进不同模态间更为自由的转换。具体而言就是我们需要在海量的弱监督甚至于无监督视觉语言数据上去习得两者间最为本质的联系,然后再赋予模型在各种视觉与语言任务上的生命力。

目前刚刚兴起的视觉语言预训练(Vision-language pre-training)或许可以成为破局的关键。借助于海量网页自动抓取的视觉语言数据,如Conceptual Captions(https://ai.google.com/research/ConceptualCaptions/)和Auto-captions on GIF(http://www.auto-video-captions.top/2020/),我们可以预训练一个通用的编码器-解码器模型。正是因为在海量数据上所学会的视觉语言共生特质,该预训练模型可以全方位地赋能各种视觉与语言的下游任务,打破每一个下游任务中视觉与语言训练数据的限制,实现了“大一统”的视觉与图像间跨模态理解与转换。

目前,京东AI研究院的这些技术已在京东应用落地。例如商品图像搜索和图像审核等场景,同时也正尝试将视觉与语言技术融入任务驱动型多模态增强对话中,旨在提升人机交互效率和用户体验。

结语:好奇心是个人或者组织创造力的源泉,在权威图像描述生成评测集COCO上的成绩彰显了京东AI研究院在视觉与语言领域的世界领先水平。京东智联云将一面以智能供应链、“新基建”等为抓手,帮助政府、企业、个人进行数字化、网络化、智能化转型,成为了与零售、物流、数字科技组成了京东四大核心业务版图,是京东对外技术与服务输出的核心通道。一面以“ABCDE”技术战略为基础,保持前沿的技术技术研究和好奇心,即“以人工智能(AI)为大脑、大数据(Big Data)为氧气、云(Cloud)为躯干、物联网(Device)为感知神经,以不断探索(Exploration)为好奇心”。

参考文献

[1] Ting Yao, Yingwei Pan, Yehao Li, Zhaofan Qiu, and Tao Mei, “Boosting Image Captioning with Attributes.” In ICCV, 2017.

[2] Ting Yao, Yingwei Pan, Yehao Li and Tao Mei. "Exploring Visual Relationship for Image Captioning." In ECCV, 2018.

[3] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei, “Hierarchy Parsing for Image Captioning.” In ICCV, 2019.

[4] Yingwei Pan, Ting Yao, Yehao Li, and Tao Mei, “X-Linear Attention Networks for Image Captioning.” In CVPR, 2020.

[5] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei, “Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects.” In CVPR, 2017.

[6] Anderson Peter, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. "Bottom-up and top-down attention for image captioning and visual question answering." In CVPR, 2018.

[7] Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel, and Yoshua Bengio, “Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.” In ICML, 2015.[8] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut, “Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning.” In ACL, 2018.

[9] Lun Huang, Wenmin Wang, Jie Chen, and Xiao-Yong Wei. “Attention on Attention for Image Captioning.” In ICCV, 2019.

网友热搜:

免责声明:“站长之家”的传媒资讯页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。我们不鼓励任何形式的投资行为、购买使用行为。

  • 相关推荐
  • 大家在看
  • 微软研究院开发出旧照片还原算法 AI和深度学习立功

    据外媒WindowsUnited消息,微软研究院使用人工智能和深度学习开发出了一种新的算法来还原旧照片。此前恢复旧的和损坏的照片的方法主要是深度学习。但是,对于较旧的照片,其衰减过程非常复杂。

  • 山东仁科组建工业传感器研究院

    2020年7月1日,山东仁科测控技术有限公司将正式成立工业传感器研究院,研究院将独立于公司运行,财务、人员、产品均与仁科现有业务独立。研究院将专注于工业传感器的研发,为客户提供更先进,更可靠,更智能的传感器,在为客户提供价值的同时为中国工业传感器行业的发展继续做出应有的贡献。仁科传感器研究院成立的目的:世界正在进入以信息产业为主导的发展时期,万物互联的时代终将来临。传感器可自动检测电器运行状况并及时更新?

  • 以客户成功为唯一标准 舟谱数据成立客户成功研究院

    近日,国内领先的数据智能公司舟谱数据,率先成立了客户成功研究院(以下简称“客研院”),旨在通过持续产业研究,来准确定义分销企业的核心竞争力,构建完整的客户成功服务体系,以引领快消品经销商完成产业升级,更好适应新时代的竞争。据了解,舟谱数据客研院同时兼具研究和服务两大职能。在研究领域,由长期为经销商运营提供指导和顾问的涂超担任首席专家,聘用知名管理学者邓勇兵博士出任首席管理专家,同时聚焦于经销商企业的

  • 企家未来研究院:后疫情时代,HR的出路在哪里?

    疫情过后,市场竞争愈发激烈,越来越多老板认识到,大部分企业问题最终都要回归到企业效能问题上,所以人力资源业务必须狠抓。那HR的价值究竟是什么?作为老板的左膀右臂,HR又该如何用数据体现价值呢?本期《未来人资 · 思享FUN局》,我们邀请到知名HR微课讲师张雪薇,薪人薪事创始人兼CEO小龙哥,思享FUN局嘉宾主持严嘉伟,为我们分享HR如何更专业地赋能企业,如何用数据联动业务。出品:企家未来研究院Part.1HR如何用数据解决与?

  • 新基建浪潮下,欧科云链研究院对区块链发展机遇的解读

    在全球区块链产业新发展形势下, 2019 年 10 月 24 日中共中央政治局就区块链技术发展现状和趋势进行第十八次集体学习,中共中央总书记习近平主席发表了重要讲话,肯定了区块链技术的集成应用在新的技术革新和产业变革中起着重要作用,将区块链技术作为国家核心技术自主创新的重要突破口。为什么区块链技术会得到国家层面这么高的重视?欧科云链研究院经分析发现,经过近 10 年的发展,我国在区块链行业已经形成了良好的产业基础,

  • 币安研究院与BRI 研究所达成战略合作,独家首发BRI中文研究报告

    近日,币安中国区块链研究院与“Blockchain Research Institute(BRI) 区块链研究所达成战略合作。BRI区块链研究所授权币安中国区块链研究院对 BRI 内容进行中文翻译和独家首发,为中国政府、企业和个人提供国际上最前沿的区块链研究及专家讨论,帮助了解这一突破性技术在全球的进展。BRI 区块链研究院介绍BRI 区块链研究所由Don 和 Alex Tapscott于 2017 年创立的全球公认的技术创新权威机构,并且作为知识网络为实现数字经济提供?

  • 宝宝树研究院首席育儿官李艾“变身”育儿专家 开播《育儿官tips》

    “孕期便秘怎么办?”“如何避免假宫缩炸胡”“产后瘦身黄金期是什么时候”……初为人母,各位宝妈总会充满各种困惑、面对各种难题。宝宝树研究院首席育儿官、“灯泡儿妈”李艾表示自己也会在怀孕期间为了真假宫缩而困惑不已,生下宝宝后因为断奶得了分离焦虑症,为了宝宝“踉踉跄跄”的蹒跚学步而惊喜,为了宝宝无视自己的“热情拥抱”而落寞。近日,李艾在宝宝树正式开播《育儿官TIPS》,为宝妈分享自己在整个怀孕和带娃的过程中

  • 恒天财富研究院:云计算是国内未来十年的战略性机会

    “疫情对产业发展既是挑战也是机遇。一些传统行业受冲击较大,而智能制造、无人配送、在线消费、医疗健康等新兴产业展现出强大成长潜力。要以此为契机,改造提升传统产业,培育壮大新兴产业”。此前,国家高层强调了新兴产业在未来发展上的空间和潜力,科学技术的不断进步将持续促进、改造甚至颠覆传统产业。分析人士指出,以5G为首新基建对于稳投资和推动产业升级至关重要,5G建设规模有望加速扩张,通过科技提升生产力,5G领头的

  • 大学仕优质服务商 温州大学激光与光电智能制造研究院

    作为自动化对接领域的领头羊,自 2015 年成立以来,大学仕就不断寻求优质技术服务商合作,通过强强联合,为我国传统制造企业提供自动化技术对接服务,以技术改革促进智能制造发展。其中,温州大学激光与光电智能制造研究院就是大学仕合作服务商中的佼佼者。温州大学激光与光电智能制造研究院(以下简称温州大学研究院)系由浙南科技城管委会和温州大学共同成立的具有事业单位性质、自收自支的独立法人机构。研究院充分发挥温州大学

  • 小猫安妮Kitty Annie首捐IIVS(体外科学研究院),用行动支持非动物试

    摘要:近日,中国新生代的美护科技品牌——小猫安妮Kitty Annie对非盈利组织IIVS(体外科学研究院)进行了资金捐赠,这是IIVS首次收到来自中国企业和品牌的捐赠,以支持其对非动物试验方法的开发和推广。 为了测试新的化妆品及其原料的安全性,在传统的产品开发流程中,大多使用兔子、豚鼠等动物进行毒性测试。这些动物实验,每年给成千上万的动物带来痛苦和死亡。如何善待实验动物生命,维护实验动物的福利伦理,乃至尽可能地减少?

  • 宝宝树研究院上线短视频栏目《育儿官tips》 李艾开播分享经验

    近日,宝宝树研究院首席育儿官、“灯泡儿妈”李艾在宝宝树正式开播《育儿官TIPS》,为宝妈分享自己在整个怀孕和带娃的过程中遇到的困惑和经验,与宝妈共同成长。资料显示,今年3月份,李艾正式“入职”宝宝树,担任宝宝树研究院首席育儿官,负责育儿产品的测评与调研工作,深度参与到宝宝树研究院的内容生产与IP打造,从宝妈视角出发,与更多用户共同学习孕育知识、分享育儿乐趣、广交宝妈朋友。李艾表示,“从怀孕初?

  • 中商北斗加入币安区块链研究院“星火计划” 共同助力数字新基建

    ( 2020 年 6 月 29 日,上海)币安中国区块链研究院于 6 月 16 日正式加入联合国全球契约组织(United Nations Global Compact),并作为联合国高级别合作机构(其它机构包括国家开发银行、中国石化、中国国家电网公司等近 15 家领军企业和机构合作伙伴),以“助力一带一路基础建设和可持续发展“为目标,近期全面发起“数字新基建,百城千企星火计划”,目标在未来两年投入亿级规模资金,扶持1000+中小微企业,并助力进行数字化

  • 拓墣产业研究院:二季度全球前十大晶圆代工厂营收台积电第一 中芯国际第五

    根据集邦咨询旗下拓墣产业研究院最新调查,2020年第一季晶圆代工订单未出现大幅度缩减,以及客户扩大既有产品需求并导入疫情衍生的新兴应用,加上2019年同期基期低,全球前十大晶圆代工业者2020年第二季营收年成长逾2成。台积电受惠5G手机AP、HPC和远程办公教学的CPU/GPU需求推升先进制程营收表现,加上成熟制程产品需求稳定,预估第二季营收年成长超过30%。针对华为禁令的影响,考量其他客户包括超威(AMD)、联发科(Me

  • 币安中国区块链研究院:响应新基建,扶持中小企业,全面打造“百城千企,灯塔计划”

    2020 年 6 月 12 日,币安中国区块链研究院启动重要战略项目“数字新基建·百城千企灯塔计划”,旨在链接全球资源,积极响应中国政府号召,依托城市主要园区扶持新科技、新技术的中小微企业,依托产业技术赋能实体产业。在疫情影响以及实体经济基于“新基建”方向转型的宏观背景之下,灯塔计划旨将在未来 2 年持续扶持 1000 个技术型中小微企业(人工智能、区块链、云计算、大数据)并辐射至核心产业合作伙伴。币安中国区块链研究?

  • 入选率0.44% 码隆科技获CVPR最佳论文提名

    美国西雅图时间 6 月 16 日,计算机视觉和模式识别领域的世界顶级学术会议 CVPR Virtual 2020 (以下简称“CVPR 2020”)正式在线上拉开序幕。虽然会议改为线上召开,但内容依旧有非常丰富,从重量嘉宾炉边对话,到优质论文颁奖,以及今年大会的相关接收数据、热门研究主题等信息,都在大会上一一分享。CVPR 2020 大会公布的数据显示,本届共计 13955 位作者有效提交了 5865 篇论文,其中接收论文 1467 篇,其中 25% 被接收。仅有

  • 阿里达摩院提出“AI双脑思考”方式 推理速度可提升3倍

    DoNews6月19日消息(记者 翟继茹)19日,阿里巴巴称,有7篇论文入选人工智能国际会议ICML 2020论文收录结果。据了解,ICML是全球机器学习顶级学术会议之一,接受率为21.8%。据ICML官网显示,阿里7篇论文涵盖图像识别、自然语言处理、搜索推荐等领域。在《Boosting Deep Neural Network Efficiency with Dual-Module Inference》中,提出了一种全新的AI推理方法,可减少AI对计算和内存资源的消耗,能将推理速度提升3倍。阿里巴巴达?

  • 京东AI女主播 “小可”正式出道:娇俏可爱 段子频出

    “大家好,我是京东数科自研的AI主播小可……地球不爆炸,我就不下班;宇宙不重启,我就不休息。”继京东数科自研的首位AI虚拟数字人产品AI主播“小妮”上线

  • 京东美妆内测AI测肤功能 将逐渐面向更多用户

    据 36 氪报道,京东美妆于 5 月份开始内测AI测肤功能,这一功能开始逐渐面向更多用户。AI测肤会建立起一套化妆品数据库,基于用户皮肤数据,AI能给出相应产品推荐及问题解决方案。

  • 深兰科技彰显计算机视觉实力 斩获CVPR2020四项冠军

    近日,全球计算机视觉顶级会议CVPR2020 圆满落幕,深兰科技DeepBlueAI团队斩获了NightOwls Detection Challenge 2020 “单帧行人检测”和“多帧行人检测”两个赛道、UG2+ 挑战赛雾天条件下的(半)监督目标检测任务、NTIRE 2020 :Perceptual Extreme Super-Resolution Challenge (PSNR 评价指标)共 4 个冠军,还在CVPR2020 其他赛题中获得了 4 项亚军、 4 项季军,一共斩获 12 项冠亚季军。据DeepBlueAI团队介绍,本次参赛及获奖?

  • 研究机构:京东方智能手机OLED面板全球营收份额年底提升至12%

    【TechWeb】6月8日消息,据国外媒体报道,在苹果的带动下,智能手机已在越来越多的采用OLED屏幕,国内的京东方、华星光电等面板制造商,也具备生产OLED面板的能力,并已开始向智能手机厂商供货。研究机构的报告显示,京东方在全球智能手机所用OLED面板营收中所占的比重,今年预计会翻番。预计京东方智能手机OLED面板营收的份额今年将翻番的,是面板供应方面的咨询机构DSCC(Display Supply Chain Consultants)。DSCC在报告中表示

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议

热文

  • 3 天
  • 7天