首页 > 传媒 > 关键词 > CVPR最新资讯 > 正文

CVPR 2020 | 京东AI研究院对视觉与语言的思考:从自洽,交互到共生

2020-04-13 17:23 · 稿源:站长之家用户投稿

编者按:纵观视觉与语言在这六年间的飞速发展史,它就仿佛是两种不同文化(计算机视觉与自然语言处理)的碰撞与交融。这里每一种文化最初的进化都是自洽的,即独立地演化形成一套完备的视觉理解或语言建模体系;演化至今,我们当前所迎来的则是两种文化间的交互,自此视觉理解和语言建模不再是简单串联的两个模块,而是通过互相的信息传递成为共同促进的一个整体;对于视觉与语言的未来,则一定是聚焦于两者更为本质和紧密的共生,它所渴望的,将是挣脱开数据标注的桎梏,在海量的弱监督甚至于无监督数据上找寻两者间最为本质的联系,并以之为起源,如“道生一,一生二,二生三,三生万物”一般,赋予模型在各种视觉与语言任务上的生命力。

猴子在马背上.gif

This monkey on the back of horse

迪士尼.gif

Disney made the best cake of all time using projection

乌贼.gif

Tiny squid flopping around on the rocky bottom of fish tank

注:为了更好地便于读者理解和推动视觉语言领域的发展,将这几年我们关于视觉与语言的代表性工作(LSTM-A [1],GCN-LSTM [2],HIP [3],X-LAN [4])进行开源,这些对应的源码都在GitHub上陆续公开(https://github.com/JDAI-CV/image-captioning),敬请关注!

》》缘起:

视觉与语言,即视觉内容理解和自然语言表达,原本分属于计算机视觉(CV)和自然语言处理(NLP)两个不同的研究领域。然而在 2014 年,图像描述生成(Image Captioning)猛然打破了两者间的壁垒,凭借着机器翻译中经典的encoder-decoder模型一下贯通了从视觉内容到语言表达的转换,为CV和NLP领域的后继者同时打开了一个不同模态交叉融合的新世界。

与机器翻译中不同自然语言间的转化相仿,图像描述生成任务可以提炼为从一种视觉语言(图像特征表达)到自然语言(描述语句)的转换。现今主流的图像描述生成算法的原型都可概括为两个模块:视觉编码器(Visual Encoder)语言解码器(Language Decoder)。前者负责对视觉内容的理解,将视觉语言编码为富含语义信息的特征表达,后者则依据编码后的特征表达来解码出相应的语言描述。

》》自洽:

各自文化的起点都是从蹒跚学步的孩童开始,渐渐形成一个完备自洽的体系。对于视觉和语言也是如此。身处深度学习的浪潮之中,视觉和语言各自也都在不断地往前进步,譬如由底层纹理到高层语义的视觉内容理解(Visual Understanding),亦或是由单个词出发演化至整个词序列的语言建模(Language Modeling)。

在这一阶段的视觉与语言模型本质上是视觉编码器和语言解码器的简单串联。以图像描述生成任务举例,该阶段的研究重心往往是如何从图像视觉内容中解析出更多的高层语义信息,并将这些语义信息融入到视觉编码的过程中,以增强编码器输出的视觉特征表达。这一研究思路也正是我们在前三年一系列工作的脉络,即属性(Attributes)->关系(Relation)->结构(Hierarchy)。

rId9

如上图,首先是 2017 年我们尝试在视觉内容编码的过程中引入高层的语义属性,它不仅包含图像中显著的物体,也具备背景中的场景信息。在获取高层语义属性后,我们不仅可以在特征层面将语义属性特征融合至编码特征中(LSTM-A [1]),也可以将识别的语义属性词直接“拷贝”到解码出的描述中(LSTM-C [5])。接着在 2018 年,受到Bottom-Up [6]中通过物体检测器获取高性能的物体区域特征的启发,我们进一步去挖掘物体和物体之间的关系(GCN-LSTM [2]),构建出物体间语义和空间的关系图,从而促进对图像的理解。尽管物体间关系图有效地引入了物体间关系的语义信息,但依然无法充分表达整个图像所包含的丰富语义。故在 2019 年,我们提出了一种多层次的树形语义结构(HIP [3]),它囊括了从语义分割后的物体实例到检测后的物体区域再到整个图像的不同层级之间的语义信息。通过这样一种树形结构可以实现对物体不同层次间语义关联性的编码,以解码出更为精准的描述文本。

》》交互:

视觉与语言发展的第一阶段自洽可以看做是每个文化独立的发展史,所衍生的算法模型也大多是视觉编码器和语言解码器的简单串联。然而没有一种文化可以在发展中独善其身,互相调和与交互将是必然。因此现今的视觉与语言渐渐步入交互的阶段,目的是促进视觉编码器和语言解码器间的信息交互。

注意力机制(Attention Mechanism)是不同模态间最典型的信息交互手段。它可以通过每一时刻解码器的隐状态来推断当前编码器中需要关注的图像区域,以此帮助编码器更好地理解图像内容。如下图,早期的注意力机制soft-attention [7]会依据条件特征Q(解码器当前的隐状态)与每一个图像局部区域特征K的线性融合来获取该区域对应的注意力权重,再将每一个注意力权重作用于局部区域特征V实现图像特征的聚合编码。在这两年也涌现了多种升级版本的注意力机制,比如自顶向下的top-down attention (Bottom-Up [6])、同时捕捉多种注意力的multi-head attention(Transformer [8])和利用门控进一步过滤注意力的attention on attention(AoANet [9])。

rId10

当我们回顾传统的注意力机制时,可以发现它往往利用线性融合来进行跨模态的特征交互学习,所以其本质只挖掘了不同模态间一阶的特征交互,大大限制了注意力机制在视觉与语言这一复杂的跨模态内容推理任务中的作用。针对这个问题,我们在最新的CVPR2020 工作X-LAN [4]中打造了一个能实现高阶特征交互的注意力机制X-Linear attention。它可以利用双线性融合技术去挖掘不同模态间二阶乃至更高阶的特征交互信息,以增强跨模态的内容理解

同时,该X-Linear attention可以作为一个灵活的插件接入到目前流行的各种图像描述生成模型中,极大地提升编码器和解码器在模态内和跨模态间的特征交互能力。我们也在最为权威的COCO在线评测系统上对所设计的图像描述生成系统进行测试,在多个指标上均达到世界第一的水平(如下图)。

》》共生:

尽管视觉内容的理解可以随着各种高性能网络的设计和语义的深入挖掘不断升级,视觉和语言间交互的方式也已经从传统的soft-attention演化到捕捉高阶信息交互的X-Linear attention,但视觉与语言的技术发展依然逃脱不了深度学习对于训练数据的贪婪。COCO12 万+的图像,约 60 万的人工标注语句,天然制约了图像描述生成技术进一步的发展。无论是对于更多物体的理解还是对于更广泛语言的表达,亦或是更精细更本质的视觉-语言匹配,都需要更细粒度、更大规模的视觉与语言标注数据来支撑。那么如何打破这一视觉语言数据的壁垒?如何突破当前算法的瓶颈?

当人们对某种文化进行反思甚至于迷茫的时候,就意味着一个新的起点将应运而生。因此在当下,视觉与语言也需要迎来一个新的阶段,其目的是在更广大的数据上挖掘出两者间最为本质的共生特质,从而促进不同模态间更为自由的转换。具体而言就是我们需要在海量的弱监督甚至于无监督视觉语言数据上去习得两者间最为本质的联系,然后再赋予模型在各种视觉与语言任务上的生命力。

目前刚刚兴起的视觉语言预训练(Vision-language pre-training)或许可以成为破局的关键。借助于海量网页自动抓取的视觉语言数据,如Conceptual Captions(https://ai.google.com/research/ConceptualCaptions/)和Auto-captions on GIF(http://www.auto-video-captions.top/2020/),我们可以预训练一个通用的编码器-解码器模型。正是因为在海量数据上所学会的视觉语言共生特质,该预训练模型可以全方位地赋能各种视觉与语言的下游任务,打破每一个下游任务中视觉与语言训练数据的限制,实现了“大一统”的视觉与图像间跨模态理解与转换。

目前,京东AI研究院的这些技术已在京东应用落地。例如商品图像搜索和图像审核等场景,同时也正尝试将视觉与语言技术融入任务驱动型多模态增强对话中,旨在提升人机交互效率和用户体验。

结语:好奇心是个人或者组织创造力的源泉,在权威图像描述生成评测集COCO上的成绩彰显了京东AI研究院在视觉与语言领域的世界领先水平。京东智联云将一面以智能供应链、“新基建”等为抓手,帮助政府、企业、个人进行数字化、网络化、智能化转型,成为了与零售、物流、数字科技组成了京东四大核心业务版图,是京东对外技术与服务输出的核心通道。一面以“ABCDE”技术战略为基础,保持前沿的技术技术研究和好奇心,即“以人工智能(AI)为大脑、大数据(Big Data)为氧气、云(Cloud)为躯干、物联网(Device)为感知神经,以不断探索(Exploration)为好奇心”。

参考文献

[1] Ting Yao, Yingwei Pan, Yehao Li, Zhaofan Qiu, and Tao Mei, “Boosting Image Captioning with Attributes.” In ICCV, 2017.

[2] Ting Yao, Yingwei Pan, Yehao Li and Tao Mei. "Exploring Visual Relationship for Image Captioning." In ECCV, 2018.

[3] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei, “Hierarchy Parsing for Image Captioning.” In ICCV, 2019.

[4] Yingwei Pan, Ting Yao, Yehao Li, and Tao Mei, “X-Linear Attention Networks for Image Captioning.” In CVPR, 2020.

[5] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei, “Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects.” In CVPR, 2017.

[6] Anderson Peter, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. "Bottom-up and top-down attention for image captioning and visual question answering." In CVPR, 2018.

[7] Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel, and Yoshua Bengio, “Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.” In ICML, 2015.[8] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut, “Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning.” In ACL, 2018.

[9] Lun Huang, Wenmin Wang, Jie Chen, and Xiao-Yong Wei. “Attention on Attention for Image Captioning.” In ICCV, 2019.

网友热搜:

免责声明:“站长之家”的传媒资讯页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。我们不鼓励任何形式的投资行为、购买使用行为。

  • 相关推荐
  • 大家在看
  • 币安研究院帮助更多国人了解区块链技术在全球进展

    据了解,今年上半年,已有北京、湖南、贵州、海南、江苏、河北等多个省级行政区出台区块链专项发展政策。从发展目标上看,多地都列出了区块链发展的短期目标。如7月初发布的《河北省区块链专项行动计划(2020-2022年)》明确,至2022年河北省区块链相关领域领军企业和龙头企业达20家,培育一批区块链应用产品,力争打造出1个至3个全国知名区块链品牌。不只是河北,湖南、北京都发布了为期3年的“行动计划”,截止年份都是2022年,?

  • 闪联协会孙育宁被聘为海淀互联网教育研究院副院长

    7 月 14 日,北京市海淀区互联网教育研究院成立暨新技术应用高峰论坛举行。区委区政府、区教工委教委、区科信局主要领导,驻区高校科研院所、互联网企业、中小学代表参加活动。活动采用线上与线下相结合的方式同步进行,海淀区中小学校长在线上参与活动。活动由副区长张若冰主持。凭借在信息领域的卓越贡献及多年信息产业标准制定经验,闪联信息产业协会理事长孙育宁博士被聘为“海淀互联网教育研究院副院长”。图一:闪联协会孙育

  • 对标美团 土巴兔大数据研究院发布首份行业指数报告

    作为2020年首秀,土巴兔大数据研究院将联合易观发布的《中国互联网装修行业指数洞察2020》。分析内容中运用易观的产业分析模型,并结合市场分析、行业分析和厂商分析,从互联网装修渗透率、用户消费水平、各地区消费能力、消费习惯等几方面进行全面剖析,对当前市场现状、规律、厂商的发展现状,及行业未来发展趋势做出判断。聂金津透露,2020年土巴兔将在原有研发费用基础上继续加大对大数据研究的资金投入,并计划向全球高薪招聘

  • 币安区块链研究院参与澳门产业区块链协会成立大会

    ( 2020 年 7 月 17 日,广东珠海横琴)澳门产业区块链协会(以下简称“协会”)主办的“澳门产业区块链协会成立大会”于 7 月 17 日隆重举行,协会是以澳门为中心,并以横琴作为内地基地的跨境协会,来自币安中国区块链研究院、数字资产研究院、通证思维、澳门 369 合伙小镇、澳门科技大学、澳门青创国际集团有限公司等多所机构的代表出席了本次大会,协会成员汇聚了全球区块链领域的专家学者、澳门各产业经济和创业投资领域的杰?

  • DeFi借贷总量达26亿美元,OKEx研究院发布DeFi行业发展报告

    今年DeFi行业迎来了迅速发展,据DeBank数据显示,当前DeFi中锁定资产总价值达26亿美元,Compound以7.05亿美元排在首位、Maker锁定资产总价值6.34亿美元、Synthetix锁定资产总价值为4.53亿美元。OKEx CEO Jay Hao表示,去中心化金融(DeFi)将成为未来许多人生活中不可或缺的一部分。Jay Hao预测,DeFi的重要性将在未来几年中增长。他相信DeFi的主要优势在于其可以为“目前被传统金融排斥或没有获得足够服务的人们”提供金融服务。?

  • 币安区块链研究院执行院长Helen被推选为澳门产业区块链协会副会长

    2020 年 7 月 17 日,以“新生”为主题的澳门产业区块链协会(以下简称“协会”)成立大会暨首届会员大会于珠海市横琴中医药产业园会议中心正式举行。包括协会会长朱嘉明先生,荣誉会长刘艺良先生,顾问委员会主任黄江南先生,副会长杨道匡先生,副会长冯信坚先生,副会长Helen Hai女士在内的数十位协会成员和嘉宾共同出席了会议。《区块链核心算法解析》作者Roger Wattenhofer和《区块链革命》作者、币安中国区块链研究院名誉院长Do

  • AI视觉技术突破创新,国际学术权威CVPR收录多篇联发科论文

    近日,世界人工智能大会(WAIC)正在如火如荼的举办,而全球另一个极负盛名的AI学术盛会也在每年年中时备受关注,那就是国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition,简称CVPR)。该会议是由IEEE举办的一年一度的学术性会议,在各种学术会议统计中,CVPR被认为有着很强的影响力和很高的排名,是国际最有影响力的年度AI盛事之一。作为全球顶级学术会议,CVPR每年吸引全球数千位计算

  • 交通运输部公路科学研究院与腾讯地图携手发布公共交通出行大数据平台

    交通运输部公路科学研究院联合腾讯在北京举办“布局新基建,数据资源赋能城市交通发展”研讨会,探讨新基建背景下,交通大数据在交通产业发展中的应用,并且双方携手发布“公共交通出行大数据平台”,助力城市公共交通智慧化发展。

  • 中科院回应小学生4天学会基因技术研究癌症:其父母系研究人员

    大家的小学生活中有们是惊人创举?昆明一位6年级的小学生只用了4天时间就学会了C10orf67基因编辑技术并开展直肠癌研究,最终获得了全国青少年科技创新大奖。事后被人挖出其父母系中科院昆明所的

  • 币安链参加临港区块链产业技术研究院线下行业沙龙

    6 月 23 日,临港区块链产业技术研究院、临港创新管理学院、临港新业坊联合举办企业区块链沙龙活动,来自Conflux、链英、Acala、矩阵元、币安链、上海物联网协会、悦管家、易盟集团、临腾科技、鸥黎科技等 20 多位行业专家及企业、协会代表参加。与会代表围绕“新基建,新机遇——区块链如何赋能”作了深入交流讨论。话题涉及区块链底层技术、区块链在产业中的应用、区块链平台治理、区块链企业运营、全球区块链监管立法等论。区块

  • 中航未来集团开学季——中航未来西交大苏州研究院校区开学掠影

    按照各地新冠疫情防控指挥部的工作部署,中航未来集团多地校区已顺利开学复课。中航未来集团严格贯彻中央关于疫情防控工作的决策部署,把师生们的生命安全和身体健康放在首位,督促落实各项防控举措,确保开学复课工作安全有序的展开。6月6日,在校领导及各位老师的多方努力下,西安交通大学苏州研究院迎来了新生开学季——每位学生由一位家长陪同进校,校门口设有配备体温枪进行体温检测及核查健康码的工作人员,经过各方人员一上午的努力

  • 达摩院:医疗AI可在0.3秒内定位关节解剖位置 精度大幅提升2.3%

    今天,达摩院公布了最新研究成果,其医疗AI可在0. 3 秒内定位关节解剖位置,精度大幅提升2.3%以上。据悉,这一技术即将在医院上线使用,协助医生完成髋关节置换手术前的定位和测量。

  • 钟南山团队和腾讯最新研究成果发布:AI能预测新冠患者病情危重概率了

    今日,钟南山团队和腾讯的最新研究成功公布:AI可以预测COVID-19患者病情危重概率了!据悉,该研究来自钟南山院士团队与腾讯AI Lab,这也是钟院士团队与腾讯联合成立的的大数据及人工智能联合

  • 京东智联云智能视联网荣获CSDN“AI优秀案例实践”奖

    近日,由CSDN主办的第三届AI开发者大会(AI ProCon 2020)通过线上直播举行。CSDN"百万人学AI"评选活动结果在会上重磅揭晓。作为“可信赖的AI”又一个落地案例,京东智联云秸秆焚烧监测系统用AI防患于未“燃”,凭借在农业的数字化探索和环境的可持续发展方面的举措,入选权威科技媒体CSDN的“AI优秀案例实践奖TOP30”。CSDN是中国最大的开发者社区和服务平台,覆盖 3000 万开发者,其中有约 230 万与AI相关的开发者。2018 年,CSDN?

  • 李开复谈AI赋能:“AI+”有价值 但“+AI”对社会经济贡献更大

    创新工场董事长兼首席执行官李开复近日出席2020世界人工智能大会云端峰会,并发表《从“AI+”到“+AI”:以技术重构中国经济》的主题演讲。从之前的“AI+”到现在的“+AI”,二者有何区别?李开复表示,“AI+”是以AI为核心,工程师、科学家主导寻找商业机会。而“+AI”是以传统公司为主导,AI赋能传统行业产生价值。李开复认为:”再过五年,我相信AI会进入下一阶段——无处不在。AI应用会变得越来越简?

  • 实力不够AI来凑?韩国围棋棋手AI作弊被判监禁

    2017年6月23日,在中国浙江乌镇举办了一场举世瞩目的围棋挑战赛,由谷歌人工智能阿尔法狗对阵当前世界排名第一的棋手柯洁,经历了4个多小时的酣战,阿尔法狗1/4战胜了柯洁,这也让人们对人工智能

  • AI音乐的“原创”激辩

    周杰伦的新歌《Mojito》微醺了整个社交平台。就在 300 万夕阳红粉丝为新歌付费买单的第二天,这首《Mojito》就已经免费上了B站和两大短视频平台。

  • 最新发布|国务院办公厅强调推动电子印章应用

    昨日,国务院办公厅发布《关于进一步优化营商环境更好服务市场主体的实施意见》,提出要全面推行企业开办全程网上办,加快实现电子营业执照、电子印章应用,提升企业服务质量和效率,进一步深化“放管服”改革。据不完全统计,这是 2020 年 1 月以来,国家级重要机关第 8 次在发文中提及应用“电子印章、电子签名、电子合同”:?2 月 4 日,国家知识产权局颁布的《关于电子专利证书和专利电子申请通知书电子印章相关事项的公告(第

  • 宋祖儿推荐AI志愿助手 百度AI高考志愿助手入口地址

    宋祖儿推荐的AI志愿助手工具可根据考生所在省份招考政策以及考生个人成绩和选科情况,智能分析历年招生计划、往年录取分数、同水平考生往年报考情况等,结合考生分数信息和实时搜索大数据,帮助考生更科学合理地填报志愿,为考生择校、选择专业提供参考。百度AI志愿助手入口地址只需要在百度app搜索「高考」关键词即可打开。以下是功能介绍:

  • AI 技术再度爆红,ColorOS 7.2 用 AI 让体验更出色

    近日,一段百年前拍摄的北京影像在网络上广泛传播,大家关注的重点是这段影像经过 AI 修复,不仅增添了色彩,同时人物面部表情也更加清晰,让人们一睹 1920 年热闹的北京城。就在大家感叹 AI 技术的神奇时,却不知 AI 早就被运用在身边。以常见的 OPPO 手机为例,其搭载的最新系统 ColorOS 7.2 在多处运用了 AI 技术,让体验变得更轻快流畅,还能达到省电的效果。一键重现老照片,AI 修复就在身边在数字时代,很多人都想将泛黄的老

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议
  • 热门标签