一种新的机器学习模型可以以人类的方式理解场景中的互动关系

2021-11-29 19:11 · 稿源： cnbeta

当人类看一个场景时，他们看到的是物体和它们之间的关系。在桌子上面，可能有一台笔记本电脑，人坐在手机的左边，而手机在电脑显示器的前面。许多深度学习模型在以这种方式看世界时很吃力，因为它们不了解单个物体之间的纠缠关系。如果不了解这些关系，一个旨在帮助厨房里的帮厨机器人将很难遵循"拿起炉子左边的铲子，把它放在砧板上"这样的命令。

为了解决这个问题，麻省理工学院的研究人员开发了一个模型，可以理解场景中物体之间的基本关系。他们的模型每次都代表单个关系，然后结合这些代表来描述整个场景。这使得该模型能够从文本描述中生成更准确的图像，即使场景中包括几个以不同关系排列的物体。

这项工作可以应用于工业机器人必须执行复杂的、多步骤的操纵任务的情况，如在仓库中堆放物品或组装电器。它还使该领域向着使机器能够像人类一样从环境中学习并与环境互动的方向迈进了一步。

研究人员开发的框架可以根据对物体及其关系的文字描述生成一个场景的图像，在这个图中，研究人员的最终图像在右边，并正确地遵循了文字描述。

"当我看着一张桌子时，我不能说在XYZ位置有一个物体。我们的头脑不是这样工作的。在我们的头脑中，当我们理解一个场景时，我们真正理解它是基于物体之间的关系。我们认为，通过建立一个能够理解物体之间关系的系统，我们可以利用该系统更有效地操纵和改变我们的环境，"计算机科学和人工智能实验室（CSAIL）的博士生、该论文的共同主要作者杜一伦（音译）说。

杜一伦与共同第一作者、CSAIL博士生李爽（音译）和伊利诺伊大学香槟分校研究生刘楠（音译），以及脑与认知科学系认知科学与计算专业保罗-E-牛顿职业发展教授、CSAIL成员Joshua B. Tenenbaum，以及资深作者、电气工程与计算机科学专业德尔塔电子教授、CSAIL成员Antonio Torralba共同撰写了该论文。这项研究将在12月举行的神经信息处理系统会议上发表。

他们的系统会将这些句子分解成两个较小的片段，描述每个单独的关系（"一张木桌在蓝色凳子的左边"和"一张红色沙发在蓝色凳子的右边"），然后对每个部分单独建模。然后通过一个优化过程将这些部分结合起来，生成一个场景的图像。

研究人员使用了一种叫做基于能量的模型的机器学习技术来表示场景描述中的各个物体关系。这种技术使他们能够使用一个基于能量的模型对每个关系描述进行编码，然后以一种推断所有物体和关系的方式将它们组合起来。

李解释说，通过将每个关系的句子分解成更短的片段，系统可以以各种方式重新组合它们，因此它能够更好地适应它以前没有见过的场景描述。

"其他系统会从整体上考虑所有的关系，并从描述中一次性生成图像。然而，当我们有分布之外的描述时，比如有更多关系的描述时，这样的方法就会失败，因为这些模型不能真正适应一次就能生成包含更多关系的图像。然而，由于我们将这些单独的、较小的模型组合在一起，我们可以对更多的关系进行建模，并适应新颖的组合，"杜说。

该系统还可以反向工作--给定一张图像，它可以找到与场景中物体之间关系相匹配的文本描述。此外，他们的模型可以用来编辑图像，重新安排场景中的物体，使它们与新的描述相匹配。

理解复杂场景

研究人员将他们的模型与其他深度学习方法进行了比较，这些方法得到了文本描述，并负责生成显示相应物体及其关系的图像。在每一种情况下，他们的模型都优于基线。

他们还要求人类评估所生成的图像是否与原始场景描述相符。在最复杂的例子中，描述包含三种关系，91%的参与者认为新模型的表现更好。

"我们发现的一个有趣的事情是，对于我们的模型，我们可以把句子从有一个关系描述增加到有两个，或三个，甚至四个描述，而且我们的方法继续能够生成被这些描述正确描述的图像，而其他方法则失败了，"杜说。

研究人员还向模型展示了它以前没有见过的场景图像，以及每张图像的几种不同的文字描述，它能够成功地识别出最符合图像中物体关系的描述。

当研究人员给系统提供两个描述同一图像但方式不同的关系型场景描述时，该模型能够理解这些描述是等同的。

研究人员对他们的模型的鲁棒性印象深刻，特别是在处理它以前没有遇到过的描述时。

"这是非常有希望的，因为这更接近于人类的工作方式。人类可能只看到几个例子，但我们可以从这几个例子中提取有用的信息，并把它们结合起来，创造出无限的组合。而我们的模型有这样一个特性，使它能够从较少的数据中学习，但却能概括到更复杂的场景或图像代。"李说。

虽然这些早期结果令人鼓舞，但研究人员希望看到他们的模型在真实世界的图像上表现如何，这些图像更加复杂，有嘈杂的背景和相互遮挡的物体。

他们还有兴趣最终将他们的模型纳入机器人系统，使机器人能够从视频中推断出物体关系，然后应用这些知识来操纵世界上的物体。

捷克技术大学捷克信息学、机器人学和控制论研究所的杰出研究员Josef Sivic说："开发能够处理我们周围世界的组成性质的视觉表征是计算机视觉中的一个关键性的开放问题。这篇论文在这个问题上取得了重大进展，它提出了一个基于能量的模型，明确地对图像中描绘的物体之间的多种关系进行建模。这些结果确实令人印象深刻，他没有参与这项研究。"

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
新机器学习框架DRAGIN:用于大语言模型中的动态检索增强，胜过传统方法

研究人员从清华大学和北京理工大学开发了DRAGIN，这是一种针对大型语言模型设计的动态检索增强生成框架。该框架旨在通过在文本生成过程中实时确定何时以及如何检索外部信息，从提高语言模型的性能。未来的工作旨在克服与自注意力可访问性相关的限制，并对查询构建技术的影响进行评估。

DRAGIN AI头条
苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

苹果公司近日发布了一款名为MLLLLMFerret-UI的新型机器学习语言模型，旨在提升对移动应用用户界面的理解。这款模型经过特别优化，能够处理移动UI屏幕上的各种任务，并具备指向、定位和推理等能力。Ferret-UI还能够通过功能推断来解释屏幕的整体目的，显示出在理解和生成自然语言指令方面的高级能力。

模型 AI头条
70%金融机构采用人工智能和机器学习对抗欺诈

PYMNTS与人工智能领域的专家和创新者进行了座谈，探讨了该技术如何在未来几年改变支付和商业领域。众多意见和预测中，阿克里·阿德贾乌特，风险投资基金Exponion的创始人兼普通合伙人，表示金融机构在反洗钱和防欺诈工作中利用人工智能将受益匪浅。在未来几个月中，那些希望脱颖出的第三方欺诈预防供应商将是那些能够展示成功开发人工智能和机器学习技术的公司。

人工智能机器学习 AI头条
剑指人类生活全场景，美碳科技生态大会明日开跋

4月初，全球低碳先锋品牌mentech美碳正式宣布将于4月12日深圳召开主题为《美好骑遇，碳索未来》2024mentech美碳科技生态大会。距离大会召开还有一天时间，大会倒计时1天的海报也通过mentech美碳的官方微博被正式地公布了出来。随着mentech美碳科技生态大会的临近，这场围绕人类生活全场景的创新盛宴也即将上演，相信在当前研发实力和前瞻目光兼备的情况下，mentech美碳一定会持续引领行业潮流，发布更多围绕人类生活全场景的创新、环保的软硬件产品及服务，让我们拭目以待。

mentech美碳科技生态大会绿色低碳
报告称：OpenAI和Meta即将发布具有人类推理能力的AI模型

OpenAI和Meta据称正在准备发布更先进的AI模型，这些模型将能够帮助解决问题并承担更复杂的任务。OpenAI的首席运营官BradLightcap告诉《金融时报》，公司下一个版本的GPT将在解决"困难问题"方面取得进展，例如推理。马斯克表示，"有感知计算的总量"——这个概念可能指的是AI独立思考和行动——将在五年内超过所有人类。

OpenAI Meta AI模型
科技的副作用：对人类幸福的威胁

作为人类永恒的追求，其定义和实现方式随着时间和社会的变迁不断演变。在现代社会，科技的发展极大地改变了我们的生活方式，同时也给我们的幸福观带来了新的挑战和思考。这意味着政府、企业和个人需要共同努力，以确保科技发展与人类的可持续幸福相协调。

幸福科技人类问题
荐恐怖谷！哥大华人开发「人脸机器人」，照镜子自主模仿人类表情超逼真

【新智元导读】OpenAI机器人理解力虽强，却无法进行非语言交流。哥伦比亚大学华人团队打造了全新的机器人Emo，不仅可以提前预测和模拟人类表情可以进行眼神交流。他是哥伦比亚大学的博士生，专注于机器人和机器学习的研究。

人脸机器人
荐DeepMind终结大模型幻觉？标注事实比人类靠谱、还便宜20倍，全开源

DeepMind这篇论文一出，人类标注者的饭碗也要被砸了吗?大模型的幻觉终于要终结了?今日，社媒平台reddit上的一则帖子引起网友热议。帖子讨论的是谷歌DeepMind昨日提交的一篇论文《Long-formfactualityinlargelanguagemodels》，文中提出的方法和结果让人得出大胆的结论:对于负担得起的人来说，大语言模型幻觉不再是问题了。更多技术细节和实验结果请参阅原论文。

DeepMind 大模型
博主放出迄今为止最恐怖的太空照片之一：人类首次无系绳行走

快科技4月20日消息，人类在探索浩渺太空的过程中留下了很多精彩的瞬间，近日，有博主NASA爱好者”发布了一张宇航员太空行走的太空照片，并称其是迄今为止最恐怖的太空照片之一”。至于为何恐怖，是因为这是人类历史上首次无系绳太空行走，整个人悬浮在黝黑的太空中，背后就是蔚蓝的地球，他就像是一颗卫星，显得格外渺小，而且又很无助。据了解，最早在科学意义上提出太空行走设想的是俄罗斯科学家齐奥尔科夫斯基，在他撰写的《太空旅行》一书中，不仅提出了人在太空行走的可能性，而且还提出实现太空行走必须要给行走者提供航天服、气闸?

太空探索宇航员 NASA
12306一种新的存钱方式引热议网友：存了3000 希望候补成功

五一小长假火车票目前已经开售，由于经调休后有5天假期，许多人选择五一假期外出旅游，热门城市火车票十分抢手。词条#12306存钱#登上微博热搜，引发网友热议。若无满足旅客需求的席位，将在截止兑现时间自动终止兑现，用户主动终止或系统自动终止候补的，系统自动原额退还预付款。

今日大家都在搜的词：

热文

3 天
7天

一种新的机器学习模型可以以人类的方式理解场景中的互动关系

今日大家都在搜的词：

热文

站长商机