新技术将机器学习模型的推理与人类的推理进行比较

2022-04-11 09:30 · 稿源： cnbeta

研究人员开发的一项新技术将机器学习模型的推理与人类的推理进行比较，因此用户可以看到模型的行为模式。在机器学习中，理解一个模型为什么做出某些决定往往与这些决定是否正确一样重要。例如，机器学习模型可能会正确预测一个皮肤病变是癌症，但它可能是通过临床照片上一个不相关的点来完成的。

虽然有工具可以帮助专家理解模型的推理，但这些方法往往一次只能提供一个决策的见解，而且每个决策都必须经过人工评估。模型通常使用数百万的数据输入进行训练，使得人类几乎不可能评估足够多的决定来识别模式。

现在，麻省理工学院和IBM研究院的研究人员创造了一种方法，使用户能够对这些单独的解释进行汇总、分类和排序，以快速分析机器学习模型的行为。他们的技术被称为“共享兴趣”（ Shared Interest），它包含了可量化的指标，可以比较一个模型的推理与人类的推理的匹配程度。

Shared Interest可以帮助用户轻松发现模型决策中的相关趋势--例如，也许模型经常被分散注意力的不相关特征所迷惑，比如照片中的背景物体。汇总这些洞察力可以帮助用户快速和定量地确定一个模型是否值得信赖，是否可以在真实世界中部署。

“在开发Shared Interest的过程中，我们的目标是能够扩大这个分析过程，这样你就可以在更大的范围内了解你的模型的行为是什么，”主要作者 Angie Boggust说，她是MIT计算机科学和人工智能实验室（CSAIL）可视化小组的研究生。

Boggust与她的导师Arvind Satyanarayan（领导可视化小组的计算机科学副教授）以及IBM研究院的Benjamin Hoover和资深作者Hendrik Strobelt共同撰写了这篇论文。该论文将在计算系统中的人的因素会议上发表。

Boggust在IBM的暑期实习期间，在Strobelt的指导下开始了这个项目的工作。回到麻省理工学院后，Boggust和Satyanarayan扩大了该项目，并继续与Strobelt和Hoover合作，他们帮助部署了案例研究，展示了该技术如何在实践中使用。

Machine-Learning-Model-Quantifiable-Metrics-768x512.jpg

人类与人工智能的协调

Shared Interest利用流行的技术来显示机器学习模型是如何做出具体决定的，即所谓的突出性方法。如果该模型是对图像进行分类，突出显示图像中对该模型做出决定的重要区域。这些区域被可视化为一种热图，称为显著性图，通常被覆盖在原始图像上。如果模型将图像归类为狗，而狗的头部被高亮显示，这意味着当模型决定该图像包含一只狗时，这些像素对它很重要。

Shared Interest的工作方式是将突出度方法与地面真实数据进行比较。在一个图像数据集中，地面真实数据通常是人类生成的注释，围绕着每张图像的相关部分。在前面的例子中，方框将围绕着照片中的整只狗。在评估一个图像分类模型时，Shared Interest比较了同一图像的模型生成的显著性数据和人类生成的地面真实数据，看它们的一致性如何。

该技术使用几个指标来量化这种一致性（或不一致），然后将一个特定的决定分为八个类别之一。这些类别的范围从完全与人类对齐（模型做出了正确的预测，并且突出显示的区域与人类生成的盒子相同）到完全分心（模型做出了错误的预测，并且没有使用人类生成的盒子中的任何图像特征）。

“在光谱的一端，你的模型做出这个决定的原因与人类完全相同，而在光谱的另一端，你的模型和人类做出这个决定的原因完全不同。通过对你的数据集中的所有图像进行量化，你可以用这种量化来对它们进行分类，”Boggust解释说。

这项技术对基于文本的数据也有类似的作用，在这些数据中，关键词被突出显示，而不是图像区域。

快速分析

研究人员用三个案例研究来说明Shared Interest如何对非专家和机器学习研究人员都有用。

在第一个案例研究中，他们使用 Shared Interest来帮助一位皮肤科医生确定他是否应该相信一个机器学习模型，该模型旨在帮助从皮肤病变的照片中诊断癌症。Shared Interest使皮肤科医生能够迅速看到该模型正确和错误预测的例子。最终，这位皮肤科医生决定他不能相信这个模型，因为它根据图像伪影而不是实际病变做出了太多的预测。

“这里的价值在于，使用Shared Interest，我们能够看到我们的模型行为中出现的这些模式。”Boggust说：“在大约半小时内，皮肤科医生就能够做出是否信任该模型以及是否部署该模型的自信决定。”

在第二个案例研究中，他们与一位机器学习研究人员合作，展示了Shared Interest如何通过揭示模型中以前未知的陷阱来评估一种特定的突出性方法。他们的技术使研究人员能够在典型的人工方法所需时间的一小部分内分析数以千计的正确和错误的决定。

在第三个案例研究中，他们使用Shared Interest来深入研究一个特定的图像分类例子。通过操纵图像的真实区域，他们能够进行假设分析，看看哪些图像特征对特定的预测最重要。

研究人员对Shared Interest在这些案例研究中的表现印象深刻，但Boggust警告说，该技术只和它所基于的突出性方法一样好。如果这些技术包含偏见或不准确，那么Shared Interest将继承这些限制。

在未来，研究人员希望将Shared Interest应用于不同类型的数据，特别是用于医疗记录的表格数据。他们还想用Shared Interest来帮助改善目前的突出性技术。Boggust希望这项研究能激发更多的工作，寻求以对人类有意义的方式量化机器学习模型的行为。

（举报）

相关推荐

关键词：

人工智能巨头OpenAI拟上市估值或高达1万亿美元

OpenAI正积极推进上市计划，据知情人士透露，该公司可能最早于2026年下半年向证券监管机构提交上市申请，目标在2027年正式上市。此次IPO的估值有望达到约1万亿美元，或将跻身全球规模最大的IPO之列。在初步讨论中，OpenAI曾考虑通过上市筹集至少600亿美元资金，实际融资规模可能进一步扩大。

OpenAI IPO 上市计划
厚植AI创新沃土！麒麟信安打造人工智能孵化器，赋能创业梦想

10月28日，麒麟信安人工智能孵化器在长沙启动，旨在汇聚AI领域人才、技术与资本，构建开放协同的创新生态。该项目获湖南省多部门支持，已吸引60余个项目入围，组建了首批30余位专家导师团，并与多家顶尖机构共建联合体，通过政策扶持、资本对接等多维度赋能，培育优质AI项目在湘落地发展，助力区域打造人工智能产业创新高地。

人工智能孵化器麒麟信安创新创业
人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

科杰科技董事善于洋在2025中国国际数字经济博览会发表演讲，强调高质量数据集是人工智能产业决胜关键。他指出，算力、算法和数据构成AI三大要素，而数据决定模型认知边界与输出可靠性。当前需构建Data&AI一体化平台作为核心基础设施，通过集中管理、分散赋能模式，打通数据采集、治理到AI训练全链路，推动产业智能化升级。该平台已在制造、金融等领域落地，助力企业释放数据要素价值，实现弯道超车。

人工智能数据基础设施数字经济
行业首个！海尔冰箱获ISO/IEC 42001人工智能管理体系认证

2025年10月，海尔冰箱成为全球首个通过ISO/IEC42001人工智能管理体系认证的家电企业，标志着其AI技术研发与管理达国际领先水平。该认证覆盖语音交互、视觉识别、健康保鲜等核心功能全流程，确保用户数据安全与隐私保护。目前AI系统已应用于博观、麦浪等高端产品，推动智能冰箱行业规范化发展。未来海尔将持续优化AI技术，为用户提供更安全、智能的健康饮食体验。

冰箱品牌人工智能技术海尔冰箱
十方融海小智AI：以科技温度诠释“人工智能+”时代的人文关怀

近日，小女孩“小十三”与十方融海研发的小智AI机器人深情告别的视频走红网络。这段1分17秒的对话不仅让无数网友泪目，更展现了AI技术的情感温度。十方融海团队迅速响应，跨越600公里为女孩送上定制版机器人作为生日礼物，并推出儿童心理陪伴计划。该事件体现了“人工智能+教育”的深刻内涵，彰显科技企业的人文关怀与社会担当，成为“技术向善”的生动实践。
微算法科技（NASDAQ:MLGO）开发延迟和隐私感知卷积神经网络分布式推理，助力可靠人工智能系统技术

微算科技开发了延迟和隐私感知卷积神经网络分布式推理技术，通过创新队列机制和深度强化学习优化CNN推理过程，结合分布式计算与隐私保护机制，在降低边缘设备计算延迟的同时强化数据隐私。该技术将推理任务智能分配到不同节点，减少数据传输范围，实现高效推理与隐私安全的平衡，为智能医疗、交通等领域提供可靠解决方案。

人工智能深度学习隐私保护
荐市值一日暴增近3000亿港元，阿里迈向超级人工智能之路

9月24日，阿里巴巴股价创下四年新高，单日涨超9%，市值达到约3.32万亿港元，一日增加近3000亿港元。引爆股价的，是阿里集团每年一度的云栖大会。在会上，阿里释放多条重磅消息，尤其是在阿里集团CEO、阿里云智能集团董事长兼CEO吴泳铭的演讲结束后，阿里的股价表现就出现了明显的拉升。

阿里巴巴云栖大会股价
数据智能体 TabTabAI 正式上线，零门槛上手，让 “数据分析” 人人可用

AI数据智能体TabTabAI正式上线，以“零门槛交互+全流程自主处理”为核心优势，打破数据分析技术壁垒。该工具通过自然语言对话，支持多源数据采集、智能处理、深度洞察与可视化，让普通职场人无需编程背景即可完成复杂分析任务。其多智能体协同架构与自动化能力，覆盖从数据收集到决策建议的全链路，助力用户将原始数据高效转化为精准决策依据，真正实现“人人都是数据分析师”。

数据分析数据驱动 AI数据智能体
AI强攻翻译行业，人工译员面临“生存大战”

在会被AI轻易取代的行业中，翻译长期被列为高风险领域之一。眼下，这一观点不再是人们对于未来的臆测，而是有数据和案例印证的事实:“翻译界哈佛”蒙特雷明德国际研究学院宣布关停，带来的震动犹如一颗重磅炸弹在翻译界炸开，这所久负盛名的学院走向衰败与AI浪潮的冲击密切相关;网易有道词典“AI同传”用户量突破2000万，引发外界对AI翻译商业化落地的广泛关注，�

AI翻译翻译行业蒙特雷明德
华文众合携国内首款中小学具身教育智能机器人亮相第86届中国教装展

10月24-26日，第86届中国教育装备展在青岛成功举办，聚焦“人工智能引领教育装备高质量发展”。华文众合展出智慧书法教室、智慧粉笔教室等创新产品，并发布国内首款中小学具身教育智能机器人“华文小弈”。该机器人融合AI语音交互、智能运动控制等功能，旨在通过寓教于乐方式提升课堂互动性。展会现场还通过经典古文背诵、AI书法教学等互动环节，展现科技与传统教�

人工智能教育装备智慧书法教室

今日大家都在搜的词：

热文

3 天
7天

新技术将机器学习模型的推理与人类的推理进行比较

人工智能巨头OpenAI拟上市估值或高达1万亿美元

厚植AI创新沃土！麒麟信安打造人工智能孵化器，赋能创业梦想

人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

行业首个！海尔冰箱获ISO/IEC 42001人工智能管理体系认证

十方融海小智AI：以科技温度诠释“人工智能+”时代的人文关怀

微算法科技（NASDAQ:MLGO）开发延迟和隐私感知卷积神经网络分布式推理，助力可靠人工智能系统技术

荐市值一日暴增近3000亿港元，阿里迈向超级人工智能之路

数据智能体 TabTabAI 正式上线，零门槛上手，让 “数据分析” 人人可用

AI强攻翻译行业，人工译员面临“生存大战”

华文众合携国内首款中小学具身教育智能机器人亮相第86届中国教装展

今日大家都在搜的词：

热文

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

一加Ace 6开启预售：售价2599元起

鸿蒙智行：全新问界M7上市36天交付破20000台

美股4万亿美元市值上市公司已达3家苹果、微软、英伟达组成三巨

网信办宣布开展“整治网络直播打赏乱象”专项行动

小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

20周年款iPhone将配自研相机并搭载自研定制LOFIC传感器

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

余承东曝鸿蒙智行新款享界S9将于11月上市

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

一加Ace 6开启预售：售价2599元起

站长商机