首页 > 业界 > 关键词  > 机器学习最新资讯  > 正文

新技术将机器学习模型的推理与人类的推理进行比较

2022-04-11 09:30 · 稿源: cnbeta

研究人员开发的一项新技术将机器学习模型的推理与人类的推理进行比较,因此用户可以看到模型的行为模式。在机器学习中,理解一个模型为什么做出某些决定往往与这些决定是否正确一样重要。例如,机器学习模型可能会正确预测一个皮肤病变是癌症,但它可能是通过临床照片上一个不相关的点来完成的。

虽然有工具可以帮助专家理解模型的推理,但这些方法往往一次只能提供一个决策的见解,而且每个决策都必须经过人工评估。模型通常使用数百万的数据输入进行训练,使得人类几乎不可能评估足够多的决定来识别模式。

现在,麻省理工学院和IBM研究院的研究人员创造了一种方法,使用户能够对这些单独的解释进行汇总、分类和排序,以快速分析机器学习模型的行为。他们的技术被称为“共享兴趣”( Shared Interest),它包含了可量化的指标,可以比较一个模型的推理与人类的推理的匹配程度。

Shared Interest可以帮助用户轻松发现模型决策中的相关趋势--例如,也许模型经常被分散注意力的不相关特征所迷惑,比如照片中的背景物体。汇总这些洞察力可以帮助用户快速和定量地确定一个模型是否值得信赖,是否可以在真实世界中部署。

“在开发Shared Interest的过程中,我们的目标是能够扩大这个分析过程,这样你就可以在更大的范围内了解你的模型的行为是什么,”主要作者 Angie Boggust说,她是MIT计算机科学和人工智能实验室(CSAIL)可视化小组的研究生。

Boggust与她的导师Arvind Satyanarayan(领导可视化小组的计算机科学副教授)以及IBM研究院的Benjamin Hoover和资深作者Hendrik Strobelt共同撰写了这篇论文。该论文将在计算系统中的人的因素会议上发表。

Boggust在IBM的暑期实习期间,在Strobelt的指导下开始了这个项目的工作。回到麻省理工学院后,Boggust和Satyanarayan扩大了该项目,并继续与Strobelt和Hoover合作,他们帮助部署了案例研究,展示了该技术如何在实践中使用。

Machine-Learning-Model-Quantifiable-Metrics-768x512.jpg

人类与人工智能的协调

Shared Interest利用流行的技术来显示机器学习模型是如何做出具体决定的,即所谓的突出性方法。如果该模型是对图像进行分类,突出显示图像中对该模型做出决定的重要区域。这些区域被可视化为一种热图,称为显著性图,通常被覆盖在原始图像上。如果模型将图像归类为狗,而狗的头部被高亮显示,这意味着当模型决定该图像包含一只狗时,这些像素对它很重要。

Shared Interest的工作方式是将突出度方法与地面真实数据进行比较。在一个图像数据集中,地面真实数据通常是人类生成的注释,围绕着每张图像的相关部分。在前面的例子中,方框将围绕着照片中的整只狗。在评估一个图像分类模型时,Shared Interest比较了同一图像的模型生成的显著性数据和人类生成的地面真实数据,看它们的一致性如何。

该技术使用几个指标来量化这种一致性(或不一致),然后将一个特定的决定分为八个类别之一。这些类别的范围从完全与人类对齐(模型做出了正确的预测,并且突出显示的区域与人类生成的盒子相同)到完全分心(模型做出了错误的预测,并且没有使用人类生成的盒子中的任何图像特征)。

“在光谱的一端,你的模型做出这个决定的原因与人类完全相同,而在光谱的另一端,你的模型和人类做出这个决定的原因完全不同。通过对你的数据集中的所有图像进行量化,你可以用这种量化来对它们进行分类,”Boggust解释说。

这项技术对基于文本的数据也有类似的作用,在这些数据中,关键词被突出显示,而不是图像区域。

快速分析

研究人员用三个案例研究来说明Shared Interest如何对非专家和机器学习研究人员都有用。

在第一个案例研究中,他们使用 Shared Interest来帮助一位皮肤科医生确定他是否应该相信一个机器学习模型,该模型旨在帮助从皮肤病变的照片中诊断癌症。Shared Interest使皮肤科医生能够迅速看到该模型正确和错误预测的例子。最终,这位皮肤科医生决定他不能相信这个模型,因为它根据图像伪影而不是实际病变做出了太多的预测。

“这里的价值在于,使用Shared Interest,我们能够看到我们的模型行为中出现的这些模式。”Boggust说:“在大约半小时内,皮肤科医生就能够做出是否信任该模型以及是否部署该模型的自信决定。”

在第二个案例研究中,他们与一位机器学习研究人员合作,展示了Shared Interest如何通过揭示模型中以前未知的陷阱来评估一种特定的突出性方法。他们的技术使研究人员能够在典型的人工方法所需时间的一小部分内分析数以千计的正确和错误的决定。

在第三个案例研究中,他们使用Shared Interest来深入研究一个特定的图像分类例子。通过操纵图像的真实区域,他们能够进行假设分析,看看哪些图像特征对特定的预测最重要。

研究人员对Shared Interest在这些案例研究中的表现印象深刻,但Boggust警告说,该技术只和它所基于的突出性方法一样好。如果这些技术包含偏见或不准确,那么Shared Interest将继承这些限制。

在未来,研究人员希望将Shared Interest应用于不同类型的数据,特别是用于医疗记录的表格数据。他们还想用Shared Interest来帮助改善目前的突出性技术。Boggust希望这项研究能激发更多的工作,寻求以对人类有意义的方式量化机器学习模型的行为。

举报

  • 相关推荐
  • 润和软件携丰富金融行业实践成果亮相2025世界人工智能大会

    润和软件在2025世界人工智能大会(WAIC2025)上展示了JettoAI+智能助手平台等系列智慧金融解决方案,包括测试智能助手、消保助手、研报助手等创新产品。作为金融科技领域领先企业,润和软件深耕AI与金融业务融合,已服务6大国有银行、12家股份制银行及超280家中小金融机构。报告显示中国金融科技市场预计将以13.3%复合增长率高速增长,2028年科技投入或突破6500亿元。润和软件�

  • 加佳科技亮相世界人工智能大会,参与浦东重点项目签约并发布创新技术成果

    2025世界人工智能大会(WAIC)7月26日在上海开幕。加佳智云的"曦源一号"项目入选浦东新区人工智能重点项目并签约合作协议。加佳科技首次发布"数字商务智能体训练场"创新技术平台,与多家企业达成战略合作。浦东新区人工智能产业规模超1600亿元,占全市40%。加佳科技通过"曦源一号"训练场基础底座平台,为行业提供"硬件+软件+产业解决方案"一体化服务,推动AI与产业深度融合。大会期间,加佳科技展示其核心成果"数字商务智能体训练场"平台,该平台依托国产替代算力,提供全生命周期开发运营服务,降低企业AI应用门槛。加佳科技还与多家企业达成合作,加速构建开放共生的AI产业生态。

  • 零门槛数字IP上线,邦彦Nuwaai掀起世界人工智能大会(WAIC)互动体验热潮​

    邦彦技术在2025世界人工智能大会发布Nuwaai数字人平台,主打"3分钟创建AI数字IP"概念。该平台通过三大核心模块(形象塑造、才艺赋能、个性养成)实现数字人全流程创作,支持古风、职业装等多种风格定制,并能加载营销、直播等专业技能。相比传统方案,Nuwaai将开发成本降至8元起,交付周期缩短至3分钟,支持按需加载功能。平台定位"数字人生产力工具",覆盖营销、社交、娱乐等多场景应用,旨在推动数字人技术从概念探索迈向实用化。目前官网已开放注册,面向个人创作者和企业用户提供低成本数字IP解决方案。

  • 智慧养老预告| 让养老更有AI!作为科技邀您共赴WAIC 2025世界人工智能大会

    2025世界人工智能大会(WAIC2025)将于7月26-28日在上海举办,主题为"智能时代 同球共济"。本届大会展览面积首次突破7万平方米,吸引800余家企业参展,展示3000余项前沿展品,涵盖40余款大模型、50余款AI终端、60余款智能机器人及80余款"全球首发"新品。12位诺贝尔奖与图灵奖得主、80余位中外院士、30余国1200位重磅嘉宾将齐聚申城,围绕大模型革命、算力新基建等十大方向展开对话。大会首次将"AI+医疗"列为核心议题,中国主导制定的全球养老机器人国际标准将在会上发布。面对中国3亿老年人口(其中失能半失能老人超4500万)的养老需求痛点,大会将探讨AI赋能智慧养老解决方案,推动"全域数据贯通→精准需求洞察→资源动态调度"闭环,重塑养老产业生态。

  • 星辰聚智·才启未来:2025世界人工智能大会中国电信发布系列前沿能力及AI产品

    7月27日,TeleAI科技前沿论坛在上海模速空间举办,主题为"星辰聚智·才启未来"。论坛汇聚全球行业专家、青年学者及企业家,探讨AI创新趋势。中国电信发布多项AI成果:1)TeleAI研究院凭借大模型创新获2025SAIL之星奖;2)提出"智传网"三大定律(信容律、同源律、集成律)及生成式智能传输等创新技术;3)发布"星小辰"智能终端,整合高德地图、航旅纵横等服务;4)推出首款智能眼镜"天翼AI智镜",具备物体识别、实时翻译等功能;5)启动"青年智算计划",投入超600P算力支持AI创新。论坛展示AI在终端、机器人等领域的深度应用,体现中国电信"云改数转智惠"战略布局。

  • Checkout.com项尧受邀参与 WAIC2025 共话人工智能时代跨境支付新机遇

    2025世界人工智能大会(WAIC)于7月26-28日在上海举办,全球领先支付解决方案提供商Checkout.com受邀参与"无界人工智能:深化中英合作"主题论坛。其大中华区总经理项尧与行业专家探讨AI赋能跨境商业生态的创新实践,重点分享公司在代理电商平台(Agentic Commerce)领域的支付技术创新,包括与Mastercard、Visa合作构建支持AI代理交易的技术框架。作为支付行业领军者,Checkout.com通过智能支付网络帮助电商平台优化交易管理,支持多币种支付,每年为客户解锁数亿美元收入潜力。本届WAIC展览面积首次突破7万平方米,吸引800余家企业参展,涵盖40余款大模型及60余款智能机器人。

  • 金融壹账通智能客服赋能普惠金融,人工智能+助力新质生产力

    金融壹账通"小壹智能客服机器人"在第七届数字普惠金融大会上入选创新成果。该系统采用"大模型+小模型"组合策略,实现60%以上人工替代率,月均处理客户咨询数千万次。其创新点在于:1)通过自动问答与坐席辅助双模块设计,解决传统金融服务效率瓶颈;2)具备智能化运营能力,可自动生成优化方案、构建训练数据;3)已覆盖银行、保险等20余家金融机构,显著降低运营成本。该成果为中小金融机构提供了可复制的数字化解决方案。

  • 世界人工智能大会SAIL奖TOP30出炉!天鹜科技荣登榜单!

    世界人工智能大会SAIL奖TOP30榜单发布,天鹄科技凭借蛋白质大模型项目入选。该项目通过90亿条极端环境蛋白质序列数据和5亿条酶功能数据,训练出能跨越结构直接预测功能的AI模型AIACCLBIO™。该模型已服务30余家生物医药企业,成功优化30余款蛋白质,其中8款实现产业化应用。典型案例包括:将抗体稳定性提升4倍,每年为企业节省上千万元成本;优化后的急性胰腺炎检测酶成本仅为国际同类产品的10%,并实现千公斤级量产。SAIL奖是世界人工智能大会最高奖项,旨在激励技术创新和产业融合。

  • 微算法科技MLGO突破性的监督量子分类器:纠缠辅助训练算法为量子机器学习开辟新天地

    量子机器学习(QML)正成为计算科学领域的研究热点。传统机器学习面临计算瓶颈和数据处理的局限性,而量子计算凭借其并行处理能力展现出巨大潜力。微算科技提出基于量子纠缠的新型训练算法,通过量子叠加态同时处理多个训练样本,大幅提升训练效率。该算法利用贝尔不等式构建成本函数,能同时优化多个样本误差,避免传统方法中的局部最优问题。量子分类器不仅能处理单一样本信息,还能在量子态中对多个样本进行并行处理。尽管量子计算仍面临硬件稳定性等挑战,但随着技术进步,QML有望在复杂分类任务中展现革命性优势,成为未来科技创新的重要方向。

  • 加速AI场景落地和产业赋能 云谷“论数”之人工智能产业应用大会圆满举办

    7月16日,云谷"论数"之"AI·场景落地+产业崛起 就在浙里"人工智能产业应用大会在杭州举行。活动由浙江省工程师学会等多家单位联合主办,聚焦AI规模化落地与科技成果转化。与会专家指出,2025年是AI发展关键年,浙江将深化场景落地实践,打造"应用实践-技术优化-价值创造"闭环。企业代表分享了AI在智能制造、智慧交通等领域的应用案例,强调技术需扎根产业需求。活动还成立了大数据与人工智能专委会,未来将促进产学研协同创新,推动AI在千行百业规模化应用,助力浙江打造全球AI创新高地。