首页 > 业界 > 关键词  > 机器学习最新资讯  > 正文

新技术将机器学习模型的推理与人类的推理进行比较

2022-04-11 09:30 · 稿源: cnbeta

研究人员开发的一项新技术将机器学习模型的推理与人类的推理进行比较,因此用户可以看到模型的行为模式。在机器学习中,理解一个模型为什么做出某些决定往往与这些决定是否正确一样重要。例如,机器学习模型可能会正确预测一个皮肤病变是癌症,但它可能是通过临床照片上一个不相关的点来完成的。

虽然有工具可以帮助专家理解模型的推理,但这些方法往往一次只能提供一个决策的见解,而且每个决策都必须经过人工评估。模型通常使用数百万的数据输入进行训练,使得人类几乎不可能评估足够多的决定来识别模式。

现在,麻省理工学院和IBM研究院的研究人员创造了一种方法,使用户能够对这些单独的解释进行汇总、分类和排序,以快速分析机器学习模型的行为。他们的技术被称为“共享兴趣”( Shared Interest),它包含了可量化的指标,可以比较一个模型的推理与人类的推理的匹配程度。

Shared Interest可以帮助用户轻松发现模型决策中的相关趋势--例如,也许模型经常被分散注意力的不相关特征所迷惑,比如照片中的背景物体。汇总这些洞察力可以帮助用户快速和定量地确定一个模型是否值得信赖,是否可以在真实世界中部署。

“在开发Shared Interest的过程中,我们的目标是能够扩大这个分析过程,这样你就可以在更大的范围内了解你的模型的行为是什么,”主要作者 Angie Boggust说,她是MIT计算机科学和人工智能实验室(CSAIL)可视化小组的研究生。

Boggust与她的导师Arvind Satyanarayan(领导可视化小组的计算机科学副教授)以及IBM研究院的Benjamin Hoover和资深作者Hendrik Strobelt共同撰写了这篇论文。该论文将在计算系统中的人的因素会议上发表。

Boggust在IBM的暑期实习期间,在Strobelt的指导下开始了这个项目的工作。回到麻省理工学院后,Boggust和Satyanarayan扩大了该项目,并继续与Strobelt和Hoover合作,他们帮助部署了案例研究,展示了该技术如何在实践中使用。

Machine-Learning-Model-Quantifiable-Metrics-768x512.jpg

人类与人工智能的协调

Shared Interest利用流行的技术来显示机器学习模型是如何做出具体决定的,即所谓的突出性方法。如果该模型是对图像进行分类,突出显示图像中对该模型做出决定的重要区域。这些区域被可视化为一种热图,称为显著性图,通常被覆盖在原始图像上。如果模型将图像归类为狗,而狗的头部被高亮显示,这意味着当模型决定该图像包含一只狗时,这些像素对它很重要。

Shared Interest的工作方式是将突出度方法与地面真实数据进行比较。在一个图像数据集中,地面真实数据通常是人类生成的注释,围绕着每张图像的相关部分。在前面的例子中,方框将围绕着照片中的整只狗。在评估一个图像分类模型时,Shared Interest比较了同一图像的模型生成的显著性数据和人类生成的地面真实数据,看它们的一致性如何。

该技术使用几个指标来量化这种一致性(或不一致),然后将一个特定的决定分为八个类别之一。这些类别的范围从完全与人类对齐(模型做出了正确的预测,并且突出显示的区域与人类生成的盒子相同)到完全分心(模型做出了错误的预测,并且没有使用人类生成的盒子中的任何图像特征)。

“在光谱的一端,你的模型做出这个决定的原因与人类完全相同,而在光谱的另一端,你的模型和人类做出这个决定的原因完全不同。通过对你的数据集中的所有图像进行量化,你可以用这种量化来对它们进行分类,”Boggust解释说。

这项技术对基于文本的数据也有类似的作用,在这些数据中,关键词被突出显示,而不是图像区域。

快速分析

研究人员用三个案例研究来说明Shared Interest如何对非专家和机器学习研究人员都有用。

在第一个案例研究中,他们使用 Shared Interest来帮助一位皮肤科医生确定他是否应该相信一个机器学习模型,该模型旨在帮助从皮肤病变的照片中诊断癌症。Shared Interest使皮肤科医生能够迅速看到该模型正确和错误预测的例子。最终,这位皮肤科医生决定他不能相信这个模型,因为它根据图像伪影而不是实际病变做出了太多的预测。

“这里的价值在于,使用Shared Interest,我们能够看到我们的模型行为中出现的这些模式。”Boggust说:“在大约半小时内,皮肤科医生就能够做出是否信任该模型以及是否部署该模型的自信决定。”

在第二个案例研究中,他们与一位机器学习研究人员合作,展示了Shared Interest如何通过揭示模型中以前未知的陷阱来评估一种特定的突出性方法。他们的技术使研究人员能够在典型的人工方法所需时间的一小部分内分析数以千计的正确和错误的决定。

在第三个案例研究中,他们使用Shared Interest来深入研究一个特定的图像分类例子。通过操纵图像的真实区域,他们能够进行假设分析,看看哪些图像特征对特定的预测最重要。

研究人员对Shared Interest在这些案例研究中的表现印象深刻,但Boggust警告说,该技术只和它所基于的突出性方法一样好。如果这些技术包含偏见或不准确,那么Shared Interest将继承这些限制。

在未来,研究人员希望将Shared Interest应用于不同类型的数据,特别是用于医疗记录的表格数据。他们还想用Shared Interest来帮助改善目前的突出性技术。Boggust希望这项研究能激发更多的工作,寻求以对人类有意义的方式量化机器学习模型的行为。

举报

  • 相关推荐
  • 宜信唐宁乌镇倡议:设首席AI官让人工智能更有温度

    在2025年世界互联网大会乌镇峰会上,宜信公司CEO唐宁前瞻性地呼吁企业设立“首席AI官”,以此推动人工智能从冰冷的效率工具,演进为富有人文温度的协同伙伴。这一主张不仅呼应了峰会“共筑开放合作、安全普惠的数智未来”的主题,更为AI的发展路径注入了“暖心”与“共情”的关键维度,描绘出一幅人机深度协作、效率与温度并重的新图景。在乌镇峰会“前沿人工智能

  • 百惠金控:人工智能概念股活跃 政策与资本双动力带动行业升温

    百惠金控指出,近期人工智能及人形机器人概念股在香港市场表现持续活跃,市场气氛明显升温。受行业发展红利驱动,包括香港及亚洲科技板块在内的多地市场相关板块均出现正面反应。在港上市的相关企业如MINIMAX-WP、优必选、三花智控及金山云等股价纷纷上扬,反映资本市场正重新评估人工智能大模型及机器人产业的成长空间与潜在商业价值。此外,新上市的诺比人工智能科技首日股价飙升超300%,进一步印证市场对优质AI标的的热烈追捧。政策层面,中国及香港政府均推出多项支持措施,构建从上游核心零部件到下游应用场景的完整政策生态。百惠金控亦积极参与推动行业发展,并在资本市场扮演关键角色,曾协助“人形机器人第一股”优必选在港交所上市。展望未来,香港市场凭借“一国两制”优势、国际金融中心地位与科创生态完善,有望成为汇聚全球资本、技术与企业的区域科创枢纽。

  • 深耕AI+教育!简知科技入选2025广州市“人工智能+教育”典型案例及“人工智能+”百家案例精选荟

    2025年12月24日,广州举办人工智能算力应用及产业发展联盟年度峰会。简知科技凭借其在“人工智能+教育”领域的实践成果,成功入选2025年广州市“人工智能+教育”典型案例及“人工智能+”百家案例精选。这体现了政府和行业对其推动AI与教育场景融合、建设智能教育服务生态贡献的肯定。其核心自研的“简智AI大模型”已通过国家生成式人工智能服务备案,为教学流程管理、知识体系构建与个性化学习等关键环节提供技术支撑。公司将持续深化AI与教育全场景的融合应用,助力建设更加智能化、个性化的终身学习体系。

  • 2026高交会人工智能产业链展、机器人产业链展招商正式启动

    第二十八届中国国际高新技术成果交易会(高交会)将于2026年11月26日至28日在深圳举办。本届高交会首次以“双馆并行、各自成链”方式,独立呈现人工智能与机器人两大产业板块,标志AI正从“赋能角色”走向“产业主角”,机器人则迈入以具身智能为核心的系统化发展新阶段。展会旨在全面呈现新一代智能技术对产业体系与社会形态的深刻重塑,打造从算法、算力、数据到载体、场景的完整产业闭环,成为全球最具前瞻性的智能科技展示高地。

  • 搭载人工智能,数字王国深化全面转型

    数字王国集团发布HANBAO.AI一站式影像创作平台,旨在推动人工智能在文娱和科创领域的场景化应用。该平台聚合AI大模型,提供覆盖文本、图像和音频的集成工具库,赋能创作者高效输出高阶影像。数字王国围绕新工艺、新模态、新场景、新赋能持续探索,并联合十余家标杆企业构建“人工智能+”战略联盟,加速技术迭代与创意提炼在关联产业的部署与运作。

  • 硬核实力获国家级认证!金融壹账通数据智能风控成行业标杆案例

    国家数据局近日公示2025年“数据要素×”大赛全国总决赛获奖名单。由平安保险、金融壹账通、平安科技、深圳市大湾金融研究院联合申报的“数字化风控项目”从全国2.2万个参赛项目中脱颖而出,荣获全国金融服务赛道总决赛二等奖,实现历史性突破。该项目构建了行业首个“数据-风控-生态”数字化风控体系,依托平安集团强大的数据底座与分布式计算能力,整合超370个权威数据源,形成首个合规数据融合模式与理赔知识工程体系。在智能化方面,项目基于万亿级保险语料和亿级理赔数据,构建可解释的知识图谱与智能推理链条,显著提升风险识别精度与风控效率。目前,该项目已通过普惠金融开放平台向行业持续输出能力,赋能20余家保险机构,带来经济与社会效益超百亿元。此次获奖是平安集团科技创新与生态协同的集中展示,更是其以数据要素驱动智能金融发展的系统实力写照。

  • 小伙用24条板凳组成120斤重板凳龙:称从11岁就开始学习杂技

    ​近日,一位38岁的杂技传人钟怀杰凭借惊人技艺引发广泛关注——他竟能稳稳顶起由24条板凳组成、重达120斤的“板凳龙”。钟怀杰透露自己从11岁起便开始学习杂技,至今已坚持20余年。这一消息让网友纷纷感叹:“这才是真功夫!” 据钟怀杰介绍,这条“板凳龙”不仅重量惊人,更需通过精准的平衡技巧才能完成表演。他表示,杂技表演需要日复一日的刻苦训练,每一个动�

  • 贾跃亭:FF首批具身智能机器人2月4日发布

    法拉第未来(Faraday Future,简称FF)日前宣布全面启动全球EAI产业桥梁战略,正式推出具身智能机器人业务板块,形成EAI汽车与EAI机器人双轨并行的全新发展格局。 公司创始人贾跃亭今日通过社交媒体预告,FF将于2月4日在美国拉斯维加斯举行的NADA北美汽车经销商大会上,完成首批具身智能机器人产品的终极发布并同步开启销售,此举标志着FF正式切入机器人赛道。

  • 昇思人工智能框架峰会 | MindSpore Lite混合精度推理,实现内存节省30%,助力鸿蒙翻译模型轻量化部署

    昇思MindSpore开源社区将于2025年12月25日在杭州举办昇思人工智能框架峰会。届时,MindSpore Lite团队将分享基于MindSpore Lite的端侧AI推理优化技术实践,重点介绍CPU混合精度推理方案在鸿蒙翻译模型部署中的应用。该方案通过混合精度子图调度、IO免拷贝等关键技术,将鸿蒙内置翻译模型的推理内存优化至66MB,相比原始100MB以上显著降低,支持模型在鸿蒙6.0上线部署。文章还详细阐述了MindSpore Lite的模型转换流程、推理API及性能验证方法,展示了其在降低内存、提升性能方面的优势,为开源模型的商用部署提供技术保障。

  • 怎么把电脑数据转移到新电脑?4种高效方法详解

    文章介绍了将电脑数据迁移到新电脑的多种方法,强调迁移并不困难。首先,准备工作包括数据备份、清理与整理、检查兼容性与权限、确保设备与网络准备就绪。其次,详细介绍了四种主流数据迁移方法:使用外部存储设备直接拷贝,适合小文件;利用云存储服务,操作简单且支持跨设备;通过局域网共享传输,适合大量数据;使用专业迁移工具(如“易我电脑迁移”),可转移软件、设置等,操作便捷。最后,文章还提供了办公软件、浏览器数据等特殊数据的迁移技巧。

今日大家都在搜的词: