研究发现，GPT-4在临床决策中存在潜在种族和性别偏见问题

2023-12-19 16:47 · 稿源：站长之家

**划重点:**
1. 🩺 GPT-4被评估在四个临床决策支持角色中是否存在种族和性别偏见。
2. 🔄 研究发现GPT-4在生成患者案例、制定诊断和治疗计划，以及评估患者特征时存在明显的偏见。
3. 🚨 研究呼吁对大型语言模型进行偏见评估，以确保其在医学领域的应用不会加剧社会偏见。

站长之家(ChinaZ.com) 12月19日消息:近期，来自布里格姆和妇女医院的研究人员对GPT-4在临床决策中是否存在种族和性别偏见进行了评估。虽然大型语言模型（LLMs）如ChatGPT和GPT-4在自动化行政任务、起草临床记录、与患者交流以及支持临床决策方面具有潜力，但初步研究表明，这些模型可能对历史上被边缘化的群体产生不利影响。

研究首次系统评估了GPT-4在四个临床决策支持角色中编码和展示种族和性别偏见的倾向，并将结果发表在《柳叶刀数字健康》杂志上。对该研究的首席作者Emily Alsentzer博士表示:“尽管大多数关注点都集中在使用LLMs进行文档编制或行政任务上，但人们也对使用LLMs支持临床决策的潜力感到兴奋。我们希望系统评估GPT-4是否编码了影响其支持临床决策能力的种族和性别偏见。”

AI医疗医生人工智能

图源备注：图片由AI生成，图片授权服务商Midjourney

Alsentzer及其团队使用Azure OpenAI平台测试了GPT-4的四个应用场景。首先，他们促使GPT-4生成可用于医学教育的患者案例。接下来，他们测试了GPT-4对来自NEJM Healer的19个不同患者病例制定诊断和治疗计划的能力，NEJM Healer是一种向医学学员展示具有挑战性的临床案例的医学教育工具。最后，他们评估了GPT-4如何通过八个旨在衡量内隐偏见的病例情景对患者的临床表现进行推断。对于每个应用，作者评估了GPT-4的输出是否受到种族或性别的偏见影响。

在医学教育任务中，研究人员构建了十个提示，要求GPT-4为提供的诊断生成患者案例。他们每个提示运行了100次，发现GPT-4夸大了根据人口统计学差异已知的疾病患病率。

Alsentzer解释道:“一个显著的例子是当GPT-4被提示为患有肺结节病的患者生成案例时:GPT-4在81%的情况下描述的是一个黑人女性。尽管肺结节病在黑人患者和女性中更为普遍，但并不占所有患者的81%。”

接下来，在GPT-4被要求为NEJM Healer病例制定10种可能的诊断时，更改患者的性别或种族/族裔显著影响了其在37%的情况下优先考虑正确的顶级诊断的能力。

Alsentzer说:“在某些情况下，GPT-4的决策反映了文献中已知的性别和种族偏见。在肺栓塞的情况下，该模型将惊恐发作/焦虑作为女性比男性更可能的诊断。对于来自少数族裔背景的患者，它还将性传播疾病，如急性HIV和梅毒，排名为比白人患者更可能的诊断。”

当被要求评估主观患者特征，如诚实、理解和疼痛耐受性时，GPT-4在23%的问题上通过种族、族裔和性别产生了显著不同的回答。例如，在所有模拟患者病例中答案应该相同的情况下，GPT-4更有可能将黑人男性患者与亚洲、黑人、西班牙裔和白人女性患者相比，评定为滥用阿片类药物Percocet。

该研究的局限性包括使用有限数量的模拟提示测试GPT-4的响应，并仅使用一些传统的人口统计学身份类别来分析模型的性能。未来的工作应该使用来自电子健康记录的临床笔记来调查偏见。

Alsentzer表示:“虽然目前正在部署带有临床医生的LLM工具以验证模型的输出，但当临床医生查看个别患者病例时，很难检测到系统性偏见。我们必须对LLMs的每个预期用途进行偏见评估，就像我们对医学领域的其他机器学习模型一样。我们的工作可以帮助引发关于GPT-4在临床决策支持应用中传播偏见的讨论。”

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
研究发现：GPT-4在临床推理中表现优于医生，但也更经常出错

在一项新研究中，美国贝斯以色列医疗中心的科学家们将一种大型语言模型与人类医生进行了临床推理能力的比较。研究人员使用了修订后的IDEA评分，这是一种常用工具，用于评估临床推理能力。尽管这些AI系统还没有准备好用于临床诊断，但仍可能利用这项技术来增强临床工作流程，特别是在保持人类控制的同时确保安全、准确的过程。

GPT-4
研究发现，GPT-4在说服力方面比人类表现优秀82%

瑞士洛桑联邦理工学院的研究人员最近进行的一项研究表明，GPT-4在说服力方面比人类表现更出色，优势接近82%，准确来说是81.7%。该研究涉及820人围绕一系列主题展开辩论。人们必须接受有关相信在线信息的危险性的教育。

GPT-4 AI机器人 AI头条
研究发现，ChatGPT在老年药物管理中展现潜力

在一项新研究中，来自MassGeneralBrighamMESHIncubator的研究人员发现，AI生成式聊天机器人ChatGPT展现出作为管理多药疗法和药物去处方的潜力。这一研究成果发表在《医学系统杂志》上，展示了AI模型在医疗管理中的首个应用案例。未来针对特定训练的AI工具的进一步研究可能会显著提升老年患者的护理水平。

ChatGPT
研究显示，GPT-4可以自主利用安全漏洞，具备攻击性

每周至少有一次，生成式人工智能都会给我们带来新的恐惧。虽然我们仍在焦急地等待OpenAI发布的下一个大型语言模型，但与此同时，GPT-4似乎比你想象的更具备能力。”他们还指出，在发布研究之前，他们已向OpenAI披露了他们的发现该公司要求他们不要将他们的提示公开分享。

GPT-4 AI头条
重磅！GPT-4 API全面开放使用

经过漫长等待，OpenAI终于宣布全面开放GPT-4API，这一消息如同一场技术革命的宣告，为生成式AI应用的发展带来了新的契机。GPT-4不仅在创造性方面有所突破具备更强的上下文处理能力，极大地拓展了其应用场景。预计随着时间的推移，GPT-4将在各行各业发挥越来越重要的作用，推动生成式AI应用的发展进程。

GPT-4 GPT-4API AI头条
GPT-4整顿学术圈！撤稿预测与人类95%一致

中国人民大学和浙江大学的研究团队进行了一项有趣的研究，他们发现GPT-4在预测学术论文撤稿方面的能力与人类审稿人有着惊人的相似性，准确度高达95%。这项研究不仅展示了大型语言模型在学术诚信维护中的潜在作用，同时也揭示了AI在学术研究问题上的应用关键在于如何为人类所用。ZhichaoFang是中国人民大学信息资源管理学院助理教授，他的研究方向为科学学、科学计量和社交媒体计量学。

GPT-4 AI头条
华人开源最强「AI 程序员」炸场，让 GPT-4 自己修 Bug！

自从“AI程序员”Devin问世之后，近期的一大趋势就是程序员们争先恐后地要让自己失业，试图抢先造出比自己更强大的程序员。普林斯顿大学为软件工程界迎来了一位新星——SWE-agent，论文将在4月10日正式发布，目前项目已在GitHub上开源。在4月10日即将发布的论文中，普林斯顿大学团队还将深入探讨代理的技术架构、算法和性能优化策略，并详细介绍成本优化策略:SWE-agent旨在

GPT-4 AI 程序员
OpenAI 转录了超过一百万小时的 YouTube 视频来训练 GPT-4

《华尔街日报》报道称，人工智能公司在收集高质量训练数据方面遇到了困难。《纽约时报》详细介绍了一些公司处理这一问题的方法，其中涉及到了人工智能版权法的模糊灰色区域。但这些公司的另一个选择是使用他们能找到的任何东西，无论他们是否获得许可，这可能会引发版权法方面的担忧。

人工智能数据收集训练模型
全面对标GPT-4 Turbo！商汤发布日日新5.0大模型

商汤科技在中国北京举行新品发布会，正式发布人工智能大模型日日新5.0”。日日新5.0大模型采用了先进的MOE混合专家架构，这一架构的引入，使得模型在处理复杂任务时能够表现出更高的效率和准确性。这一功能在智能客服、智能写作、智能设计等领域具有广泛的应用前景。
OpenAI 为训练 GPT-4模型转录了超过一百万小时的 YouTube 视频

AI公司在获取高质量训练数据方面遇到的挑战，OpenAI为了训练其最先进的大型语言模型GPT-4，使用了超过一百万小时的YouTube视频副本。该公司通过其Whisper音频转录模型转录这些视频，尽管这一做法在法律上具有争议性，OpenAI仍认为这属于合理使用。AI领域正面临训练数据短缺的挑战解决方案尚未明朗，公司们需要权衡利弊并寻求合理途径应对这一问题。

OpenAI GPT-4 YouTube

今日大家都在搜的词：

热文

3 天
7天

研究发现，GPT-4在临床决策中存在潜在种族和性别偏见问题

今日大家都在搜的词：

热文

站长商机