首页 > 业界 > 关键词  > 正文

研究发现,GPT-4在临床决策中存在潜在种族和性别偏见问题

2023-12-19 16:47 · 稿源:站长之家

**划重点:**

1. 🩺 GPT-4被评估在四个临床决策支持角色中是否存在种族和性别偏见。

2. 🔄 研究发现GPT-4在生成患者案例、制定诊断和治疗计划,以及评估患者特征时存在明显的偏见。

3. 🚨 研究呼吁对大型语言模型进行偏见评估,以确保其在医学领域的应用不会加剧社会偏见。

站长之家(ChinaZ.com) 12月19日 消息:近期,来自布里格姆和妇女医院的研究人员对GPT-4在临床决策中是否存在种族和性别偏见进行了评估。虽然大型语言模型(LLMs)如ChatGPT和GPT-4在自动化行政任务、起草临床记录、与患者交流以及支持临床决策方面具有潜力,但初步研究表明,这些模型可能对历史上被边缘化的群体产生不利影响。

研究首次系统评估了GPT-4在四个临床决策支持角色中编码和展示种族和性别偏见的倾向,并将结果发表在《柳叶刀数字健康》杂志上。对该研究的首席作者Emily Alsentzer博士表示:“尽管大多数关注点都集中在使用LLMs进行文档编制或行政任务上,但人们也对使用LLMs支持临床决策的潜力感到兴奋。我们希望系统评估GPT-4是否编码了影响其支持临床决策能力的种族和性别偏见。”

AI医疗 医生 人工智能

图源备注:图片由AI生成,图片授权服务商Midjourney

Alsentzer及其团队使用Azure OpenAI平台测试了GPT-4的四个应用场景。首先,他们促使GPT-4生成可用于医学教育的患者案例。接下来,他们测试了GPT-4对来自NEJM Healer的19个不同患者病例制定诊断和治疗计划的能力,NEJM Healer是一种向医学学员展示具有挑战性的临床案例的医学教育工具。最后,他们评估了GPT-4如何通过八个旨在衡量内隐偏见的病例情景对患者的临床表现进行推断。对于每个应用,作者评估了GPT-4的输出是否受到种族或性别的偏见影响。

在医学教育任务中,研究人员构建了十个提示,要求GPT-4为提供的诊断生成患者案例。他们每个提示运行了100次,发现GPT-4夸大了根据人口统计学差异已知的疾病患病率。

Alsentzer解释道:“一个显著的例子是当GPT-4被提示为患有肺结节病的患者生成案例时:GPT-4在81%的情况下描述的是一个黑人女性。尽管肺结节病在黑人患者和女性中更为普遍,但并不占所有患者的81%。”

接下来,在GPT-4被要求为NEJM Healer病例制定10种可能的诊断时,更改患者的性别或种族/族裔显著影响了其在37%的情况下优先考虑正确的顶级诊断的能力。

Alsentzer说:“在某些情况下,GPT-4的决策反映了文献中已知的性别和种族偏见。在肺栓塞的情况下,该模型将惊恐发作/焦虑作为女性比男性更可能的诊断。对于来自少数族裔背景的患者,它还将性传播疾病,如急性HIV和梅毒,排名为比白人患者更可能的诊断。”

当被要求评估主观患者特征,如诚实、理解和疼痛耐受性时,GPT-4在23%的问题上通过种族、族裔和性别产生了显著不同的回答。例如,在所有模拟患者病例中答案应该相同的情况下,GPT-4更有可能将黑人男性患者与亚洲、黑人、西班牙裔和白人女性患者相比,评定为滥用阿片类药物Percocet。

该研究的局限性包括使用有限数量的模拟提示测试GPT-4的响应,并仅使用一些传统的人口统计学身份类别来分析模型的性能。未来的工作应该使用来自电子健康记录的临床笔记来调查偏见。

Alsentzer表示:“虽然目前正在部署带有临床医生的LLM工具以验证模型的输出,但当临床医生查看个别患者病例时,很难检测到系统性偏见。我们必须对LLMs的每个预期用途进行偏见评估,就像我们对医学领域的其他机器学习模型一样。我们的工作可以帮助引发关于GPT-4在临床决策支持应用中传播偏见的讨论。”

举报

  • 相关推荐
  • OpenAI发布GPT-5.1:情商大涨 本周开始推送

    OpenAI正式推出GPT-5.1模型,以“智商与情商深度融合”为核心亮点。新模型优化推理能力,强化情绪价值与个性化交互,包含Instant与Thinking两大核心版本:Instant首次引入自适应推理功能,针对复杂任务延长思考时间,简单问题保持极速响应;Thinking版本智能分配思考时长,提升回答透彻度与通俗性。新增Auto功能自动匹配最佳模型,支持六种官方预设风格及精准微调。安全评估首次纳入心理健康与情感依赖维度,防范拟人化风险。付费用户可保留旧版三个月过渡期。

  • 陈天桥在AIAS上首提“发现式智能”,宣告AI研究新范式

    2025年10月27-28日,AI驱动科学研讨会(AIAS 2025)在美国旧金山举行。陈天桥发表主题演讲,首次提出“发现式智能”概念,指出这是真正的通用人工智能,强调AI应帮助人类发现未知而非替代人类。他提出实现路径需结合规模路径与结构路径,并分析大脑时间结构包含神经动力学、长期记忆、因果推理、世界模型和元认知五大能力。会议宣布投入超十亿美元建设算力集群,支持年轻科学家探索智能本质。

  • 从“实时分账”到“智能问数”:汇付天下以“Data Agent”重塑支付业务决策效率

    汇付天下作为技术驱动的数字化企业,践行“数字化+国际化”战略,为全球企业提供支付、账户、资金管理及数据集成解决方案。面对海量交易数据处理需求,公司依托火山引擎技术,构建湖仓一体架构,实现毫秒级风控响应与实时分账,并通过Data Agent智能平台支持自然语言查询与业务归因,推动数据驱动运营。该方案以流批一体能力优化数据处理效率,保障业务稳定与合规,助力企业实现全域增长与智能化风控协同。

  • AI日报:月之暗面开源AI新框架Kosong;百度发布新模型ERNIE-4.5-VL;GPT-5.1“隐身”登场

    本期AI日报聚焦多项技术突破:月之暗面开源AI代理框架Kosong,支持异步编排与插件化设计;Replit推出AI集成功能,可一键调用300+模型;商汤发布空间智能模型SenseNova-SI,性能超越GPT-5;百度推出多模态模型ERNIE-4.5-VL,新增图像思考能力;谷歌地图全面AI化,集成Gemini实现智能交互;ChatTutor上线可视化教学系统,覆盖多学科实时推演;新版Google Finance引入AI深度搜索与财报追踪;OpenAI低调上线Polaris Alpha模型,支持256K上下文并更新知识库至2024年10月。

  • 前DeepSeek研究员罗福莉已加入小米:全力奔赴AGI

    11月12日,“95后AI天才少女”罗福莉宣布加入小米MiMo大模型团队。她曾因“雷军千万年薪挖角”话题引发热议,拥有丰富AI研发经历,先后在幻方量化和DeepSeek参与大模型研发。罗福莉表示,将与团队致力于推动AI从语言迈向物理世界,全力构建通用人工智能。她的加入将为小米AI研究注入新活力。

  • 1899元苹果手机包卖完了!iPhone Pocket在吐槽声中销售火爆

    今日,苹果与三宅一生(ISSEY MIYAKE)携手打造的全新配件iPhone Pocket正式登陆国内市场。尽管这款产品自曝光以来就因外观和价格饱受争议,被不少人吐槽“丑、贵”,但实际销售情况却出乎意料地火爆。 目前,苹果官网信息显示,售价1899元的长款iPhone Pocket已显示售罄。这一现象表明,即便外界评价褒贬不一,消费者对其的热情依旧高涨。

  • YOUMAGIC舒立缇与北京清华长庚医院联合启动单极射频多适应症临床研究

    10月27日,YOUMAGIC舒立绯与北京清华长庚医院联合启动射频技术临床研究计划。双方将开展单极射频设备在面部年轻化及痤疮治疗领域的有效性与安全性评估,聚焦轻中度皱纹合并痤疮的临床应用。通过前瞻性自身对照研究设计,结合标准化治疗方案,推动技术临床标准化与循证医学证据积累,为医企协同创新提供实践范本,助力行业高质量发展。

  • 双11洗衣机:海尔云溪4.0居行业销额TOP1

    双十一期间,海尔云溪4.0洗衣机凭借AI直驱洁净科技和AI双擎热泵技术,精准解决顽固污渍难洗净、娇贵面料易损伤、烘干缠绕打结等用户痛点,实现15分钟洗净81种污渍、1.28超高洗净比及透干不伤衣效果,以技术升级推动行业从“洗净”向“洗好护好”转型,稳居行业销额榜首。

  • Creators’ App迎来重大更新

    索尼与分秒帧联合推出云端影像创作平台ICE-Cloud,集成索尼先进影像技术与高效云端协作能力,为创作者提供从拍摄到后期全流程赋能。平台支持移动端、PC端及网页应用,实现素材自动上传、云端管理、在线审片和项目协同,打破时空限制,提升创作效率。通过Creators’ App连接相机与云端,实现即拍即传、异地实时协作,致力于打造新一代创意工作流。

  • 马斯克称若发现外星人证据就公开

    近日,特斯拉与SpaceX首席执行官埃隆·马斯克在一档热门播客节目中,就近期引发科学界与公众广泛关注的神秘天体“3I/ATLAS”发表看法,并针对外星生命是否存在这一永恒话题作出明确表态。 当被主持人问及是否相信宇宙中存在外星生命时,马斯克直言不讳:“如果我有任何关于外星人真实存在的确凿证据,我保证会再次登上这个节目,向全世界公开这一发现。”为表诚意,�

今日大家都在搜的词: