首页 > 业界 > 关键词  > 正文

研究发现,GPT-4在临床决策中存在潜在种族和性别偏见问题

2023-12-19 16:47 · 稿源:站长之家

**划重点:**

1. 🩺 GPT-4被评估在四个临床决策支持角色中是否存在种族和性别偏见。

2. 🔄 研究发现GPT-4在生成患者案例、制定诊断和治疗计划,以及评估患者特征时存在明显的偏见。

3. 🚨 研究呼吁对大型语言模型进行偏见评估,以确保其在医学领域的应用不会加剧社会偏见。

站长之家(ChinaZ.com) 12月19日 消息:近期,来自布里格姆和妇女医院的研究人员对GPT-4在临床决策中是否存在种族和性别偏见进行了评估。虽然大型语言模型(LLMs)如ChatGPT和GPT-4在自动化行政任务、起草临床记录、与患者交流以及支持临床决策方面具有潜力,但初步研究表明,这些模型可能对历史上被边缘化的群体产生不利影响。

研究首次系统评估了GPT-4在四个临床决策支持角色中编码和展示种族和性别偏见的倾向,并将结果发表在《柳叶刀数字健康》杂志上。对该研究的首席作者Emily Alsentzer博士表示:“尽管大多数关注点都集中在使用LLMs进行文档编制或行政任务上,但人们也对使用LLMs支持临床决策的潜力感到兴奋。我们希望系统评估GPT-4是否编码了影响其支持临床决策能力的种族和性别偏见。”

AI医疗 医生 人工智能

图源备注:图片由AI生成,图片授权服务商Midjourney

Alsentzer及其团队使用Azure OpenAI平台测试了GPT-4的四个应用场景。首先,他们促使GPT-4生成可用于医学教育的患者案例。接下来,他们测试了GPT-4对来自NEJM Healer的19个不同患者病例制定诊断和治疗计划的能力,NEJM Healer是一种向医学学员展示具有挑战性的临床案例的医学教育工具。最后,他们评估了GPT-4如何通过八个旨在衡量内隐偏见的病例情景对患者的临床表现进行推断。对于每个应用,作者评估了GPT-4的输出是否受到种族或性别的偏见影响。

在医学教育任务中,研究人员构建了十个提示,要求GPT-4为提供的诊断生成患者案例。他们每个提示运行了100次,发现GPT-4夸大了根据人口统计学差异已知的疾病患病率。

Alsentzer解释道:“一个显著的例子是当GPT-4被提示为患有肺结节病的患者生成案例时:GPT-4在81%的情况下描述的是一个黑人女性。尽管肺结节病在黑人患者和女性中更为普遍,但并不占所有患者的81%。”

接下来,在GPT-4被要求为NEJM Healer病例制定10种可能的诊断时,更改患者的性别或种族/族裔显著影响了其在37%的情况下优先考虑正确的顶级诊断的能力。

Alsentzer说:“在某些情况下,GPT-4的决策反映了文献中已知的性别和种族偏见。在肺栓塞的情况下,该模型将惊恐发作/焦虑作为女性比男性更可能的诊断。对于来自少数族裔背景的患者,它还将性传播疾病,如急性HIV和梅毒,排名为比白人患者更可能的诊断。”

当被要求评估主观患者特征,如诚实、理解和疼痛耐受性时,GPT-4在23%的问题上通过种族、族裔和性别产生了显著不同的回答。例如,在所有模拟患者病例中答案应该相同的情况下,GPT-4更有可能将黑人男性患者与亚洲、黑人、西班牙裔和白人女性患者相比,评定为滥用阿片类药物Percocet。

该研究的局限性包括使用有限数量的模拟提示测试GPT-4的响应,并仅使用一些传统的人口统计学身份类别来分析模型的性能。未来的工作应该使用来自电子健康记录的临床笔记来调查偏见。

Alsentzer表示:“虽然目前正在部署带有临床医生的LLM工具以验证模型的输出,但当临床医生查看个别患者病例时,很难检测到系统性偏见。我们必须对LLMs的每个预期用途进行偏见评估,就像我们对医学领域的其他机器学习模型一样。我们的工作可以帮助引发关于GPT-4在临床决策支持应用中传播偏见的讨论。”

举报

  • 相关推荐
  • 2025年大模型选型核心指南:Beyond GPT-4,如何理性评估Qwen、DeepSeek等强者?

    大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架,强调需超越单一指标崇拜,基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析,展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程,采用专业工具进行多维度评估,通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型,而非盲目追求流行模型。

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • OpenAI CEO:GPT-6将具备个性化记忆 记住用户偏好习惯

    OpenAI的首席执行官萨姆奥尔特曼(Sam Altman)在近日的一次专访中,透露了下一代大模GPT-6的最新进展。他表示,GPT-6 的开发正在积极推进中,其发布节奏将比从GPT-4到GPT-5的周期更快。 奥尔特曼特别强调,GPT-6将不再局限于单纯回答问题,而是朝着与用户深度适配”的方向演进。他举例描述

  • 从1920TPS到2400TPS,华为云Tokens服务全面接入384超节点

    华为云在2025年8月27日宣布其Tokens服务全面接入CloudMatrix384超节点,通过xDeepServe架构创新,实现单芯片最高2400TPS吞吐量和50ms低延迟,性能超越业界水平。该服务基于MaaS模式,提供多种规格选择,支持大模型和AI工具,助力企业快速开发AI应用。同时,华为云与超100家伙伴合作,深入行业场景,共建智能生态,加速各行业AI落地。

  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • 50+案例见证!格创东智SPC让工序发声,用数据决策,筑牢半导体品质根基

    格创东智SPC系统通过实时数据采集与统计分析,实现半导体制造全流程质量监控。该系统覆盖数据接入、异常预警、闭环处理及持续优化,已助力50余家企业提升良率、降低成本。核心优势包括全链路数据覆盖、智能预警机制、多维分析工具及高效可视化操作,推动企业从经验决策转向数据驱动,迈向零缺陷制造目标。

  • 当GPT-5遇上Gemini 2.5,谁更适合你的业务?这份对比报告说了算

    某跨境电商CTO复盘会上展示:GPT-5 Standard处理百万级商品描述时,费用比Gemini 2.5 Flash-Lite高35%,响应速度慢0.8秒。大模型选型面临参数迷雾、场景错配、隐藏成本三重困境。AIbase选型对比平台通过真实数据测试,提供透明价格拆解和性能雷达图,帮助规避预算陷阱。实测显示GPT-5在合同逻辑分析准确率高3.2%,而Gemini表格解析速度快40%、月总成本低26%。工具可动态追踪官方调价,生成定制化决策报告,用数据替代经验主义,提升技术选型效率。

  • 研究发现费脑子的工作老了后记忆好:不易痴呆

    据挪威奥斯陆大学医院发表在《神经病学》杂志上的一项最新研究表明:工作中对脑力的要求越高,日后出现记忆和思维问题的可能性就越小。” 据悉,研究人员调查了涉及305种职业的7000名挪威成年人,并对各种职业进行了大致归类:常规手工任务,如工厂流水线工作,经常涉及重复性动作; 常规认知任务,如记账、归档等,要求重复性任务的精确性和准确性; 非常规分�

  • 中国冰箱业TOP5型号4款是海尔

    2025年7月冰箱行业零售额、零售量增速放缓,环比下降34.5%和29.1%。行业承压加剧,多数品牌负增长,仅海尔冰箱逆势增长9.1%。海尔凭借爆款产品带动增长,TOP5型号中占4款,均为主打高端十字门冰箱。其磁控全空间保鲜技术获国家科技奖,显著延长食材保鲜期。通过全流程数字化升级,海尔实现运营效率提升,以科技驱动和用户体验赢得市场,为行业提供增长启示。

  • 华为MatePad Mini官宣9月4日发布

    今日,华为正式对外宣布,其首款旗舰小平板——华为MatePad Mini将于9月4日震撼登场,官方Slogan定为“超强,超Mini”,预示着这款新品将在性能与便携性上实现双重突破。 此前,知名数码博主“数码闲聊站”已提前透露,华为MatePad小平板已顺利入网,并定位为全能轻薄型设备。据进一步爆料,该机将采用8.8英寸小尺寸机身设计,搭配16:9比例的OLED屏幕,为用户带来极致的视觉

今日大家都在搜的词: