LLM不靠谱！研究：AI聊天机器人提供了错误的癌症治疗建议

2023-08-30 14:27 · 稿源：站长之家

文章概要:
1. 研究人员评估了大语言模型聊天机器人提供癌症治疗建议的可靠性，发现33.33%的建议与确立的指南不完全一致。
2. 研究强调了AI技术渗透医疗决策时需谨慎和监管的必要性。
3. 聊天机器人的建议与NCCN指南不完全一致，专家也未能检测到这些错误，凸显LLM聊天机器人在提供可靠和精确的癌症治疗建议方面的表现低于平均水平。

站长之家（ChinaZ.com）8月30日消息:在最近发表在《JAMA Oncology》杂志上的一篇文章中，研究人员评估了由人工智能（AI）算法驱动的大型语言模型 (LLM) 驱动的聊天机器人是否可以提供准确可靠的癌症治疗建议。

AI医疗医生人工智能

关于该研究

在本研究中，研究人员评估了大语言模型聊天机器人在提供前列腺癌、肺癌和乳腺癌治疗建议方面的表现，该建议与国家综合癌症网络（NCCN）指南一致。

研究人员开发了四个零样本提示模板，并用于创建26种癌症诊断描述的四个变体，最终获得了104个提示。然后将这些提示作为输入提供给GPT-3.5。

研究团队由四名经过委员会认证的肿瘤学家组成，其中三人根据研究人员制定的五项评分标准评估了聊天机器人输出与2021年 NCCN 指南的一致性。采用多数决原则来确定最终得分。

第四位肿瘤学家帮助其他三位解决了分歧，这些分歧主要是在法学硕士聊天机器人输出不清楚时出现的。例如，大语言模型没有具体说明针对特定类型的癌症应结合哪些治疗方法。

研究结果

该研究对聊天机器人提供的104条癌症治疗建议进行了评估。结果显示33.3%的建议至少部分不符合NCCN指南，被视为错误或不准确的。

聊天机器人对98%的提示给出了至少一个治疗建议。所有包含治疗建议的回复中，至少有一个治疗方法与NCCN指南一致。

但是在102条产出中，有35条包含一个或多个不一致的治疗方法，占34.6%。这意味着超过三分之一的建议包含了错误信息。

聊天机器人提供的建议根据提问方式而变化。当提问不明确时，它的回复也变得模糊，导致评估者之间出现分歧。

本研究中评估的大语言模型士聊天机器人将错误的癌症治疗建议与正确的建议混合在一起，即使是专家也未能发现这些错误。

研究结果表明，大语言模型聊天机器人在提供可靠且精确的癌症治疗建议方面表现低于平均水平。

鉴于AI的广泛使用，医疗保健提供者需要适当教育病人有关这项技术可能提供的错误信息的潜在风险。这些发现还强调了针对AI及其他潜在危害公众的技术制定联邦法规的重要性。

（举报）

相关推荐

关键词：

荐重识vivo：做MR和家用机器人的隐性逻辑

尽管苹果Vision Pro在发布一年后，市场表现并不如其它同门那样好，但2024年它仍以3499美元的高价拿下全球5.2%的市场份额，紧随Meta和索尼之后。当然重要的不是份额，而是苹果对于空间计算的引领，以及对于智能头显市场的推波助澜。 IDC预计，在软硬件技术革新、AI大模型快速发展、交互技术进一步融合的趋势下，2025年全球智能头显市场出货量将同比增长26%至1280万台，其中�

苹果Vision Pro 智能头显市场
世界机器人大会｜远东股份助力机器人产业实力出圈

2025世界机器人大会在北京落幕，标志着人形机器人产业迎来历史性跨越。以优必选Walker S2为代表的中国整机产品展现出前所未有的实用潜力，其突破性技术实现了机器人运行的"柔性神经"。远东南缆等企业构建的国产核心零部件产业链为行业发展提供关键支撑。大会汇聚200余家企业1500件前沿展品，其中100余款全球新品集中亮相，勾勒出机器人深度融入人类生活的图景。从2024年"概念元年"到2025年"落地打工"，产业正加速从实验室走向实际应用。远东南缆研发的机器人专用线缆实现千万次弯折寿命，通过材料创新赋予电缆卓越柔韧性，其专项实验室获CNAS国家认证，为产品可靠性保驾护航。随着AI技术发展，机器人群体智能将推动生产效率跃升，具备综合优势的国产供应商正迎来前所未有的市场机遇。

世界机器人大会人形机器人优必选Walker
普渡机器人发布3D感知AI扫地机器人PUDU MT1 Max，重塑智能清洁新高度

普渡机器人于2025年8月20日发布3D感知AI扫地机器人PUDU MT1Max。该产品在MT1基础上大幅升级，搭载3D雷达与多传感器融合系统，显著增强复杂场景感知与避障能力。通过AI技术实现自适应清洁、垃圾识别、巡检清洁等功能，支持10万平方米以上大场景作业。具备自动振尘过滤和智能避雨机制，提升安全性与运维效率，重塑智能清洁行业新标准。

3D感知AI 扫地机器人智能清洁
“与智同行，共启新元”智元机器人首届合作伙伴大会暨 “IT老友会走进智元机器人”系列活动圆满举办

2025年8月21日，智元机器人在上海成功举办首届合作伙伴大会，主题为“与智同行，共启新元”。大会同步开展“IT老友会走进智元机器人”系列活动，汇聚多领域精英探讨具身智能机器人技术边界与产业生态构建。活动展示超100台智能机器人，呈现工业智造、商业服务等多场景应用实效，并深入交流技术突破与产业布局，加速推动智能机器人在各领域的规模化商用与生态发展。

人工智能具身智能机器人商业应用
国内首款模块化四足机器人-Apollo 从“白犀”吉尼斯纪录走来，引领行业进入“定制化时代”

国内首款模块化工业级四足机器人Apollo正式亮相。该机器人由浙江大学杭州国际科创中心研发，延续了前代“白犀”的速度优势，以模块化设计为核心突破，实现性能、场景适配与运维效率的全面革新。Apollo具备140kg负载能力、5.5小时续航，支持快速换电与多场景灵活定制，适用于高危险厂区巡检、应急救援等工业应用，推动四足机器人向定制化解决方案跨越。

模块化工业机器人四足机器人工业级机器人
元萝卜联动疯狂动物城发布下棋机器人重磅新品，让孩子更聪明、更坚韧、更乐观

商汤科技旗下元萝卜品牌与迪士尼合作，推出《疯狂动物城》朱迪系列下棋机器人。产品融合四种棋类与趣味编程，通过拟人化交互和低挫败成长体系，帮助孩子塑造乐观、坚韧、聪明的性格。外观采用朱迪标志性蓝灰色调，内置启蒙课程，支持人机、人人对弈模式，适合全家互动。售价3499元，预售价3199元。

元萝卜下棋机器人疯狂动物城朱迪系列商汤科技新品
智能“机器狗”亮相广博会视源股份四足机器人提供展会、赛事安保新思路

广州博览会上，本土企业视源股份自主研发的四足机器人MAXHUB+X7引发关注。该机器人具备全地形适应能力，可稳定穿越35°斜坡、台阶及沙石路面，支持自主导航、自动执行任务。搭载双摄像头、气体传感器等模块，能替代人工在复杂环境中执行巡检、灭火等任务，适用于展会安保、救援等多场景。其核心价值在于动态风险预测与人机协同响应，已在北京等地的实战中验证能力。产品未来将在广州多个城市管理场景部署，提升生产效率。

机器狗广州博览会四足机器人
扫地机器人公司追觅官宣造车：预计2027年亮相

今日，全球清洁领域领军企业追觅科技正式宣布进军汽车制造领域，提出"打造世界上速度最快的车"的宏伟目标。这场跨界并非临时起意，而是源于2013年清华天空工场的一份造车计划书——历经十二年技术沉淀与市场淬炼，追觅认为已迎来"属于中国品牌的时代时机"。面对被称作"工业王冠"的汽车产业，追觅展现出敬畏与雄心并存的姿态。企业坦言，当�
智元四足机器人 D1 系列重磅发布，同步上线智元商城开售

智元机器人8月18日发布三款四足机器人产品：D1Pro（文娱商演）、D1Edu（教育科研）和D1Ultra（工业级应用）。D1Pro主打轻量化（15kg）与高动态性能，可实现3.7m/s奔跑、35cm跳跃及2小时续航；D1Edu配备标准化接口支持二次开发，适配复杂地形教学研究；D1Ultra具备IP54防护和2kW/kg功率密度，支持8kg负载及恶劣环境作业，集成360°监控与智能识别功能。全系列产品已登陆电商平台，覆盖消费级到工业级应用场景，加速四足机器人产业化进程。

智元机器人四足机器人 D1系列
周鸿祎与机器人PK球技：带球突破被机器人抢断

近日，世界机器人大会现场迎来一场别开生面的“人机对决”——360集团创始人周鸿祎现身加速进化机器人展台，亲自下场与机器人展开1V1足球大战，以球技较量科技实力，引发现场观众阵阵喝彩。根据现场拍摄的视频画面，这场人机足球赛战况异常激烈。比赛伊始，周鸿祎迅速进入状态，展现出灵活的盘带技术，在绿茵场上灵活穿梭，甚至一度险些晃过面前的机器人对手，

人机对决周鸿祎机器人足球

今日大家都在搜的词：

热文

3 天
7天

LLM不靠谱！研究：AI聊天机器人提供了错误的癌症治疗建议

荐重识vivo：做MR和家用机器人的隐性逻辑

世界机器人大会｜远东股份助力机器人产业实力出圈

普渡机器人发布3D感知AI扫地机器人PUDU MT1 Max，重塑智能清洁新高度

“与智同行，共启新元”智元机器人首届合作伙伴大会暨 “IT老友会走进智元机器人”系列活动圆满举办

国内首款模块化四足机器人-Apollo 从“白犀”吉尼斯纪录走来，引领行业进入“定制化时代”

元萝卜联动疯狂动物城发布下棋机器人重磅新品，让孩子更聪明、更坚韧、更乐观

智能“机器狗”亮相广博会视源股份四足机器人提供展会、赛事安保新思路

扫地机器人公司追觅官宣造车：预计2027年亮相

智元四足机器人 D1 系列重磅发布，同步上线智元商城开售

周鸿祎与机器人PK球技：带球突破被机器人抢断

今日大家都在搜的词：

热文

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

华为MatePad Mini外观公布支持蜂窝网络通话功能

特斯拉Model 3长续航后轮驱动版降价1万元售价25.95万起

小米汽车8月交付量超3万台全年交付量有望冲击42万

小鹏汽车：8月共交付新车37709台单月交付量创历史新高

零跑汽车8月交付57066台增长超88%

苹果上架翻新版Apple Pencil Pro售价849元

苹果首款折叠iPhone或不会采用屏下指纹将于明年发布

华为MatePad Mini官宣9月4日发布

2025民营企业500强揭晓：京东第一

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

小米澎湃OS3发布会官宣首批Beta版招募机型公布

今日七夕节微信 520 元大额红包限时上线

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯

realme真我15000mAh电池容量手机亮相

华为三折叠屏手机Mate XTs非凡大师上架开启预约

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

站长商机

LLM不靠谱！​​研究：AI聊天机器人提供了错误的癌症治疗建议

今日大家都在搜的词：

热文

站长商机

LLM不靠谱！研究：AI聊天机器人提供了错误的癌症治疗建议