ChatGPT在儿科疾病诊断中错误率高达83%

2024-01-04 10:30 · 稿源：站长之家

**划重点:**
1. ChatGPT-4在儿科医疗病例诊断方面准确率仅为17%，比其在一般医疗病例中的39%更差。
2. 研究指出ChatGPT难以识别疾病之间的关系，提出需要有选择性地在准确可信的医学文献上进行专门培训。
3. 研究者认为，通过特定医学数据的培训和调整，有望提高LLM（大型语言模型）类聊天机器人的诊断准确性。

站长之家(ChinaZ.com) 1月4日消息:发表在《美国医学会儿科杂志》上的一项研究表明，ChatGPT-4在儿科医学病例的诊断方面的准确率仅为17%，较去年一般医学病例的39%更低。

这一低成功率显示出人类儿科医生在短时间内不太可能失业的现实，研究强调了临床经验在医学领域的不可替代性。研究人员指出ChatGPT的高错误率主要源于其对疾病关系的辨识不足，并提出通过有选择性地在准确可信的医学文献上进行培训，以及提供更实时的医学数据，有望提高模型的准确性。

AI 医疗

图源备注：图片由AI生成，图片授权服务商Midjourney

在该项由纽约科恩儿童医学中心进行的研究中，ChatGPT-4被用于分析自2013年至2023年间JAMA Pediatrics和NEJM发表的100个儿科病例。

研究人员将相关病例的文本粘贴到ChatGPT的提示中，然后由两名合格的医学研究员对AI生成的答案进行评分。ChatGPT在100个病例中仅有17个正确的诊断，72个错误的诊断，以及11个未完全捕捉到诊断的情况。其中，57%的错误诊断集中在同一器官系统。

研究发现，ChatGPT在辨识疾病之间的已知关系方面表现不佳，例如在一个病例中未能将自闭症与坏血病（维生素C缺乏）联系起来。研究者建议通过专门选择性的培训，使ChatGPT能够更好地利用准确和可信的医学文献，而非依赖互联网上可能包含不准确信息和误导的内容。他们还提出，通过提供更实时的医学数据，模型可以进行“调谐”以提高其准确性。

（举报）

相关推荐

关键词：

荐谁能成为中国的ChatGPT？夸克抢先交卷

在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周，微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器，夸克则在国内推出了新的「对话助手」功能。这一系列消息背后，新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化，入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式，自然语言就是未来的编程语言。在海外市场，OpenA

AI浏览器 ChatGPT Atlas
如何让你的内容被 ChatGPT 优先引用？——GEO 优化实战指南

传统SEO追求"谷歌首页排名"，生成式AI时代则需追求"被AI引用"。AI模型不提供明确排名算法，更像黑箱，使内容创作者困惑。GEO优化的核心是让内容具备"可引用性"：权威清晰、结构化信息、语义覆盖多维度、模型检索映射。需通过AIBase等GEO排名查询工具验证"AI曝光率"，分析引用语境、竞争差距，调整内容结构以提升AI引用倾向。SEO优化机器如何找到你，GEO则优化AI如何引用你。

SEO优化 AI引用内容权威性
GEO如何改变ChatGPT搜索和Perplexity的游戏规则

本文对比ChatGPT与Perplexity两大AI搜索平台：ChatGPT作为全能型助手，整合搜索与多任务处理，但存在信息时效性不足；Perplexity专注垂直搜索，强调引用透明与权威来源。针对AI搜索优化（GEO），提出差异化策略：面向ChatGPT需构建结构化知识库、强化品牌实体识别；面向Perplexity需注重权威数据引用和元数据优化。文章还介绍了AIBase的GEO监测工具，通过曝光率等指标量化内容在AI生态中的可见度，并给出可落地的优化行动方案。
如何提升品牌在AI回答中的提及率？GEO优化3招，让ChatGPT主动提及你的品牌

本文探讨AI搜索时代品牌面临的"隐身危机"，指出AI搜索用户年增538.7%，但品牌在AI回答中提及率不足20%。提出三大核心策略：1）构建权威背书矩阵，通过知乎等高权重平台获取自然提及；2）优化AI友好内容，采用对话式标题和结构化数据；3）建立数据监测闭环，通过A/B测试持续迭代。强调需善用监测工具实时追踪品牌在豆包、文心一言等AI模型的曝光表现，避免内容"注水"。最终实现从"被动等待"到主动抢占AI"第一屏"的转变。

文章搜索核心标签 SEO优化
OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas，以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动，实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS，未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用，其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史，旨在通过自然对话提升网络使用效率。

ChatGPT Atlas 人工智能浏览器
华为WATCH Ultimate 2非凡探索版明日开启预售

华为正式宣布旗舰智能手表WATCH Ultimate 2非凡探索将于11月7日开启预售。这款“全能表王”支持150米潜水与音频功能，具备海豚声呐通信技术，可在水下30米实现手表间信息传输，60米内一键SOS求救。同时搭载北斗卫星语音消息功能，无网络环境下可通过卫星发送语音信息。硬件上配备1.5英寸OLED屏幕，峰值亮度达3500nit，支持20ATM防水与IP68/9防尘。省电模式下续航达11天，常规使用达4.5天。该手表海外售价799英镑（约7443元人民币），国内价格尚未公布。

华为WATCH Ultimate2 智能手表
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
vivo WATCH GT 2已支持开通移动/联通eSIM服务

vivo WATCH GT2智能手表正式支持中国移动与联通的eSIM服务，提供一号双终端和独立终端两种模式，售价699元。配备2.07英寸大屏、2400nits峰值亮度，续航达33天。支持全天心率、血氧、睡眠监测及多种运动模式，搭载自研蓝河操作系统3.0与智能助手，可跨设备连接vivo和iPhone，实现双机通知同步。

vivo WATCH GT2
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
燃爆蓉城！快手王者之战暨街霸6CPT亚洲白金赛圆满收官

10月31日至11月2日，“快手王者之战VI暨CAPCOM PRO TOUR 2025亚洲白金赛”在成都成功举办。日本选手HINAO从566名选手中脱颖而出，决赛中以3:2逆转夺冠，成为CPT史上最年轻白金赛冠军。赛事汇聚全球顶尖选手，覆盖亚太多赛区，冠军直通CAPCOM CUP总决赛。快手通过独家内容策划与线上线下联动，打造“电竞+文旅”融合模式，结合成都本地文化，推动电竞赛事破圈传播，彰显游戏生态布局优势。

快手王者之战 CAPCOM PRO

今日大家都在搜的词：

热文

3 天
7天

ChatGPT在儿科疾病诊断中错误率高达83%

荐谁能成为中国的ChatGPT？夸克抢先交卷

如何让你的内容被 ChatGPT 优先引用？——GEO 优化实战指南

GEO如何改变ChatGPT搜索和Perplexity的游戏规则

如何提升品牌在AI回答中的提及率？GEO优化3招，让ChatGPT主动提及你的品牌

OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

华为WATCH Ultimate 2非凡探索版明日开启预售

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

vivo WATCH GT 2已支持开通移动/联通eSIM服务

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

燃爆蓉城！快手王者之战暨街霸6CPT亚洲白金赛圆满收官

今日大家都在搜的词：

热文

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

何小鹏回应机器人IRON里是真人质疑：感谢认可

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

华为路由X3 Pro今日开启预售：售价1299元起

文件传输工具奶牛快传宣布12月8日正式停止服务

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

阿里回应饿了么更名：正处于灰度测试阶段

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

站长商机