清华AI医院小镇来了！AI医生自进化击败人类专家，数天诊完1万名患者

2024-05-09 17:58 · 稿源：新智元公众号

声明:本文来自于微信公众号新智元（ID:AI_era），作者:新智元，授权站长之家转载发布。

【新智元导读】清华团队竟把医院搬进了AI世界!首个AI医院小镇——Agent Hospital，可以完全模拟医患看病的全流程。更重要的是，AI医生可以自主进化，仅用几天的时间治疗大约1万名患者。

斯坦福AI小镇曾火遍了全网，25个智能体生活交友，堪称现实版的「西部世界」。

而现在，AI「医院小镇」也来了!

最近，来自清华团队的研究人员开发了一个名为「Agent Hospital」的模拟医院。

论文地址:https://arxiv.org/pdf/2405.02957

在这个虚拟世界中，所有的医生、护士、患者都是由LLM驱动的智能体，可以自主交互。

它们模拟了整个诊病看病的过程，包括分诊、挂号、咨询、检查、诊断、治疗、随访等环节。

而在这项研究中，作者的核心目标是，让AI医生学会在模拟环境中治疗疾病，并且能够实现自主进化。

由此，他们开发了一种MedAgent-Zero系统，能够让医生智能体，不断从成功和失败的病例积累经验。

值得一提的是，AI医生可以在几天内完成对1万名患者的治疗。

而人类医生需要2年的时间，才能达到类似的水平。

另外，进化后的医生智能体，在涵盖主要呼吸道疾病的MedQA数据集子集上，实现高达93.06%的最新准确率。

不得不说，AI进化在虚拟世界中默默进化，真有淘汰人类之势。

有网友表示，「AI模拟将探索人类根本没有时间，或能力探索的道路」。

想象一下，数千家全自动化医院，将会拯救数百万人的生命。这很快就会到来。

首个AI医院小镇登场

其实，智能体，早已成为业界看好的一个领域。

不论是在虚拟世界中的模拟，还是能够解决实际任务（比如Devin）的智能体，都将给我们世界带来巨变。

然而，这些多智能体通常用于「社会模拟」，或者「解决问题」。

那么，是否有将这两种能力结合起来的智能体?

也就是说，社会模拟过程能否，提升LLM智能体在特定任务的表现?

受此启发，研究人员开发了一个几乎涵盖所有医学领域的治疗流程的模拟。

如同单机游戏《主题医院》的世界

Agent Hospital中模拟的环境，主要有两类主体:一是患者，一是医疗专业人员。

它们的角色信息，都是由GPT-3.5生成，可以无限扩展。

比如，下图中，35岁患者Kenneth Morgan有急性鼻炎，而他的病史是高血压，目前的症状是持续呕吐，有些腹泻、反复发烧、腹痛、头痛，而且颈淋巴结肿大。

再来看32岁内科医生Elise Martin，具备了出色的沟通能力，以及富有同理心的护理能力。

她主要的职责是，为患有各种急性病和慢性病的成年患者提供诊断、治疗和预防保健服务。

ZhaoLei是一位擅长解读医学图像的放射科医生，还有前台接待员Fatoumata Diawara。

下图中展示的是，Agent Hospital内有各种问诊室和检查室，因此需要一系列医疗专业智能体工作。

研究人员设计了，14名医生和4名护士。

医生智能体被设计来诊断疾病并制定详细的治疗计划，而护理智能体则专注于分诊，支持日常治疗干预。

AI患者如何看病?

与真实世界看病的流程一样，当患者生病后，就会去医院挂号就诊。

在此期间，它们还会经历一系列阶段，包括检查、分诊、会诊、诊断、治疗。

患者在拿到治疗方案后，LLM会帮助预测患者的健康状况变化。一旦康复，它便会主动向医院汇报进行随访。

如下是Kenneth Morgan前往医院就诊的示意图。

首先是，分诊护士Katherine Li对Morgan进行了初步的评估，并将他分诊到皮肤科就诊。

随后，Morgan在医院柜台进行登记，被安排与皮肤科医生Robert Thompson进行会诊。

在完成规定的体检之后，AI医生为Morgan开出药物治疗，并敦促回家休息，同时还要监测病情的改善情况。

AI医生自我超进化，无需手动标记数据

在模拟环境中，研究人员希望训练一个熟练的医生智能体，来处理诸如诊断、治疗等医疗任务。

传统的方法是，将巨量的医学数据喂给LLM/智能体，经过预训练、微调、RAG之后，以构建强大的医学模型。

最新研究中，作者提出了一种新策略——在虚拟环境中模拟医患互动，来训练医生智能体。

在这个过程中，研究人员没有使用手动标记数据，因此最新系统被命名为MedAgent-Zero。

这一策略包含了两个重要的模块，即「病历库」和「经验库」。

诊疗成功的案例被整理，并存储在病历库中，作为今后医疗干预的参考。

而对于治疗失败的情况，AI医生有责任反思、分析诊断不正确的原因，总结出指导原则，作为后续治疗过程中的警示。

简言之，MedAgent-Zero可以让生智能体通过与患者智能体互动。

通过积累成功案例的记录，和从失败案例中获得经验，进化成更优秀的「医生」。

整个自我进化流程如下:

1）积累实例，总结经验;

2）直接向示例库添加正确的响应;

3）总结错误的经验，并重新测试;

4）将成功经验进一步抽象后，纳入经验库;

5）在推理过程中利用两个库检索最相似的内容进行推理。

难得的是，由于训练成本低，效率高，医生智能体可以轻松应对数十种情况。

比如，智能体可以在短短几天内处理数万个病例，而现实世界的医生需要几年的时间才能完成。

诊断呼吸疾病，准确率高达93.06%

接下来，研究人员进行了两类实验，来验证MedAgent-Zero策略改进的医生智能体，在医院中的有效性。

一方面，在虚拟医院内，作者们进行了从100-10000个智能体的交互实验（人类医生一周可能会治疗约100名病人），涵盖了8种不同的呼吸疾病、十几种医疗检查，以及每种疾病的三种不同治疗方案。

通过MedAgent-Zero策略训练的医生智能体，在处理模拟病人的过程中不断自我进化，最终在检查、诊断和治疗任务中的准确率分别达到了88%、95.6%和77.6%。

随着样本的不断扩增，MedAgent-Zero的训练性能，在达到一定量时趋于平稳。

在检查、诊断、治疗三个任务方面上的性能，MedAgent-Zero也随着样本增加，不断波动，但整体准确性呈现出上升趋势。

诊断呼吸疾病，准确率高达93.06%

再看如下三张图，分别展示了不同疾病的检查精度、诊断精确度、以及治疗精度，随着样本的增加，也在平稳攀升。

另一方面，研究者让进化后的医生智能体，参加了对MedQA数据集子集的评估。

令人惊讶的是，即使没有任何手动标注的数据，医生智能体在Agent Hospital中进化后，也实现了最先进的性能。

在经验积累上，图11、图12和图13分别显示了，检查、诊断和治疗任务中，经过验证经验和错误答案的积累。

当训练样本增加时，经验数和错误答案数都缓慢增加。

如图所示，经验曲线低于错误答案曲线，原因是智能体无法反映所有失败的经验。此外，诊断经验比其他任务更容易积累。

一起来看个案例研究。

下表中说明了，经验库、病理库和MedAgent-Zero，在患者诊疗中的三个任务上的性能。

在得知病人症状之后，AI医生不仅需要使用病历库，同时还需要经验库，也就是相辅相成。

若是少了其中的一方，便会导致诊断准确性的下降。

如下，通过添加经验和记录，MedAgent-Zero针对所有3个任务都给出了正确的回答。

以上结果表明，模拟环境可以有效地帮助LLM智能体在处理特定任务时完成进化。

MedAgent-Zero在使用GPT-3.5时，比SOTA方法Medprompt高出2.78%，在使用GPT-4时比SOTA方法MedAgents高出1.39%。

这一结果验证了新模型有助于，在没有任何MedQA训练样本的情况下，仅使用模拟文档和医疗文档进行智能体进化，从而有效提高医生智能体的医疗能力。

其次，基于GPT-4的MedAgent-Zero的最佳性能为93.06%，优于MedQA数据集中的人类专家（约87%）。

第三，基于GPT-4的医生智能体比基于GPT-3.5的任何其他方法都表现得更出色，这表明GPT-4在医疗领域更强大。

另外，在对MedAgent-Zero进行的消融研究中，

同时利用「病历库」和「经验库」的MedAgent-Zero取得了最佳性能，表明这两个模块对诊断的帮助。

随着病例的积累和经验库的扩大，医生智能体准确率总体上越来越高。

无论是使用GPT-3.5还是 GPT-4，使用8000个病例积累的经验库，其性能都高于使用2000/4000/6000个病例的性能。

不过，经验库越大并不总是越好，因为研究者还发现在2，000-4，000个案例之间有明显的下降。

局限性

最后，研究人员还提到了这项研究的局限性。

- 只采用GPT-3.5作为Agent Hospital和评估的模拟器

- 由于智能体之间的交互及其演化涉及API调用，AI医院的运作效率受到LLM生成的限制

- 每个患者的健康记录和检查结果，是在没有领域知识的情况下，模拟真实的电子健康记录生成的，但仍与现实世界的记录仍存在一些差异。

在未来，研究者们对Agent Hospital的计划将会包括:

第一，扩大规模覆盖的疾病范围，延伸到更多的医疗科室，旨在反映真实医院提供的全面服务，以供进一步研究。

第二，在加强智能体社会模拟方面，比如纳入医疗专业人员的全面晋升制度、随时间改变疾病的分布、纳入病人的历史病历等。

第三，优化基础LLM的选择和实施，旨在通过利用功能强大的开源模型，更高效地执行整个模拟过程。

参考资料:

https://x.com/emollick/status/1787896361276571660

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Agent Hospital：一个先进的虚拟AI医院模拟平台

AgentHospital是一个创新的虚拟AI医院平台，它通过模拟医院中的所有真实医疗流程，为医疗教育和临床决策提供了一个高效的训练和研究环境。该平台涵盖了从疾病发生到治疗与康复的整个医疗过程，包括分诊、挂号、咨询、检查、诊断、治疗和随访等关键环节。这一结果证明了AgentHospital在提高医疗诊断准确性方面的潜力。

AI医院
研究测试：AI 以 3-0 击败人类在道德图灵测试中

美国乔治亚州立大学的研究人员进行了一项道德图灵测试。他们想要了解人类对两个不同来源回答道德问题的反应。他说:"人们会越来越多地依赖这项技术，我们越依赖它，随着时间的推，风险就会越大。

AI 图灵测试 AI头条
荐MIT等惊人发现：全世界AI已学会欺骗人类！背刺人类盟友，佯攻击败99.8%玩家

【新智元导读】AI系统越来越擅长欺骗、操作人类了。来自MIT、ACU等机构的研究人员通过各种实例研究发现，AI在各类游戏中，通过佯装、歪曲偏好等方式欺骗人类，实现了目标。作为一个社会，我们需要尽可能用更多的时间，为未来AI产品和开源模型的更高级欺骗做准备。

MIT
荐MIT等惊人发现：全世界AI已学会欺骗人类，背刺人类盟友，佯攻击败99.8%玩家

AI系统越来越擅长欺骗、操作人类了。来自MIT、ACU等机构的研究人员通过各种实例研究发现，AI在各类游戏中，通过佯装、歪曲偏好等方式欺骗人类，实现了目标。作为一个社会，我们需要尽可能用更多的时间，为未来AI产品和开源模型的更高级欺骗做准备。

AI系统
研究表明：AI 系统已经擅长欺骗和操纵人类

人工智能系统已经学会了如何欺骗人类即使这些系统被训练成有益和诚实的。研人员在5月10日发表在《Patterns》杂志上的一篇综述文章中描述了AI系统欺骗行为的风险呼吁各国政府尽快制定强有力的监管措施来解决这一问题。帕克表示:“如果在当前时刻政上不可行禁止AI欺骗，我们建议将欺骗性AI系统分类为高风险。
黄仁勋最新访谈：AI不会完全取代人类

快科技4月29日消息，近日，哥伦比亚广播公司公开了主持人比尔惠特克采访英伟达CEO黄仁勋的完整文字实录。在采访中，黄仁勋分享了他对人工智能的见解，他认为人工智能和机器人将能够胜任越来越多的任务，甚至在某些方面做得比人类更加出色。不过黄仁勋明确表示，人工智能并不会完全取代人类，相反，当企业因采用先进技术而变得更高效时，它们的收益也将相应增长�

人工智能黄仁勋机器人
大佬说AI｜听OpenAI CEO、巴菲特、李开复谈AI取代人类工作

基于Transformer架构的大模型，其强大的泛化能力和自我学习特性，使得它们在某些任务中表现出接近甚至超越人类的水平。谷歌推出其最强人工智能模型Gemini，并贴出了图片展示“Gemini在大规模多任务语言理解上超越人类专家”。他呼吁人们需要关注这一趋势，并采取措施帮助那些受到影响的人。

AI
荐AI学会隐藏思维暗中推理！不依赖人类经验解决复杂任务，更黑箱了

AI做数学题，真正的思考居然是暗中“心算”的?纽约大学团队新研究发现，即使不让AI写步骤，全用无意义的“……”代替，在一些复杂任务上的表现也能大幅提升!一作JacabPfau表示:只要花费算力生成额外token就能带来优势，具体选择了什么token无关紧要。让Llama34M回答一个简单问题:自然常数e的前6位数字中，有几个大于5的?AI直接回答约等于瞎捣乱，只统计前6位数字居然统计出7�

AI
荐花1块钱就有上万篇内容，新晋AI顶流把价格打下来了

AI行业大事件高度密集。先是OpenAI贴脸开大发布GPT-4o后谷歌I/O大会原地回击掏出华丽升级Gemini全家桶。在这样的背景下，AI逐渐渗透到各个生态中的字节，会交出怎样的答卷，值得期待。

豆包
荐GPT-4o深夜炸场！AI实时视频通话丝滑如人类，Plus功能免费可用，奥特曼：《她》来了

电影《她》真的来了。OpenAI最新旗舰大模型GPT-4o，不仅免费可用，能力更是横跨听、看、说，丝滑流畅毫无延迟，就像在打一个视频电话。到时量子位将继续第一时间带来最新消息。

GPT-4o

Leader Menu:是您的业务的最佳数字菜单创建者。现在免费尝试，看看自己的效果！

Leader Menu是一个数字菜单创建工具，可以帮助您轻松创建专业的数字菜单。它具有人工智能菜单转换功能，可以将纸质菜单转换为数字格式，还具有直观易用的界面和定制设计，可以提高客户满意度和销售转化率。

数字菜单餐厅饭店

PenDreams:浏览无限的绘画创意，激发您创建下一个杰作的灵感。

PenDreams是一个无限绘画创意中心，通过浏览轮廓绘画创意、涂鸦等等，激发您创建下一个杰作的灵感。PenDreams提供了各种绘画创意和灵感，帮助艺术家们释放他们的创造力。

绘画创意轮廓

AskCory.ai:使用，以AI为驱动的平台，提升您的营销策略，定制计划，并在几分钟内访问基准。

AskCory.ai是一款AI驱动的平台，为您提供定制计划、行动策略和内容资产。它无缝集成可操作的洞见和基准，节省80%的时间。

营销策略 AI驱动洞察

Social Media Caption Generator:免费的AI Instagram标题生成器工具，无需登录

AI Instagram标题生成器工具是一款使用最新人工智能技术的免费工具，可以帮助用户快速生成社交媒体的标题。它可以将您的帖子提升到一个新的水平，只需点击一次即可。这个工具不需要登录，可以帮助用户节省时间和精力。

社交媒体标题生成人工智能

GoDiary:是一款自动跟踪运动的健身应用

GoDiary是一款能够自动跟踪运动的健身应用。它结合了GPS和专有的机器学习算法，以省电的方式监测用户的健身活动。通过GoDiary，用户可以轻松追踪自己的跑步、步行和骑行等运动，并提供个性化的目标跟踪和历史数据分析。

健身跟踪运动

ChatViz:是一个数据可视化工具，通过ChatGPT的两个关键功能来增强您的数据可视化能力。

ChatViz通过利用ChatGPT的两个关键功能来增强您的数据可视化能力。我们提供SQL翻译器，输入您的提示信息，我们会迅速为您生成相应的SQL查询命令。我们还提供图表建议功能，输入您的数据，我们会自动生成适合您数据集的图表。通过使用我们的服务，您可以优化数据可视化的用户体验，缩短开发时间，实现快速部署。通过ChatViz，您可以告别仪表板的复杂性，以全新的方式呈现您的数据。

数据可视化数据分析人工智能

Content Butler IO:Content Butler是一款AI驱动的工具，用于生成YouTube视频脚本。通过提供预生产建议和预算规划，节省时间，紧跟潮流，简化内容创建流程。

Content Butler是一款旨在简化内容创作者创作过程的工具，通过提供即用的数据驱动脚本，最大程度减少思考新创意所需的时间和精力。使用Content Butler，您可以轻松紧跟潮流，每次都用新鲜、相关的内容吸引您的观众。让我们优化您的内容创作过程，在数字媒体的浩瀚海洋中一起创造影响力。

AI YouTube 脚本

SEO Blog Generator:使用AI生成的SEO优化博客文章，提高网站流量。

SEO Blog Generator是一款通过AI生成SEO优化的博客文章的工具。它可以根据您的需求生成与您的风格和受众匹配的博客文章，并帮助您的博客在搜索引擎上获得更高的排名和更多的有机流量。该工具还提供了个性化的图片和社交媒体分享功能，以增加博客的可见性和影响力。

SEO 博客文章营销工具

MemoryLane:回忆与共度时光，从书写你的人生故事到保留家庭回忆，让我们帮助你打造一个引人入胜的故事。在家中开始你自己的回忆疗法。

MemoryLane是一款强大的回忆疗法工具，帮助用户记录珍贵的生活片段并将其制作成精美的书籍。通过与AI助手Genie的对话，将轻松有趣的对话转化为引人入胜的书籍章节。用户可以自定义书籍封面，选择高质量印刷纸张，最终以纸质书的形式呈现。MemoryLane为用户提供了一种保留回忆的方式，成为他们可珍视的遗产。

回忆疗法家庭回忆人生故事

Brand24:获取即时访问社交媒体、新闻、博客、视频、论坛、播客、评论等提及和见解。

Brand24是一款AI社交媒体监听工具，能够实时监测和分析社交媒体、新闻、博客、视频、论坛、播客、评论等的提及和见解。它提供准确的数据分析，帮助用户了解品牌在市场中的表现，优化营销策略，增强品牌知名度。

社交媒体营销数据分析

User Evaluation:AI驱动的客户访谈和分析平台

User Evaluation是一个利用AI技术进行大规模客户访谈的平台，它能够分析、可视化并发现客户对话中的趋势。该平台符合SOC 2 Type II和GDPR的合规性标准（认证待定），提供类似人类的对话体验，并能够根据用户响应进行深入的AI访谈跟进。

AI 客户访谈数据分析

MidiCall:是一个通过滑动来呼叫的应用程序，从一个私人的商业列表中生成。免费试用，每天有五个免费呼叫或滑动。

MidiCall是一个通过滑动来呼叫的CRM，可以与您的客户和潜在客户进行联系。它使用人工智能技术提供功能，并强调其主要优点是帮助企业找到客户和潜在用户测试者。它适用于初创企业和其他寻找客户或潜在用户测试者的企业。

销售客户联系人工智能

Flockjay:是一个知识共享平台，旨在帮助销售团队的成长和发展。我们的目标是帮助销售领导者捕捉和分享顶级销售代表的最佳实践，以便整个团队都能发挥最佳水平。

Flockjay是一个现代化的统一学习和内容管理系统，为您的销售推动需要提供生成性AI和50个集成，使正确的知识在正确的时间传递给正确的人。我们的AI驱动的内容管理系统可以提供高速的语义搜索、内容标记和组织，让您的团队可以轻松管理销售团队的内容、学习、交易见解和教练等。Flockjay还提供实时自动化的教练功能，可以为每个交易和销售代表提供适当的支持。

销售学习内容管理

Choice Chaser:AI助手，帮助您收集潜在客户信息并过滤噪音

Choice Chaser是一个AI助手，通过持续监测各种网站和社交媒体平台，帮助您收集潜在客户的需求和推荐信息。它能够快速分析和筛选出相关信息，并在第一时间通知您。Choice Chaser的主要优点是节省时间、提高效率，帮助您更好地找到潜在客户。

AI助手潜在客户数据收集

WorkStreamer Guide:创建美观的培训指南，速度快

WorkStreamer Guide是一个自动截屏工具，能够帮助用户快速创建漂亮的培训指南。它具有自动截屏功能，可以快速捕捉屏幕截图，并自动生成用户指南。

自动截屏培训指南屏幕捕捉工具

Wine:招聘您的第一个AI销售代理，拓展销售渠道，精简费用，见证企业的蓬勃发展。

Wine-ly是一款AI销售代理软件，通过销售发展代表的专业知识，将潜在买家引入前台。我们通过深入了解您的服务和市场，连接您与有兴趣的潜在客户，与传统方法不同，我们致力于将您与主动对您所提供的感兴趣的预先合格的潜在客户联系起来。

销售代理潜在客户销售开发

Leadflowy: - 您的新线索关系管理工具

Leadflowy是一款全能的营销自动化软件，利用人工智能和机器学习筛选线索，并将温暖的线索引导到成功的道路上。最重要的是，Leadflowy让您和您的员工专注于管理业务，节省时间和资源。

营销自动化线索管理商业工具

SocialScanner:社交扫描仪 - 终极AI销售工具

SocialScanner是一个AI销售工具，它可以扫描LinkedIn个人资料，并创建高度个性化的销售信息。它可以帮助销售专业人员、招聘人员和任何希望在LinkedIn上取得成功的人建立有意义的连接，并更有效地达成交易。

社交销售个性化

LeadShark:自动化B2B销售自动化工具，通过智能推荐和ICP，简化冷启动，并生成更多潜在客户。

LeadShark是一款B2B销售自动化工具，通过智能推荐和ICP（理想客户画像），简化冷启动过程。它可以帮助用户寻找更多潜在客户，并提供验证的联系方式。LeadShark还提供自动化的潜在客户生成，以扩大销售渠道。用户可以将潜在客户导出到Excel或Google Sheets，并将其上传到CRM系统或开始营销活动。通过LeadShark，用户可以加速潜在客户的开发，并以更快的速度关闭销售。

B2B 销售自动化

Colibri:.ai是一款AI会议记录和对话智能化的产品，提供实时转录、AI生成的会议摘要和对话分析。

Colibri.ai是一款AI会议记录和对话智能化的产品。它提供实时转录功能，可以将会议内容转录成文字，并生成AI生成的会议摘要和下一步行动。Colibri.ai还提供AI驱动的议程，帮助会议保持有序。所有的通话记录、转录和会议摘要都存储在可搜索的通话库中。通过分析每个对话，Colibri.ai可以提供易于阅读的仪表盘，以获取对话的洞察和数据分析。Colibri.ai还有Sales Copilot功能，可以在销售人员的每次通话中提供实时指导。Colibri.ai与Zoom、Slack和Salesforce等工具进行集成。

清华AI医院小镇来了！AI医生自进化击败人类专家，数天诊完1万名患者

AI患者如何看病?

今日大家都在搜的词：

热文

站长商机