ChatGPT模型在神经学考试中表现出色，超越人类学生水平

2023-12-11 15:21 · 稿源：站长之家

### 划重点:
1. 🤖 ChatGPT大语言模型在神经学考试中表现出色，其中一款模型达到85%的准确率，超过人类神经学生平均水平。
2. 📚 通过评估两个ChatGPT大语言模型（LLMs）在美国精神病学和神经病学委员会题库的问题上的表现，研究人员发现，其中一个模型在考试中显著优于人类平均分(85%对73.8%)，成功通过通常难以通过的入学考试。
3. 🏥 近期计算能力的提升和“更智能”人工智能模型的发展使得这些深度学习算法在临床神经学中得到广泛应用，从神经学诊断到治疗和预后等方面都有潜力。

站长之家（ChinaZ.com）12月11日消息:近期发表在JAMA Network Open期刊的一项研究中，研究人员评估了两个ChatGPT大型语言模型（LLMs）在回答美国精神病学和神经学委员会问题库的问题时的表现。他们比较了这两个模型在低阶和高阶问题上的结果与人类神经学生的表现。研究发现，其中一个模型在问题纸上显著优于人类平均分数(85%对73.8%)，从而通过了通常难以通过的入学考试。这些发现突显了LLMs的最新进展，并展示了它们如何在进行轻微调整后，成为临床神经学应用的关键资源。

科幻机器人

图源备注:图片由AI生成，图片授权服务商Midjourney

随着计算能力的提升和"更智能"的AI模型的发展，机器学习（ML）和其他人工智能(AI)算法越来越多地被应用于以前仅限于人类的领域，包括医学、军事、教育和科学研究。最近，基于变压器的AI架构——在45TB或更多数据集上训练的AI算法——正在辅助甚至取代传统上由人类执行的角色，包括神经学。庞大的训练数据量，加上不断改进的代码，使这些模型能够呈现逻辑和准确的响应、建议和预测。ChatGPT平台上基于的两个主要算法目前已经开发——LLM1(ChatGPT版本3.5)和LLM2(ChatGPT4)。前者在计算上要求较低，数据处理速度更快，而后者在语境上更准确。

尽管非正式的证据有利于这些模型的实用性，但它们的性能和准确性在科学环境中很少得到测试。有限的现有证据来自对LLM1在美国医学许可考试（USMLE）和眼科学考试中表现的研究，而LLM2版本迄今尚未经过验证。

研究细节:

在这项研究中，研究人员旨在比较LLM1和2在类似委员会书面考试中与人类神经学生的表现。这项横断面研究符合流行病学观察研究加强（STROBE）指南，并将神经学委员会考试作为LLM1和2在高度技术性的人类医学考试中的表现的代理。研究使用了来自美国精神病学和神经学委员会(ABPN)问题库的问题。该库包含2，036个问题，其中80个由于基于视频或图像而被排除。LLM1和LLM2分别来自服务器包含的在线源(ChatGPT3.5和4)，并在2021年9月之前进行了训练。人类比较使用了以前版本的ABPN委员会入学考试的实际数据。

测试过程:

在评估过程中，预训练模型LLM1和2无法访问在线资源来验证或改进它们的答案。在模型测试之前，没有进行神经学特定的模型调整或微调。测试过程包括将模型提交给1，956个多项选择题，每个问题有一个正确答案，三到五个干扰项。根据学习和评估的布鲁姆分类法，所有问题被分类为低阶（基本理解和记忆）和高阶(应用、分析或评估思考为基础)的问题。

性能评估:

评估标准将70%或更高的得分视为考试的最低及格分数。通过50个独立查询测试模型的答案可再现性，这些查询旨在探究自洽性原则。

统计分析:

统计分析包括对模型性能和先前人类结果之间的单变量、顺序特定比较，使用卡方（χ2）检验(对于26个确定的问题子组进行Bonferroni校正)。

研究结果:

LLM2在所有测试组中表现最佳，获得了85.0%的分数（1956个问题中1662个回答正确）。相比之下，LLM1的分数为66.8%，人类平均为73.8%。模型在低阶问题中的表现最高(分别为1和2的模型分别为71.6%和88.5%)。

在这项研究中，研究人员评估了两个ChatGPT LLMs在神经学委员会考试中的表现。他们发现后期模型在低阶和高阶问题上显著优于前期模型和人类神经学生。尽管在记忆类问题方面表现更强大，但这些结果突显了这些模型在辅助甚至替代人类医学专家在非关键任务中的潜力。

值得注意的是，这些模型没有针对神经学目的进行调整，也没有允许它们访问不断更新的在线资源，这两者都可能进一步提高它们与人类创作者之间的性能差距。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
音乐ChatGPT时刻来临！「天工SkyMusic」音乐大模型今日启动邀测

4月2日，昆仑万维AI音乐生成大模型「天工SkyMusic」即日起面向社会开启免费邀测。昆仑万维已打造了集AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成、AI图片生成、AI漫画创作、AI图片识别、AI音乐生成、AI代码写作、AI表格生成等多项能力于一体的「天工3.0」多模态“超级模型”，成为AI行业全新里程碑。未申请邀测的用户也可在4月17日免费下载最新版“天工AI智能助手”APP，感受「天工3.0」与「SkyMusic」带来的颠覆性AI体验。

AI音乐生成大模型昆仑万维
荐今天起，ChatGPT无需注册就能用了！

OpenAI狠狠地open了一把:像这样，直接登录网站，然后就可以开启对话:OpenAI对发布这个“超自由版ChatGPT”的解释是:不过面对OpenAI突如其来的open，很多网友还是觉得难以置信:但OpenAI这一次，是真没开玩笑。超自由版ChatGPT对于这个“超自由版ChatGPT”，需要强调是开放的只有3.5版本，GPT-4的使用还是老方法。奥特曼交出基金控制权，可能就是加速主义的妥协，毕竟内讧事件中，加速

ChatGPT
Nothing 宣布其耳机将支持 ChatGPT

Nothing近日宣布，计划将ChatGPT与其智能手机和耳机更深度整合。此举将为公司的客户提供更快速的服务。该博客文章表示:“Nothing还将通过在NothingOS中嵌入系统级入口点到ChatGPT，包括截屏共享和Nothing风格的小部件，改善Nothing智能手机用户体验。

ChatGPT Nothing AI头条
OpenAI新GPT-4 Turbo模型上线：可供付费ChatGPT用户使用

OpenAI的全新GPT-4Turbo模型已全面上线，并正式向付费ChatGPT用户开放。GPT-4Turbo更新标志着人工智能领域的又一重要进步，为用户提供了更强大、更高效的文本处理、数学计算、逻辑推理以及编码能力。GPT-5预计将在今年夏季推出，有望在性能、功能和应用场景等方面实现更大的突破和创新。

OpenAI GPT-4 Turbo
荐ChatGPT火了以后，一个值钱的运营，需要具备的6个能力。

各位村民好，我是村长ChatGPT火了以后，大部分运营都要失业了，这是目前许多人悲观的态度。目前市面上出现了越来越多好用的工具，不仅覆盖场景广且功能还多。且越是中小公司，对于运营的综合能力要求更高。

ChatGPT 产品运营
OpenAI允许用户直接使用ChatGPT：无需注册账号

当地时间4月1日，知名人工智能公司OpenAI发布重要公告，宣布将允许用户无需注册即可直接使用ChatGPT，这一举措旨在让更多人能够轻松体验人工智能的魅力。值得注意的是，对于未注册的用户，某些高级功能如保存或分享聊天记录、使用个性化指令等将无法享受。这一举措既体现了OpenAI对于技术进步的追求，也充分尊重了用户的个人意愿和权益。

人工智能 OpenAI ChatGPT
ChatGPT首次亮相电视剧创作名单

印度泰卢固语喜剧《SavetheTigers》第二季大结局的片尾演职员表中，音乐团队部分明确标注列出了ChatGPT。这一现象引发了业界的广泛关注，因为这标志着人工智能技术在影视剧音乐制作领域的首次应用。随着人工智能技术的不断进步，其在影视行业的应用将越来越广泛，为创作者带来更多便利和灵感。

ChatGPT AI头条
重磅！OpenAI宣布无需注册即可使用ChatGPT

日前，OpenAI宣布放开限制，允许用户无需注册ChatGPT即可直接使用该服务，这将让人们更容易体验人工智能的潜力。OpenAI表示，将从周一开始逐步推出这一功能，让185个国家和地区的超1亿用户使用ChatGPT来学习新事物、寻找创意灵感，并获得问题答案。去年12月，中国工程院等单位发布2023全球十大工程成就，其中就包括ChatGPT，与中国空间站、百亿亿次超级计算机、鸿蒙操作系统等并列。

OpenAI ChatGPT 人工智能
ChatGPT 将提供动态模式Dynamic 可根据情况自动选择适合用户的模型

ChatGPT宣布将推出一项名为"Dynamic"的新功能。这个功能的特点是，当用户选择"Dynamic"选项后，系统将根据智能、能力和速度的综合情况，自动选择最适合用户要求的模型。我们期待这些新功能能够为用户带来更好的体验，同时也期待看到更多的创新和突破。

ChatGPT AI头条
有大学老师正用ChatGPT批改论文，让同学也这么做！

美国伊萨卡学院-战略传播学教授DianeGayeski，正在使用ChatGPT批改学生的论文。当Diane收到学生提交的论文时，会将部分内容输入到ChatGPT，然后让其进行评分并给出详细的修改建议。该学校的传媒学院位列全美前5名，致力于培养音乐、商业、传媒和体育等跨学科复合人才。

ChatGPT 学术论文批改

今日大家都在搜的词：

热文

3 天
7天

ChatGPT模型在神经学考试中表现出色，超越人类学生水平

今日大家都在搜的词：

热文

站长商机