首页 > 业界 > 关键词  > GPT-4最新资讯  > 正文

GPT-4在医学问题上击败了专业调优的 MedPaLM 2 模型

2023-12-04 11:03 · 稿源:站长之家

站长之家(ChinaZ.com) 12月4日 消息:在研究中,微软的研究人员展示了GPT-4在医学知识测试中的卓越表现,特别是当结合先进的提示工程技术时,其性能超过了专业调整的MedPaLM2。

研究结果显示,相较于费时费力的调优和模型训练,将更有效的提示工程应用于主流通用模型可能是实现更准确结果的更好途径。

image.png

Medprompt方法采用了多种提示工程技术,包括GPT-4生成的思维链推理和生成多个单独评分的回答,然后将最高分的答案返回给用户。尽管这种方法会增加推理的成本,因为生成了更多的标记,但结果表明,将领先的通用模型(如GPT-4)与高级提示工程技术相结合,以评估最新性能的标准,可能是值得考虑的。

研究人员使用MultiMedQA数据集进行了一系列测试,包括MedQA、MedMCQA、PubMedQA和MMLU等。虽然测试仍然是多项选择答案,但研究强调,这些结果可能在真实世界的自由文本回答中有所不同。Medprompt方法结合了从零到5个提示技术,展现出了强大的性能。

值得注意的是,研究强调GPT-4生成的思维链推理相对于专家手工制作的Med-PaLM2提示更为优越,因为它提供了更精细的逐步推理逻辑。然而,研究也指出,这一结论是特定于GPT-4的,而不适用于其他通用基础模型。

对于企业部署领域专业生成性AI解决方案的实际操作,研究建议在转向调优或定制模型训练之前,应考虑如何通过提示工程技术提高模型准确性。此外,高级提示工程技术,如模型生成的提示和集成评分,可能进一步改善调优或定制模型。

总的来说,研究的重要性在于发现通过提示工程技术可能实现与调优相媲美的性能,从而加速上市时间并降低成本。然而,研究也指出,企业选择使用通用基础模型还受到数据隐私、数据和应用程序安全性、成本和竞争优势等多方面因素的影响。

研究者强调,改进大语言模型输出的准确性是当前讨论的中心主题,而通过提示工程技术可能是最简单、成本最低的方法之一。

研究结果可能对领域定制模型的开发产生重大影响,因为如果通过更有效的提示工程技术可以获得相同或更好的性能,那么传统的调优方法可能会受到挑战。然而,选择使用通用基础模型仍然涉及到多方面的考虑,包括数据隐私、安全性、成本和竞争优势等因素。

举报

  • 相关推荐
  • WordPress 宣布组建 AI 团队

    作为全球最主流的网站构建平台之一,WordPress 的开源社区开发者早已在尝试使用各种 AI 工具。如今正式组建 AI 团队,标志着……

  • YouTube:2024年,我们为美国创造了 49 万岗位、550 亿美金GDP!

    YouTube 称他们的生态系统在 2024 年为美国创造 49 万个就业岗位、贡献 550 亿美元 GDP……

  • 7款AI大模型写高考作文,语文名师点评,豆包、GPT等斩获前三

    刚刚, 2025 年高考作文题目出炉,再次成为亿万网友关注的话题。越来越“聪明”的人工智能大模型写高考作文真题,会带给我们怎样的惊喜?阅卷老师又会给出怎样的分数呢?今年湖北高考语文采用全国一卷,作文题为根据给定的材料进行写作。根据阅卷老师的打分,豆包、通义千问、GPT-4o的作品斩获前三名。全国一卷阅读下面的材料,根据要求写作。( 60 分)他想要给孩子们唱

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • 理想汽车OTA7.4正式推送!自研MindGPT-4o-preview模型首次上车

    理想汽车5月28日发布OTA 7.4版本升级,主要亮点包括:1)首次搭载自研MindGPT-4o大模型,智能助手"理想同学"升级为3D毛绒形象,新增双手交互动作,语音交互更自然生动;2)新增"小同桌"多角色对话功能,支持连续聊天和情商引导;3)升级为生活助手Agent,能自主操作车机完成复杂任务,支持支付宝小程序操作;4)新增家庭账号系统、面容识别和对话历史功能;5)影音体验优化,支持前后排独立音区;6)推出儿童节专属"小主人"模式,新增斑马百科应用;7)新增超充站降锁、冰箱定时开关等实用功能;8)优化L6车型CDC悬架系统,提升操控性。

  • 如何用 DeepSeek 撰写专业催款邮件

    本文介绍如何利用DeepSeek AI工具快速生成专业得体的商务催款邮件。教程包含:1.登录DeepSeek平台;2.输入具体指令(如模拟金牌销售身份,要求邮件内容专业且不失礼貌,需提及合同条款、逾期15天情况,结尾暗示法律手段,控制字数);3.获取生成内容后检查合同条款覆盖度、逾期情况说明及语言风格;4.按需修改润色。该工具能高效生成符合商务沟通需求的催款邮件,网址:

  • 研祥金码破解DPM码识读困境,百万次0漏读!

    DPM码作为永久性二维码,凭借防伪特性和物理耐久性成为智能制造与供应链管理的核心技术。Regem Marr研祥金码推出DPM码读取解决方案,应对三大挑战:低对比度识别、多深度兼容和抗干扰能力。其R-6000系列读码器搭载自研AI解码算法,通过百万级样本训练模型,具备抗污损、划痕干扰能力,已完成9种常用条码测试。该方案显著提升效率:参数匹配耗时缩短87%,15天稳定性测试零漏读;在脏污、划痕样品测试中实现零错读,累计读取超100万次无漏读。

  • GPTBots 迎来增强版 DeepSeek-R1-0528 模型

    GPTBots.ai平台宣布集成深度求索(DeepSeek)最新开源模型DeepSeek-R1-0528,该模型在推理能力上媲美OpenAI和Google的顶级模型,性能显著提升:数学竞赛准确率从70%提升至87.5%,编程性能从63.5%提升至73.3%。该模型支持JSON输出与函数调用,可无缝嵌入企业工作流,同时推出轻量级版本DeepSeek-R1-0528-Qwen3-8B,仅需16GB GPU内存即可运行。此次集成将强化GPTBots为企业提供金融、医疗、教育等领域的AI解决方案能力,助力企业构建定制化AI应用。平台秉持开源理念,采用MIT许可协议,支持商业使用与定制开发。

  • 中航未来丨2024级空中乘务专业·职业形象比赛圆满举行

    近日,中航未来&滁州城市职业学院·管理与信息学院,“ 2024 级空中乘务专业职业形象活动比赛”,成功举办。此次活动以“精技砺能 仪展芳华”为主题。参加比赛的 24 级空乘专业学生,经过严格考核, 8 名学子凭借卓越的职业素养与专业技能脱颖而出。空乘职业形象比赛聚焦空乘职业形象的核心要素,从妆容、发型、仪容仪表到服装搭配,全方位考核学生的专业素养。男生

  • Anthropic 发布 Claude 4 系列 AI 模型,有啥重大突破?

    Anthropic 表示,这两款 AI 模型在多个行业基准测试中表现出色,是目前业内最强的模型之一……