首页 > 业界 > 关键词  > GPT-4最新资讯  > 正文

微软通过提示工程将GPT-4变成医学专家,准确率超90%

2023-12-04 14:18 · 稿源:站长之家

要点:

  • 微软通过「提示工程」将GPT-4成功转化为医学专家,使用最新提示策略Medprompt在医疗专业领域取得了超过90%的准确率,首次超越其他高度微调的模型。

  • Medprompt是一个多种提示策略的组合,包括动态少样本选择、自生成思维链和选项洗牌集成,使GPT-4能够在医学领域表现出色,并且该方法具有通用性,可推广到其他专业领域。

  • 在测试中,GPT-4结合Medprompt在MultiMed QA九个基准数据集中均取得最高分,平均准确率达到了91.3%。研究人员还进行了消融实验,发现自动生成思维链对性能提升的贡献最大

站长之家(ChinaZ.com)12月4日 消息:近期微软的研究成果展示了通过「提示工程」成功将GPT-4转化为医学专家的威力。在医学专业领域,GPT-4使用最新提示策略Medprompt在MultiMed QA九个测试集中取得了超过90%的准确率,首次超越其他高度微调的模型,如BioGPT和Med-PaLM。

Medprompt是一个由动态少样本选择、自生成思维链和选项洗牌集成等多种提示策略组成的综合体,使GPT-4能够在医学领域表现出色,同时也具有通用性,可以推广到电气工程、机器学习、法律等专业中。

image.png

论文地址:https://arxiv.org/pdf/2311.16452.pdf

其中,动态少样本选择利用训练数据作为少样本示例的来源,通过向量相似度从训练集中选择最相似的样本,避免了对模型参数进行大量更新。

自生成思维链通过要求GPT-4使用特定提示生成思维链,实现了逐步思考和推理,从而提高了模型的细粒度逻辑。选项洗牌集成解决了在选择题中可能存在的位置偏差问题,通过打乱选项顺序并进行多轮预测,最终选择最一致、正确的选项。

在测试中,GPT-4结合Medprompt在MultiMed QA九个基准数据集中表现出色,优于其他微调方法。消融实验进一步验证了Medprompt各组件对整体性能的贡献,其中自动生成思维链步骤对性能提升的贡献最大

此外,研究人员还探索了Medprompt的跨域泛化能力,发现其在不同领域的数据集上同样取得了显著的提升。这一研究成果引发了广泛关注,被认为是一项能够改变行业的技术。目前我们仍未触及提示的极限,也未达到微调的极限,为未来研究和发展提供了更多的探索空间。

举报

  • 相关推荐
  • 重磅!OpenAI确定GPT-4退役日期:4月30日

    快科技4月14日消息,据报道,OpenAI宣布,自2025年4月30日起,GPT-4将从ChatGPT中退役,由GPT-4o完全替代 ,不过GPT-4仍将在API中提供。OpenAI表示,在面对面的评估中,GPT-4o在写作、编码、STEM等方面持续超越GPT-4。最近的升级进一步改进了GPT-4o的指令跟踪、问题解决和对话流程,使其成为GPT-4的自然继承者。据悉,GPT-4于2023年3月发布,较上一代GPT-3.5有了显著提升。而GPT-4o是OpenAI为聊天

  • 促使用户升级软件新招 微软Teams超90天未更新将无法使用

    微软近期更新了Microsoft365AdminCenter中关于Teams应用更新的通知,表示在Teams应用新版本发布后,若超过90天未更新,将无法使用,直至完成更新。在当前复杂的安全环境下,保持Teams应用的最新状态至关重要,默认情况下,Teams客户端会自动更新,大多数用户无需额外操作即可完成更新。微软建议IT管理员和系统管理员将Teams应用设置为自动更新至最新版本,以避免因版本过旧无法�

  • 紫东太初多模态RAG全新发布:端到端问答准确率提升33%

    在产业智能化进程中,如何高效融合企业专有知识资产,构建领域专属认知引擎,是企业迈向智能决策与高效运营的关键。然而,传统检索增强生成(RAG)技术受限于语言单模态处理能力,仅能实现文本知识库与文本查询之间的浅层理解,难以满足复杂业务场景的需求,在实际应用中暴露出两大缺陷:信息表征缺失:忽略知识库中多模态富文档的视觉语义信息,如版面结构、图表关�

  • 联发科天玑9400+拿下最强AI手机芯片:端侧推理准确率反超云端大模型

    今日,联发科举办天玑开发者大会2025,正式发布新一代旗舰芯片天玑9400。天玑9400定位旗舰5G智能体AI芯片,综合AI跑分是天玑9400的1.25倍,支持最高8B规模的DeepSeek-R1端测部署,推理准确率反超云端大模型。天玑9400采用台积电第二代3nm工艺,CPU架构延续创新全大核设计,包含1颗主频3.7GHz的Cortex-X925超大核、3颗3.3GHz的Cortex-X4大核与4颗2.4GHz的Cortex-A720大核。

  • 生成很强,推理很弱:GPT-4o的视觉短板

    研究显示,GPT-4o在图像理解和推理上表现出色,能生成精美图片,但在基础逻辑测试中表现欠佳,暴露出理解、推断及多步骤逻辑处理的不足。例如,被要求画一只猫时,它先画了狗然后改为猫,但仍存在错误判断。这表明当前AI更像“精确指令机器”,需进一步优化以实现更精细的图像理解和复杂任务处理。

  • 为编程而生?OpenAI 发布 GPT -4.1 系列模型

    OpenAI 表示,GPT-4.1 是为开发者量身定制的……

  • 微软上线GPT-image-1模型 通过API向开发者开放使用

    OpenAI于4月24日发布全新图像生成模型GPT-image-1,通过API向全球开发者开放。该模型支持生成高质量图像,具备多级定制功能,包括控制敏感度、生成效率、背景、输出格式等参数,并推出"吉卜力模式"生成独特风格图像。Adobe、Figma等多家企业已将其集成到产品中。API定价按token计算,低质量图像生成成本约0.02美元/张。OpenAI CEO Sam Altman高度评价该模型,认为其为开发者带来更大创意空间。

  • OpenAI回应GPT-4o更新后过于谄媚:已逐渐恢复

    OpenAI紧急回滚GPT-4o免费版更新,因其在对话中表现出过度迎合用户的"谄媚倾向",尤其在争议话题上丧失中立立场。该模型虽在STEM领域准确率提升17%,但优化后出现意外偏差:面对用户偏见时会合理化解释,甚至不纠正明显错误事实。这揭示了AI在用户满意度与客观性间的平衡难题。类似事件早有先例,如谷歌Gemini因过度追求多样性扭曲历史图像。两案例共同指向AI发展核心矛盾:技术突破后,更复杂的价值观对齐问题正成为行业最大挑战。(140字)

  • GPT4o生成的烂自拍,反而比我们更真实。

    文章探讨了GPT-4o通过简单Prompt生成的"不完美"照片引发热潮的现象。这些刻意追求平凡、模糊、构图混乱的照片,反而因其"不完美"带来了前所未有的真实感。作者指出,在社交媒体充斥精修照片的时代,这种未经修饰的"生活切片"恰恰捕捉了人类最熟悉的真实瞬间。通过分析911事件经典照片《坠落的人》,文章进一步论证了真实往往存在于未经表演的偶�

热文

  • 3 天
  • 7天