微软通过提示工程将GPT-4变成医学专家，准确率超90%

2023-12-04 14:18 · 稿源：站长之家

要点:
微软通过「提示工程」将GPT-4成功转化为医学专家，使用最新提示策略Medprompt在医疗专业领域取得了超过90%的准确率，首次超越其他高度微调的模型。
Medprompt是一个多种提示策略的组合，包括动态少样本选择、自生成思维链和选项洗牌集成，使GPT-4能够在医学领域表现出色，并且该方法具有通用性，可推广到其他专业领域。
在测试中，GPT-4结合Medprompt在MultiMed QA九个基准数据集中均取得最高分，平均准确率达到了91.3%。研究人员还进行了消融实验，发现自动生成思维链对性能提升的贡献最大。

站长之家（ChinaZ.com）12月4日消息:近期微软的研究成果展示了通过「提示工程」成功将GPT-4转化为医学专家的威力。在医学专业领域，GPT-4使用最新提示策略Medprompt在MultiMed QA九个测试集中取得了超过90%的准确率，首次超越其他高度微调的模型，如BioGPT和Med-PaLM。

Medprompt是一个由动态少样本选择、自生成思维链和选项洗牌集成等多种提示策略组成的综合体，使GPT-4能够在医学领域表现出色，同时也具有通用性，可以推广到电气工程、机器学习、法律等专业中。

论文地址:https://arxiv.org/pdf/2311.16452.pdf

其中，动态少样本选择利用训练数据作为少样本示例的来源，通过向量相似度从训练集中选择最相似的样本，避免了对模型参数进行大量更新。

自生成思维链通过要求GPT-4使用特定提示生成思维链，实现了逐步思考和推理，从而提高了模型的细粒度逻辑。选项洗牌集成解决了在选择题中可能存在的位置偏差问题，通过打乱选项顺序并进行多轮预测，最终选择最一致、正确的选项。

在测试中，GPT-4结合Medprompt在MultiMed QA九个基准数据集中表现出色，优于其他微调方法。消融实验进一步验证了Medprompt各组件对整体性能的贡献，其中自动生成思维链步骤对性能提升的贡献最大。

此外，研究人员还探索了Medprompt的跨域泛化能力，发现其在不同领域的数据集上同样取得了显著的提升。这一研究成果引发了广泛关注，被认为是一项能够改变行业的技术。目前我们仍未触及提示的极限，也未达到微调的极限，为未来研究和发展提供了更多的探索空间。

（举报）

微软通过提示工程将GPT-4变成医学专家，准确率超90%

GPT-4退役，但，OpenAI接下来准备了“很多好消息”！

重磅！OpenAI确定GPT-4退役日期：4月30日

促使用户升级软件新招微软：Teams超90天未更新将无法使用

紫东太初多模态RAG全新发布：端到端问答准确率提升33%

联发科天玑9400+拿下最强AI手机芯片：端侧推理准确率反超云端大模型

荐生成很强，推理很弱：GPT-4o的视觉短板

为编程而生？OpenAI 发布 GPT -4.1 系列模型

微软上线GPT-image-1模型通过API向开发者开放使用

OpenAI回应GPT-4o更新后过于谄媚：已逐渐恢复

荐GPT4o生成的烂自拍，反而比我们更真实。

热文

站长商机