首页 > 业界 > 关键词  > GPT-4最新资讯  > 正文

GPT-4在医学问题上击败了专业调优的 MedPaLM 2 模型

2023-12-04 11:03 · 稿源:站长之家

站长之家(ChinaZ.com) 12月4日 消息:在研究中,微软的研究人员展示了GPT-4在医学知识测试中的卓越表现,特别是当结合先进的提示工程技术时,其性能超过了专业调整的MedPaLM2。

研究结果显示,相较于费时费力的调优和模型训练,将更有效的提示工程应用于主流通用模型可能是实现更准确结果的更好途径。

image.png

Medprompt方法采用了多种提示工程技术,包括GPT-4生成的思维链推理和生成多个单独评分的回答,然后将最高分的答案返回给用户。尽管这种方法会增加推理的成本,因为生成了更多的标记,但结果表明,将领先的通用模型(如GPT-4)与高级提示工程技术相结合,以评估最新性能的标准,可能是值得考虑的。

研究人员使用MultiMedQA数据集进行了一系列测试,包括MedQA、MedMCQA、PubMedQA和MMLU等。虽然测试仍然是多项选择答案,但研究强调,这些结果可能在真实世界的自由文本回答中有所不同。Medprompt方法结合了从零到5个提示技术,展现出了强大的性能。

值得注意的是,研究强调GPT-4生成的思维链推理相对于专家手工制作的Med-PaLM2提示更为优越,因为它提供了更精细的逐步推理逻辑。然而,研究也指出,这一结论是特定于GPT-4的,而不适用于其他通用基础模型。

对于企业部署领域专业生成性AI解决方案的实际操作,研究建议在转向调优或定制模型训练之前,应考虑如何通过提示工程技术提高模型准确性。此外,高级提示工程技术,如模型生成的提示和集成评分,可能进一步改善调优或定制模型。

总的来说,研究的重要性在于发现通过提示工程技术可能实现与调优相媲美的性能,从而加速上市时间并降低成本。然而,研究也指出,企业选择使用通用基础模型还受到数据隐私、数据和应用程序安全性、成本和竞争优势等多方面因素的影响。

研究者强调,改进大语言模型输出的准确性是当前讨论的中心主题,而通过提示工程技术可能是最简单、成本最低的方法之一。

研究结果可能对领域定制模型的开发产生重大影响,因为如果通过更有效的提示工程技术可以获得相同或更好的性能,那么传统的调优方法可能会受到挑战。然而,选择使用通用基础模型仍然涉及到多方面的考虑,包括数据隐私、安全性、成本和竞争优势等因素。

举报

  • 相关推荐
  • Meta V-JEPA 2模型来袭,OpenAI/微美全息AI创新跃升赋能千行百业变革

    Meta推出开源模型V-JEPA2,帮助AI理解3D环境和物理规律;OpenAI发布最强推理模型o3-pro,在数学测试中超越Google Gemini2.5Pro;苹果宣布将推出全新智能模型,扩展语言支持并开放开发者访问;微美全息凭借技术积累在大模型、多模态智能等领域取得突破。全球科技巨头加速布局AI前沿领域,推动AI与教育、金融等重点行业深度融合,赋能产业升级。

  • REDMI K Pad首发双USB-C接口!支持充电+DP OUT等多场景

    REDMI K Pad将于6月26日发布,这是REDMI首款旗舰小平板。 REDMI K Pad还是小米首款拥有双USB-C接口的平板,横竖握持都不会影响充电。 今日,REDMI品牌总经理王腾表示,USB-C接口支持至高USB 3.2 Gen1的协议,并且带来两大核心体验升级。 首先依托于双C口,无论横竖握持,边充边玩都不再挡手。

  • YouTube:2024年,我们为美国创造了 49 万岗位、550 亿美金GDP!

    YouTube 称他们的生态系统在 2024 年为美国创造 49 万个就业岗位、贡献 550 亿美元 GDP……

  • 7款AI大模型写高考作文,语文名师点评,豆包、GPT等斩获前三

    刚刚, 2025 年高考作文题目出炉,再次成为亿万网友关注的话题。越来越“聪明”的人工智能大模型写高考作文真题,会带给我们怎样的惊喜?阅卷老师又会给出怎样的分数呢?今年湖北高考语文采用全国一卷,作文题为根据给定的材料进行写作。根据阅卷老师的打分,豆包、通义千问、GPT-4o的作品斩获前三名。全国一卷阅读下面的材料,根据要求写作。( 60 分)他想要给孩子们唱

  • OpenAI奥特曼:GPT5预计今年夏季发布

    OpenAI创始人奥特曼在最新播客中透露,GPT-5预计今夏发布,具体日期未定。 GPT-5将是生成式AI能力的重大升级,《商业内幕》称其远超GPT-4,早期测试者认可进步显著。 GPT-4于2023年3月发布,较上一代GPT-3.5有了显著提升。上月初,奥特曼发文向GPT-4告别。 目前GPT-4o已经完全替代了GPT-4,前者于2024年5月14日发布,其中o”代表omni”,意为 全能”。

  • 最好用的AI生成PPT工具全球横评:谁才是用户效率与专业的首选?

    文章对比评测了5款主流AI驱动的PPT生成工具,重点从生成速度、内容逻辑、模板质量、国际化体验等维度进行分析。PPT.AI综合表现最佳,其极速响应、强大逻辑架构、海量国际模板库和无缝全球化体验尤为突出,特别适合跨境专业人士;Gamma以交互体验和设计感见长;Presentations.AI生成速度最快;ChatPPT对中文用户最友好;iSlide则依托强大设计资源库更适合团队协作。总体而言,P

  • 华为云盘古预测大模型首创 Triplet Transformer 统一预训练架构

    6月20日,华为发布盘古大模型5.5,五大基础模型全面升级。该模型采用业界首创的Triplet+Transformer统一预训练架构,能跨行业处理表格数据、时间序列数据和图片数据,显著提升预测精度和泛化能力。已在水泥、钢铁、电解铝、供热等多个工业场景落地应用:海螺水泥实现熟料强度预测,宝武钢铁高炉出铁温度合格率超90%,云南铝业年省电2600万度,天津供热能耗降低10%。模型聚焦工业领域,通过工艺优化和系统寻优,助力企业降本增效,推动行业智能化转型。

  • 如何用 DeepSeek 撰写专业催款邮件

    本文介绍如何利用DeepSeek AI工具快速生成专业得体的商务催款邮件。教程包含:1.登录DeepSeek平台;2.输入具体指令(如模拟金牌销售身份,要求邮件内容专业且不失礼貌,需提及合同条款、逾期15天情况,结尾暗示法律手段,控制字数);3.获取生成内容后检查合同条款覆盖度、逾期情况说明及语言风格;4.按需修改润色。该工具能高效生成符合商务沟通需求的催款邮件,网址:

  • 双模型矩阵驱动教育AI专业化,猿辅导小猿AI以技术重塑教育本质

    猿辅导集团将于2025年4月推出革命性教育AI产品"小猿AI",通过"技术+教育"双核驱动,重新定义个性化学习。该产品基于自研"猿力大模型"和DeepSeek-R1推理大模型,整合15亿题库、3亿分钟教学视频等教育资源,实现知识点拆解、错因分析和学习路径优化。小猿AI具备作业批改、学习闭环管理、情感化设计等功能,支持100多种题型识别,准确率达99%。产品采用"软件+硬件+课程"三位一体模式,覆盖299个教材版本,构建分层阅读体系。通过AI赋能,让每个孩子找到专属成长路径,推动教育回归启迪智慧的本质。

  • OpenAI披露GPT系列新进展,微美全息(WIMI.US)正加速AI技术融合与产业变革

    OpenAI创始人Sam Altman宣布将推出开源大模型,性能远超业界预期,其强大的本地运行能力将极大推动AI技术普及。同时透露GPT-5将于今夏面世,支持语音、图像、代码等多模态输入。AI模型成本持续下降,微美全息等企业加速布局"AI+大模型"创新应用。中金指出,未来AI发展将呈现两大趋势:垂直领域定制化Agent需求增长,以及高质量场景数据价值凸显。2025年被视为AI应用大规模落地元年,但技术发展需兼顾创新与安全。