首页 > 业界 > 关键词  > GPT-4最新资讯  > 正文

GPT-4在医学问题上击败了专业调优的 MedPaLM 2 模型

2023-12-04 11:03 · 稿源:站长之家

站长之家(ChinaZ.com) 12月4日 消息:在研究中,微软的研究人员展示了GPT-4在医学知识测试中的卓越表现,特别是当结合先进的提示工程技术时,其性能超过了专业调整的MedPaLM2。

研究结果显示,相较于费时费力的调优和模型训练,将更有效的提示工程应用于主流通用模型可能是实现更准确结果的更好途径。

image.png

Medprompt方法采用了多种提示工程技术,包括GPT-4生成的思维链推理和生成多个单独评分的回答,然后将最高分的答案返回给用户。尽管这种方法会增加推理的成本,因为生成了更多的标记,但结果表明,将领先的通用模型(如GPT-4)与高级提示工程技术相结合,以评估最新性能的标准,可能是值得考虑的。

研究人员使用MultiMedQA数据集进行了一系列测试,包括MedQA、MedMCQA、PubMedQA和MMLU等。虽然测试仍然是多项选择答案,但研究强调,这些结果可能在真实世界的自由文本回答中有所不同。Medprompt方法结合了从零到5个提示技术,展现出了强大的性能。

值得注意的是,研究强调GPT-4生成的思维链推理相对于专家手工制作的Med-PaLM2提示更为优越,因为它提供了更精细的逐步推理逻辑。然而,研究也指出,这一结论是特定于GPT-4的,而不适用于其他通用基础模型。

对于企业部署领域专业生成性AI解决方案的实际操作,研究建议在转向调优或定制模型训练之前,应考虑如何通过提示工程技术提高模型准确性。此外,高级提示工程技术,如模型生成的提示和集成评分,可能进一步改善调优或定制模型。

总的来说,研究的重要性在于发现通过提示工程技术可能实现与调优相媲美的性能,从而加速上市时间并降低成本。然而,研究也指出,企业选择使用通用基础模型还受到数据隐私、数据和应用程序安全性、成本和竞争优势等多方面因素的影响。

研究者强调,改进大语言模型输出的准确性是当前讨论的中心主题,而通过提示工程技术可能是最简单、成本最低的方法之一。

研究结果可能对领域定制模型的开发产生重大影响,因为如果通过更有效的提示工程技术可以获得相同或更好的性能,那么传统的调优方法可能会受到挑战。然而,选择使用通用基础模型仍然涉及到多方面的考虑,包括数据隐私、安全性、成本和竞争优势等因素。

举报

  • 相关推荐
  • OpenAI发布GPT-5.1:情商大涨 本周开始推送

    OpenAI正式推出GPT-5.1模型,以“智商与情商深度融合”为核心亮点。新模型优化推理能力,强化情绪价值与个性化交互,包含Instant与Thinking两大核心版本:Instant首次引入自适应推理功能,针对复杂任务延长思考时间,简单问题保持极速响应;Thinking版本智能分配思考时长,提升回答透彻度与通俗性。新增Auto功能自动匹配最佳模型,支持六种官方预设风格及精准微调。安全评估首次纳入心理健康与情感依赖维度,防范拟人化风险。付费用户可保留旧版三个月过渡期。

  • AI日报:月之暗面开源AI新框架Kosong;百度发布新模型ERNIE-4.5-VL;GPT-5.1“隐身”登场

    本期AI日报聚焦多项技术突破:月之暗面开源AI代理框架Kosong,支持异步编排与插件化设计;Replit推出AI集成功能,可一键调用300+模型;商汤发布空间智能模型SenseNova-SI,性能超越GPT-5;百度推出多模态模型ERNIE-4.5-VL,新增图像思考能力;谷歌地图全面AI化,集成Gemini实现智能交互;ChatTutor上线可视化教学系统,覆盖多学科实时推演;新版Google Finance引入AI深度搜索与财报追踪;OpenAI低调上线Polaris Alpha模型,支持256K上下文并更新知识库至2024年10月。

  • 双11洗衣机:海尔云溪4.0居行业销额TOP1

    双十一期间,海尔云溪4.0洗衣机凭借AI直驱洁净科技和AI双擎热泵技术,精准解决顽固污渍难洗净、娇贵面料易损伤、烘干缠绕打结等用户痛点,实现15分钟洗净81种污渍、1.28超高洗净比及透干不伤衣效果,以技术升级推动行业从“洗净”向“洗好护好”转型,稳居行业销额榜首。

  • Qwen登顶AI赚钱大赛只是开始?“弃GPT投Qwen”已在硅谷蔓延开来

    近期AI炒币大赛Alpha Arena引发关注,六款主流大模型用1万美元本金在币圈实战。戏剧性的是,被寄予厚望的GPT-5和Gemini因高杠杆操作亏损惨重,而中国开源模型表现亮眼——通义千问Qwen以53%回报率逆袭登顶,DeepSeek紧随其后。硅谷巨头Airbnb CEO公开表态依赖Qwen,投资人Chamath也承认将业务转向中国模型。市场用真金白银投票:预测平台押注Qwen胜率高达36%,远超OpenAI的3%。这场竞赛�

  • Creators’ App迎来重大更新

    索尼与分秒帧联合推出云端影像创作平台ICE-Cloud,集成索尼先进影像技术与高效云端协作能力,为创作者提供从拍摄到后期全流程赋能。平台支持移动端、PC端及网页应用,实现素材自动上传、云端管理、在线审片和项目协同,打破时空限制,提升创作效率。通过Creators’ App连接相机与云端,实现即拍即传、异地实时协作,致力于打造新一代创意工作流。

  • 小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

    小米手表S4 eSIM版与S4 Sport版正式上线,用户连接小米手机后可通过中国移动“一号双终端”业务实现手表与手机共享号码的便捷通信。目前云南、四川两省暂未开放,其他地区用户可通过小米运动健康App在线自助办理。办理需确保手表与手机连接,并在手表设置中开启移动网络开关,待eSIM数据传输完成后即可使用全部功能。其他支持eSIM的小米手表产品也在逐步认证中,未来将陆续开放服务。

  • 荣耀亲选LCHSE耳夹式耳机2 Pro开启预约:44小时超长续航!

    在华为FreeClip 2耳夹耳机发布之后,荣耀亲选的第二代耳夹耳机也来了,目前已经开启预约。 与华为策略相同,荣耀亲选LCHSE耳夹式耳机2 Pro的充电仓这次也采用了素皮材质。

  • 50人团队、1亿美元ARR,AI PPT还在续写“神话”?

    AI 生成 PPT 可以说是去年的热门赛道,尤记得关于这类产品是否具有真正竞争力的热烈讨论,而2025年9月份的数据显示,赛道头部的明星创企 Gamma 却已经默默接近3000万的访问量。并且,今天官宣了由 a16z 领投的6800万美元 B 轮融资,融资后估值达到21亿美元。 而不仅 Gamma,根据 AI 产品榜数据,9月份,AIPPT 赛道的 Top3产品流量平均涨幅30%+,更有一款

  • AI日报:李飞飞Marble 3D世界模型公测;OpenAI首次推出ChatGPT群聊功能;百度发布多模态 AI助手超能小度

    本期AI日报聚焦多项技术突破:World Labs推出Marble 3D模型,实现多模态生成可交互虚拟世界;OpenAI在韩新试点ChatGPT群聊功能,支持多人协作互动;苹果更新隐私政策,要求第三方AI调用需明示授权;百度发布多模态助手“超能小度”,支持空间感知与设备免费升级;LinkedIn推出AI人脉搜索,通过自然语言精准匹配专业人士;Cursor完成23亿美元融资,估值达293亿;Character AI与耶鲁合作实现音画同步技术Ovi;Google NotebookLM上线深度研究工具,支持多格式文件分析与知识库构建。

  • 华为Mate 70 Air配置价格公布:可选CPU 售价4199起

    华为Mate70 Air于11月6日10:08开启预售,提供麒麟9020B和9020A两款CPU版本,价格从4199元至5199元。机身仅6.6mm厚、208g重,配备7英寸OLED临境大屏,支持120Hz刷新率。影像系统包括后置四摄组合与前置1070万超广角镜头,内置6500mAh电池与66W快充。支持双向北斗卫星消息、Wi-Fi7,预装HarmonyOS 5.1系统。凭借轻薄设计、可选CPU及全面配置,有望引发市场关注。

今日大家都在搜的词: