首页 > 业界 > 关键词  > 谷歌最新资讯  > 正文

谷歌 DeepMind 研究人员推出 Promptbreeder:一种自我推理、自我完善的人工智能系统,可在给定领域内自动生成有效的特定领域提示语

2023-10-09 09:00 · 稿源:站长之家

站长之家(ChinaZ.com) 10月9日消息:大型语言模型(LLMs)因其模仿人类特性而引起了广泛关注。这些模型能够回答问题、生成内容、总结长文本段落等等。提示语对于提高 LLMs(如 GPT-3.5 和 GPT-4)的性能至关重要

谷歌,google

提示语的创建方式可以对 LLMs 在各种领域的能力产生重大影响,包括推理、多模态处理、工具使用等等。研究人员设计的这些技术在模型蒸馏和代理行为模拟等任务中显示出了潜力。

提示方法的手动工程引发了一个问题,即是否可以自动化这个过程。通过根据来自数据集的输入-输出实例生成一组提示语,自动提示工程师(APE)试图解决这个问题,但从提示语质量的角度来看,APE 存在着递减的回报。研究人员提出了一种基于维持多样性的进化算法的方法,用于自我参考的提示语的自我改进,以克服提示语创建中的递减回报问题。

LLMs 可以改变其提示语以提高其能力,就像神经网络可以改变其权重矩阵以提高性能一样。根据这种比较,LLMs 可以被创建来增强它们自己的能力以及它们增强自己能力的过程,从而使人工智能能够不断改进。作为对这些想法的回应,Google DeepMind 的研究团队最近引入了 PromptBreeder(PB),这是一种 LLMs 以自我参考的方式更好地提升自己的技术

PB 需要一个特定领域的问题描述、一组初始突变提示语(用于修改任务提示语的指令)以及思维风格,即以文本形式表示的通用认知启发式。通过利用 LLM 作为突变操作符的能力,它生成不同的任务提示语和突变提示语。这些进化的任务提示语在训练集上进行评估,选择包含任务提示语及其相关突变提示语的进化单元的子集,用于未来的世代。

该团队表示,PromptBreeder 观察到提示会在几代中适应特定领域。例如,PB 开发了一个任务提示,其中明确说明了如何解决数学领域的数学问题。在各种基准任务中,包括常识推理、算术和伦理学,PB 都优于最先进的提示技术。PB 不需要更新参数来进行自我参照的自我改进,这表明未来更广泛、更有能力的 LLMs 可能会从这一策略中受益

PromptBreeder 的工作流程可以总结如下:

1. 任务提示语突变:任务提示语是为特定任务或领域创建的提示语。PromptBreeder 从这些提示语开始。然后对任务提示语进行突变,生成变体。

2. 适应性评估:使用训练数据集,评估这些修改后的任务提示语的适应性。这个评估衡量了 LLM 在被问及时如何应对这些变化。

3. 持续进化:与生物进化类似,突变和评估的过程会重复几代。

总而言之,PromptBreeder 被认为是一种独特且成功的技术,用于自主演化 LLMs 的提示语。它试图提高 LLMs 在各种任务和领域中的性能,最终通过不断改进任务提示语和突变提示语,优于手动示方法。

查看 PromptBreeder(PB)论文:

https://arxiv.org/abs/2309.16797

举报

  • 相关推荐
  • DeepSeek创始人梁文锋入选《自然》年度十大科学人物

    《自然》杂志发布2025年度十大科学人物榜单,中国在人工智能与深海科学领域表现突出。深度求索创始人梁文锋及中科院深海科学家杜梦然入选。榜单特别指出,DeepSeek推出的R1大模型以开放权重形式发布,推动行业向更开放共享方向发展。该模型在多项能力上媲美顶尖模型,训练成本却远低于竞争对手。今年9月,梁文锋团队相关研究登上《自然》封面,回应了外界质疑,为行业树立了新标杆。

  • “2025年度字词”即将出炉:DeepSeek、草台班子入选

    汉语盘点2025”活动日前发布年度字词”的候选前五位字词。 汉语盘点2025”包括国内字、国内词、国际字、国际词四大板块,其中DeepSeek”和草台班子”分别入选国内词和国际词的候选名单。 前五位年度国内候选字:韧”创”融”智”通” 前五位年度国内候选词:十五五”深度求索(DeepSeek)”九三阅兵”苏超”具身智能”

  • DeepSeek同时发布两个正式版模型:DeepSeek-V3.2系列发布

    今日,DeepSeek正式推出V3.2系列模型,包含标准版DeepSeek-V3.2与长思考增强版DeepSeek-V3.2-Speciale。此次更新不仅在推理性能上实现重大突破,更通过创新性技术架构重新定义了开源模型的能力边界。 目前,官方网页端、移动应用及API服务已全面升级至V3.2标准版,而Speciale版本则以临时API形式开放供学术研究使用。 DeepSeek-V3.2在平衡推理效率与输出质量方面

  • V3.2逼近Gemini 3,DeepSeek硬气喊话:接下来我要堆算力了

    ​就在上周,OpenAI前首席科学家、现SSI CEO Ilya Sutskever在最新播客访谈中抛出一个重磅观点,过去五年的“age of scaling”正在走到头,预训练数据是有限的,单纯用更多GPU堆更大模型,哪怕再放大100倍,也未必能带来质变。所以我们又回到了以研究为核心的时代,只不过这次有了巨大的算力”,这一表态被视作对Scaling Law撞墙论的强力佐证。 然而仅过了几天,12月1日,DeepSeek用V3

  • AI日报:可灵Avatar 2.0 上线;谷歌推出Gemini 3 Deep Think模式;阿里云析言 XiYan-SQL 强势夺冠

    本期AI日报聚焦多项AI技术突破:Kling AI Avatar 2.0上线,实现数字人表情动作智能生成;谷歌推出Gemini 3 Deep Think模式,显著提升AI推理能力;微软发布轻量级实时语音模型VibeVoice 0.5B;OpenAI最强编码模型GPT-5.1-CodexMax全面接入API;阿里云“析言 XiYan-SQL”在SQL诊断评测中夺冠。此外,豆包助手调整AI操作能力,谷歌将展示Android XR平台更新。

  • AI日报:快手可灵 2.6 全量上线;字节Seedream 4.5发布;DeepSeek连发两款新模型

    本文汇总了AI领域最新动态:快手可灵2.6上线,实现“音画同出”生成视频;字节跳动发布Seedream4.5,提升多图一致性生成;豆包助手回应权限争议并下线微信操作功能;智源研究院推出多模态世界模型Emu3.5,可预测真实世界状态;研究揭示AI模型能发现并利用智能合约漏洞;小米公布AI战略,押注“AI+物理世界”融合;谷歌发布Workspace Studio,助力企业构建AI代理;DeepSeek同步上线V3.2与Speciale两款新模型,展示开源实力。

  • 免费AI搜索指数平台DeepGEO上线,国内首创geo指数分析服务

    国内首个专注AI搜索指数分析及品牌产品排名的专业工具DeepGEO平台正式上线,核心功能全部免费开放。该平台融合百度指数等权威数据与自研AI预测算法,提供多维、跨平台的AI搜索行为分析,填补了市场空白。用户可免费查询各类AI产品、技术及企业的综合搜索指数与口碑排名,并获取趋势洞察与未来热点预测。平台旨在降低AI行业数据分析门槛,赋能创业者、投资者及研究者,推动产业健康发展。

  • GEO排名检测工具哪个比较好?深度AI搜索平台DeepGEO全面评测与推荐

    在AI技术飞速发展的当下,市场亟需能实时精准监测产品搜索热度与品牌排名的工具。DeepGEO作为国内首个专注AI搜索指数分析的专业平台,凭借跨平台数据整合、AI驱动预测及需求图谱构建等核心优势脱颖而出。它融合百度指数与海量算数数据,通过自研算法实现全网搜索行为深度洞察与趋势预测,为投资者、创业者及分析师提供全面参考,助其把握市场动态、优化战略布局。

  • 网易有道词典2025年度词汇发布:DeepSeek当选!

    网易有道词典今天发布了2025年度词汇,deepseek以8672940次的年度搜索量成功当选。 有道词典表示,今年1月份,DeepSeek发布了深度推理模型R1,在复杂逻辑、数学与代码领域的表现跻身全球顶尖,并宣布全面开源。 这也使得2025年deepseek在有道词典的全球搜索量从0跃升至8672940,涨幅创下历史新高。

  • REDMI Turbo 5 Pro最快春节前亮相:首次搭载天玑9系芯片

    从今年开始,Redmi K系列升档为 冠军旗舰”,Turbo系列接棒K系列成为REDMI 2000-3000元价位的主力机型。 至此,Redmi构建起以Turbo系列(性能旗舰)、K系列(全能旗舰)、Note系列、数字系列为核心的四大产品线矩阵,实现对全价位段的全面覆盖。 目前K90系列已经上市,接下来要登场的就是Turbo系列REDMI Turbo 5,这次REDMI将会同时推出Turbo 5和Turbo 5 Pro两款机型。 该系列已经获得3C认�

今日大家都在搜的词: