首页 > 业界 > 关键词  > 谷歌最新资讯  > 正文

谷歌 DeepMind 研究人员推出 Promptbreeder:一种自我推理、自我完善的人工智能系统,可在给定领域内自动生成有效的特定领域提示语

2023-10-09 09:00 · 稿源:站长之家

站长之家(ChinaZ.com) 10月9日消息:大型语言模型(LLMs)因其模仿人类特性而引起了广泛关注。这些模型能够回答问题、生成内容、总结长文本段落等等。提示语对于提高 LLMs(如 GPT-3.5 和 GPT-4)的性能至关重要

谷歌,google

提示语的创建方式可以对 LLMs 在各种领域的能力产生重大影响,包括推理、多模态处理、工具使用等等。研究人员设计的这些技术在模型蒸馏和代理行为模拟等任务中显示出了潜力。

提示方法的手动工程引发了一个问题,即是否可以自动化这个过程。通过根据来自数据集的输入-输出实例生成一组提示语,自动提示工程师(APE)试图解决这个问题,但从提示语质量的角度来看,APE 存在着递减的回报。研究人员提出了一种基于维持多样性的进化算法的方法,用于自我参考的提示语的自我改进,以克服提示语创建中的递减回报问题。

LLMs 可以改变其提示语以提高其能力,就像神经网络可以改变其权重矩阵以提高性能一样。根据这种比较,LLMs 可以被创建来增强它们自己的能力以及它们增强自己能力的过程,从而使人工智能能够不断改进。作为对这些想法的回应,Google DeepMind 的研究团队最近引入了 PromptBreeder(PB),这是一种 LLMs 以自我参考的方式更好地提升自己的技术

PB 需要一个特定领域的问题描述、一组初始突变提示语(用于修改任务提示语的指令)以及思维风格,即以文本形式表示的通用认知启发式。通过利用 LLM 作为突变操作符的能力,它生成不同的任务提示语和突变提示语。这些进化的任务提示语在训练集上进行评估,选择包含任务提示语及其相关突变提示语的进化单元的子集,用于未来的世代。

该团队表示,PromptBreeder 观察到提示会在几代中适应特定领域。例如,PB 开发了一个任务提示,其中明确说明了如何解决数学领域的数学问题。在各种基准任务中,包括常识推理、算术和伦理学,PB 都优于最先进的提示技术。PB 不需要更新参数来进行自我参照的自我改进,这表明未来更广泛、更有能力的 LLMs 可能会从这一策略中受益

PromptBreeder 的工作流程可以总结如下:

1. 任务提示语突变:任务提示语是为特定任务或领域创建的提示语。PromptBreeder 从这些提示语开始。然后对任务提示语进行突变,生成变体。

2. 适应性评估:使用训练数据集,评估这些修改后的任务提示语的适应性。这个评估衡量了 LLM 在被问及时如何应对这些变化。

3. 持续进化:与生物进化类似,突变和评估的过程会重复几代。

总而言之,PromptBreeder 被认为是一种独特且成功的技术,用于自主演化 LLMs 的提示语。它试图提高 LLMs 在各种任务和领域中的性能,最终通过不断改进任务提示语和突变提示语,优于手动示方法。

查看 PromptBreeder(PB)论文:

https://arxiv.org/abs/2309.16797

举报

  • 相关推荐
  • 大家在看
  • Swapper:AI时尚模特和电商助手

    Swapper是一款AI驱动的时尚模特和电商助手,旨在通过高质量的AI视频生成技术帮助企业节约成本。它提供专业的AI时尚模特,满足各种模特需求,显著降低模特费用,促进利润增长。此外,Swapper还能在不同场景中自由切换拍摄场景,减少拍摄周期,节省预算。Swapper的主要功能包括产品商业拍卖、服装颜色变换等,能够高效准确地满足设计需求,减少重复拍摄的成本。

  • UXWizz:自托管网站分析平台

    UXWizz是一个自托管的网站分析平台,旨在帮助用户在不分享数据给大公司的情况下,通过强大的分析工具理解访问者行为并改进网站。它提供深入的智能分析功能,支持热图、会话回放等功能,帮助用户发现并解决用户体验问题。UXWizz自2012年开发以来,一直根据用户反馈不断改进,提供高质量的支持和易于维护的系统。

  • Flow Studio:AI视频生成器

    Flow Studio 是一个基于人工智能技术的视频生成平台,专注于为用户提供高质量、个性化的视频内容。该平台利用先进的AI算法,能够在短时间内生成3分钟的视频,效果优于Luma、Pika和Sora等同类产品。用户可以通过选择不同的模板、角色和场景,快速创建出具有吸引力的视频内容。Flow Studio 的主要优点包括生成速度快、效果逼真、操作简便等。

  • Intelligent Canvas:AI驱动的团队协作平台

    Intelligent Canvas 是 Miro 推出的一款 AI 驱动的团队协作平台。它通过集成智能小部件、模板和集成功能,帮助团队更高效地进行创意、迭代和交付。主要优势包括:1. AI辅助内容生成:利用 AI 将想法转化为产品简报和摘要,无需复杂提示。2. 快速构建结构和清晰度:AI 可以在几分钟内生成图表、简报和摘要。3. 智能小助手:提供即时的 AI 辅助帮助,如敏捷教练、产品领导者等。4. 智能小部件:用于团队互动,如点投票、投票和估算。5. 智能模板:自动化工作流程,如路线图、冲刺计划和回顾会议。6. 单一视图决策:提供单一视图,整合所有工具、内容、文档和数据,加快决策速度。

  • RAGNA Desktop:本地AI多工具箱,提升效率,保护数据安全

    RAGNA Desktop 是一款运行在本地桌面 PC 或笔记本电脑上的私人 AI 多工具箱,无需互联网连接。该应用旨在帮助用户自动化重复性任务,提高效率,并为真正重要的事情腾出空间。其主要优点包括本地数据处理、无需依赖云服务、符合数据保护法规、提升团队效率、成本优化、灵活的工作方式等。

  • Llama-3-70B-Tool-Use:70B参数量的大型语言模型,专为工具使用优化

    Llama-3-70B-Tool-Use是一种70B参数量的大型语言模型,专为高级工具使用和功能调用任务设计。该模型在Berkeley功能调用排行榜(BFCL)上的总体准确率达到90.76%,表现优于所有开源的70B语言模型。该模型优化了变换器架构,并通过完整的微调和直接偏好优化(DPO)在Llama 3 70B基础模型上进行了训练。输入为文本,输出为文本,增强了工具使用和功能调用的能力。尽管其主要用途是工具使用和功能调用,但在一般知识或开放式任务中,可能更适用通用语言模型。该模型可能在某些情况下产生不准确或有偏见的内容,用户应注意实现适合其特定用例的适当安全措施。该模型对温度和top_p采样配置非常敏感。

  • FidForward:重新定义绩效管理

    FidForward是一款旨在重新定义组织绩效管理的在线工具。它通过增加开放反馈和沟通,帮助企业在短短30天内提升员工满意度,降低员工流失率。该产品的核心优势在于其快速实施和显著效果,能够显著提升员工幸福感和组织绩效。

  • DocuTranslate:快速转换和翻译扫描文档

    DocuTranslate 是一款专注于文档转换和翻译的在线服务。它利用先进的光学字符识别(OCR)技术和翻译技术,能够快速将扫描的文档转换为Word格式,并提供准确的翻译。用户可以通过上传文档、选择目标语言并确认使用信用点数,几秒钟内即可收到翻译后的文档,方便进一步编辑。该服务支持26种语言,适用于翻译人员和需要高效文档处理的专业人士。

  • UbiOps:AI模型服务与编排平台

    UbiOps是一个AI基础设施平台,帮助团队快速运行他们的AI和机器学习工作负载作为可靠和安全的微服务,而无需改变现有的工作流程。它提供了零DevOps的超快速管道、优化的计算资源、支持LLMs和CV模型等功能。UbiOps支持混合和多云工作负载编排,允许在私有或公共云环境中部署模型,确保数据和模型始终留在用户的环境中。此外,UbiOps还提供了内置的安全特性,如端到端加密、安全数据存储和访问控制,帮助企业符合相关法规。

  • TaroTeller:AI驱动的塔罗牌阅读工具

    TaroTeller是一个结合传统塔罗牌智慧和现代人工智能技术的在线塔罗牌阅读工具。它提供个性化的塔罗牌阅读,帮助用户更好地理解自己和周围的世界。塔罗牌是一种古老的实践,结合艺术、象征和直觉,提供对生活中各个方面的洞察。TaroTeller通过AI技术,将塔罗牌的传统意义与先进的算法相结合,提供高度准确和个性化的阅读。用户可以通过这个平台获得关于爱情、事业、健康或个人成长的准确和详细的解读。

  • Builco:快速构建MVP

    Builco是一个基于AI的代码生成平台,旨在帮助开发者快速构建最小可行产品(MVP)。它支持使用Next.js 14的App Router和Server Actions,通过一键生成客户端和服务器端代码,极大地简化了开发流程。Builco还支持TypeScript、Prisma和Tailwind CSS,使得开发者可以专注于产品的核心功能,而不必在基础代码上花费过多时间。

  • Llama-3-Groq-8B-Tool-Use:高级工具使用和功能调用的8B参数语言模型

    Llama-3-Groq-8B-Tool-Use模型是为高级工具使用和功能调用任务特别设计的8B参数因果语言模型。该模型经过优化的变换器架构,通过完全微调和直接偏好优化(DPO)在Llama 3 8B基础模型上进行训练。它在涉及API交互、结构化数据操作和复杂工具使用的任务中表现出色。然而,用户应注意,该模型可能在某些情况下产生不准确或有偏见的内容,并且用户需要为其特定用例实施适当的安全措施。

  • Microsoft Designer App:AI辅助设计和编辑图片

    Microsoft Designer 是一款由微软公司开发的应用,利用人工智能技术帮助用户进行创意设计和图片编辑。该应用支持用户通过文字描述生成图片、制作个性化壁纸、设计节日和生日卡片等。其主要优点包括强大的AI生成能力、易用性以及丰富的设计模板。

  • New Portal:最佳体验的Chrome扩展

    New Portal 是一个旨在提供最佳用户体验的Chrome扩展。它通过增强浏览器的功能和性能,帮助用户更高效地浏览网页和管理在线资源。

  • 语迟SLAW:智能法律咨询服务

    语迟 • AI法律知识库是一个专注于法律领域的智能咨询服务平台。它利用先进的人工智能技术,为用户提供全面的法律知识查询、案例分析和法律咨询等服务。该平台通过整合大量的法律法规、司法解释和指导案例,帮助用户快速获取法律信息,提高法律服务的效率和准确性。

  • RDFox:高性能知识图谱数据库与推理引擎

    RDFox 是由牛津大学计算机科学系的三位教授基于数十年知识表示与推理(KRR)研究开发的规则驱动人工智能技术。其独特之处在于:1. 强大的AI推理能力:RDFox 能够像人类一样从数据中创建知识,基于事实进行推理,确保结果的准确性和可解释性。2. 高性能:作为唯一在内存中运行的知识图谱,RDFox 在基准测试中的表现远超其他图技术,能够处理数十亿三元组的复杂数据存储。3. 可扩展部署:RDFox 具有极高的效率和优化的占用空间,可以嵌入边缘和移动设备,作为 AI 应用的大脑独立运行。4. 企业级特性:包括高性能、高可用性、访问控制、可解释性、人类般的推理能力、数据导入和 API 支持等。5. 增量推理:RDFox 的推理功能在数据添加或删除时即时更新,不影响性能,无需重新加载。

  • TruthPix:AI图像检测工具,识别篡改照片

    TruthPix是一款AI图像检测工具,旨在帮助用户识别经过AI篡改的照片。该应用通过先进的AI技术,能够快速、准确地识别出图像中的克隆和篡改痕迹,从而避免用户在社交媒体等平台上被虚假信息误导。该应用的主要优点包括:安全性高,所有检测都在设备上完成,不上传数据;检测速度快,分析一张图片仅需不到400毫秒;支持多种AI生成图像的检测技术,如GANs、Diffusion Models等。

  • Mem0:智能记忆层,提升AI个性化体验

    Mem0是一个为大型语言模型(LLMs)提供智能、自我改进记忆层的平台。它通过在用户会话、交互和AI代理之间保留信息,确保连续性和上下文,从而实现个性化的AI体验。Mem0的主要功能包括用户、会话和AI代理记忆,适应性个性化,开发者友好的API,平台一致性,以及托管服务。这些功能使得Mem0在个性化学习助手、客户支持AI代理、医疗助手、虚拟伴侣和生产力工具等多个应用场景中具有显著优势。

  • 司马诸葛:企业级AI数字员工平台

    司马诸葛是一个基于自研文档智能模型(DocMind)+大语言模型技术的企业级AI数字员工平台(AI Agent)。企业无需复杂设置,通过企业知识文档,就可训练专属AI数字员工。AI数字员工7*24小时在线解决企业内外部知识问答、专业文档分析、内容再创作等工作任务。司马诸葛的核心能力来源于司马阅自研文档智能模型DocMind,是国产领先的AI文档分析服务商。

  • Sketch2scheme:将手绘草图转换为数字方案

    Sketch2scheme是一个在线工具,能够帮助用户将手绘的流程图和图表转换为数字方案。它通过人工智能技术自动识别节点、连接和文本,自动排列和对齐元素,从而节省用户在数字转换过程中的时间和努力。该工具支持导出多种文件类型(如PNG、SVG、PDF等),并且兼容draw.io格式。用户可以通过draw.io可视化编辑器或Mermaid代码进一步编辑转换后的结果。

今日大家都在搜的词:

热文

  • 3 天
  • 7天