首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Meta新语言模型Humpback 遵循指令能力超越LLaMa模型

2023-08-17 13:34 · 稿源:站长之家

本文概要:

1. Meta 开发了一种方法,使大型语言模型能够在不依赖人工注释或更强大的模型的情况下,迭代地提高其遵循指令的能力。

2. 该方法使用了一种名为 "指令回译(instruction backtranslation)" 的技术,通过自我增强和自我管理的两步过程来优化语言模型的表现。

3. 使用该方法,Meta 的研究人员开发的 Humpback65B 模型在 Alpaca 指令跟踪基准测试中取得了最先进的结果。

站长之家(ChinaZ.com)8月17日 消息:Meta 的研究人员开发了一种名为 "指令回译(instruction backtranslation)" 的新技术,用于提高大语言模型的指令跟踪能力。该技术可对 LLaMa 等大型语言模型进行微调以遵循指令,而无需依赖昂贵的人工注释或从 GPT-4等更强大的模型进行提炼。

AI机器人打游戏

这一方法包括自我增强和自我管理两个步骤。在自我增强阶段,模型从未标记的文本语料库中生成候选指令 - 响应对,并预测哪些指令会引发相应的响应。

然后,在自我管理阶段,模型对候选对进行评分和筛选,只保留得分最高的子集。通过这种迭代的自我训练过程,模型学习生成更好的指令,并能够更好地区分高质量的示例。

Metas 研究人员表明,这种方法可以带来强大的指令跟踪性能,优于之前使用相同规模的 LLaMa 模型的工作。Meta 的研究人员通过这一方法开发的 Humpback65B 模型在 Alpaca 指令跟踪基准测试中取得了最先进的结果,超过了其他竞争模型如 Anthropics Claude、Guanaco、LIMA 和 Falcon-Instruct 的性能。

研究人员表示,他们计划通过考虑更大的未标记语料库来进一步扩展这一方法,从而获得更好的效果。

举报

  • 相关推荐
  • Meta悄然发布Llama 2 Long AI模型

    Meta最近发布了Llama2LongAI模型,该模型在一些任务上超越了GPT-3.5Turbo和Claude2。通过改进训练方法和编码技术,Meta的研究人员提高了这个AI模型的性能,使其能够更好地处理长文本和复杂任务。强调了合作的重要性,指出不是每个企业都拥有高级的数据工程和数据科学技能,因此需要与具有相关技术和深刻了解整个领域的合作伙伴合作来解决这一问题。

  • Meta发布Llama 2-Long模型 处理长文本计算量需求减少40%

    Meta最新发布的Llama2-Long模型引领着处理长文本的革命。这个模型不仅处理长文本输入在不显著增加计算需求的情况下,保持了卓越性能。它不仅改进了处理长文本的性能通过创新策略为该领域注入了新的活力。

  • Meta研究人员提出轻量级微调方法RA-DIT 以增强语言模型知识检索能力

    Meta的研究人员提出了一种名为检索增强双指令调优的新型人工智能方法,用于提升语言模型的知识检索能力。该方法试图解决大型语言模型在捕获较为冷门知识时的局限性以及大规模预训练的高计算成本问题。该研究证明了轻量级指令调优对检索增强语言模型的有效性,特别是在涉及大规模外部知识源的场景中。

  • Meta悄然发布Llama 2 Long AI,在某些任务上击败GPT-3.5 Turbo和Claude 2

    MetaPlatforms在9月29日发布了一篇计算机科学论文,介绍了其新发布的Llama2LongAI模型。该模型在某些任务上击败了GPT-3.5Turbo和Claude2,这表明Meta的开源方法在生成人工智能领域取得了重大进展。该模型的开源性也表明,开源方法在这一领域具有竞争力。

  • MetaChatGPT来了:Llama 2加持,接入必应搜索,小扎现场演示

    一年一度的MetaConnect大会上发布了一系列以AI为重点的公告。不仅是最新的MR耳机、与Ray-Ban合作打造的智能眼镜,最重要的是,Meta将在自身的所有通讯类App、MetaQuest3和未来的Ray-BanMeta智能眼镜中内置生成式AI技术驱动的新功能,从多轮对话的AI助手到图像编辑等一应俱全。对于Meta与微软的合作,有网友做了一些有趣的梗图,比如「杀死OpenAI」。

  • MetaLlama为主导开源领域的人工智能生态系统

    在莱克斯·弗里德曼的播客中,马克·扎克伯格透露Llama2的成功远超预期。尽管关于Llama3的具体计划还未公布,但扎克伯格表示新的模型版本正在训练中,同时明确表示Llama3的推出还没那么近。据说Llama3也将免费开源。

  • Riiid AI模型Sheep-duck-llama-2在HuggingFace排名第一

    AI教育解决方案领导者Riiid宣布,其最新生成式AI模型在知名机器学习模型平台HuggingFace上获得第一名。HuggingFace开放式大语言模型排名中,Riiid10月提交的最新模型“Sheep-duck-llama-2”获得了74.07分的高分,在全球500多个开源生成式AI模型中位居榜首。Riiid研究人员将继续开发新的模型架构,提升AI模型性能,并以实际数据验证学习影响,在国际AI会议上发表论文。

  • AI视野:Adobe发布新一代AI生成模型Firefly Image2;Meta发布Llama2-Long模型TikTok支持从AI应用直接发布内容;Opera浏览器推出升级版的AI工具Aria

    今天凌晨,Adobe甩出AdobeFirefly创意生成式AI模型系列中的三个主要新模型:AdobeFireflyImage2、FireflyVectorModel和FireflyDesignModel。在线体验地址:PS在线体验地址:https://photoshop.adobe.com/discoverIllustrator体验地址:https://www.adobe.com/hk_zh/products/illustrator/generative-recolor.htmlMeta再放「长文本」杀器Llama2-LongMeta发布Llama2-Long模型,可高效处理长文本,降低计算需求40%,采用创新策略,提升性能,领先自�

  • 开源标杆!最强中英双语大模型来了,340亿参数,超越 Llama2-70B等所有开源模型

    开源界最强的中英双语大模型,悟道·天鹰34B,来了!有多强?一言蔽之:不仅模型够大够能打还一口气送上整套“全家桶”级豪华周边。能有如此大手笔的,正是中国大模型开源派先锋——智源研究院。Aquila2模型全系开源地址:https://github.com/FlagAI-Open/Aquila2https://model.baai.ac.cn/https://huggingface.co/BAAIAquilaSQL开源仓库地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila/Aquila-sqlFlagAttenti

  • 昆仑万维:天工大模型推理能力超过GPT-3.5和LLaMA2

    昆仑万维表示,其自研的天工大模型在BenchmarkGSM8K测试中取得了80%的正确率,超过了GPT-3.5和LLaMA2-70B,达到了全球领先水平,接近于GPT-4。天工大模型还在MMLU、C-EVAL、HumanEval等多个数据集上表现出色,准确率均高于其他主流大模型。天工大模型目前仍处于内测阶段,将持续提升技术实力,为用户和企业提供强大的智能化助力。