苹果研究团队揭示WRAP技术：用合成数据进行预训练大模型成本低准确性高

2024-02-05 10:20 · 稿源：站长之家

**划重点:**
1. 🔄 **预训练效率提升:** WRAP应用于嘈杂的C4数据集，预训练速度提高了近三倍，显著降低了LLM训练的高昂成本和时间投入。
2. 🚀 **模型性能提升:** WRAP在相同计算预算下使模型性能更出色，通过使用Pile的不同子集，减少了超过10%的歧义，并在13种不同活动的零-shot问题回答准确性上提高了超过2%。
3. 📝 **重新构造网络文档:** WRAP使用中等规模的LLM对网络文档进行改写，以多种风格呈现。

站长之家（ChinaZ.com）2月5日消息:近几个月来，大型语言模型（LLMs）在人工智能社区中引起了极大的关注和流行。这些模型在文本摘要、问答、代码完成、内容生成等任务中展示出了强大的能力。

然而，LLMs通常在不充分的网络抓取数据上进行训练。这些数据通常杂乱、无结构，表达不清晰。按照现有的扩展原则，即随着模型规模的增加，计算能力和数据量也应该成比例增加，这带来了挑战。

困扰研究人员的主要问题有两个。首先，预训练涉及显着的计算成本和时间。其次，互联网上高质量数据的稀缺性问题迫在眉睫。在最新的研究中，来自苹果和卡内基梅隆大学的研究团队通过引入Web Rephrase Augmented Pre-training（WRAP）的概念，解决了这些问题。

WRAP是一种创新方法，利用已存在的、经过指令调整的LLM。这个LLM用于将在线页面改写成特定风格，包括模仿维基百科的语气或将文本转换为问答格式。WRAP的主要目标是通过添加真实和人工改写的数据来提高LLMs的预训练效果。

AI换脸人脸识别 (2)

图源备注：图片由AI生成，图片授权服务商Midjourney

WRAP的主要特点包括:

- **预训练效率:** 将WRAP应用于嘈杂的C4数据集，显著加快了预训练速度，约为三倍。这种效果对于减少与LLM训练通常相关的高昂费用和时间投入至关重要。

- **模型性能提升:** WRAP在相同的计算预算下使模型性能更出色。使用Pile的不同子集减少了超过10%的歧义，提高了13种不同活动的零-shot问题回答准确性超过2%。

- **网络文档改写:** WRAP使用中等规模的LLM对网络文档进行改写，呈现多种风格。这种方法不同于创建新数据，而是通过改进已有内容，保持原始信息的质量和多样性。

WRAP生成的合成数据有两个主要好处。首先，它包含反映应用中使用的语言多样性的各种风格。有了这种多样性，LLM更好地为更广泛的实际事件做好准备。其次，WRAP改写的合成数据比原始网络抓取的数据质量更高。这种质量的提升源于语言更有序、更连贯，从而促进更有效的模型学习。

WRAP是LLM预训练领域的一项重大进展。通过使用高质量、不同风格的合成数据，WRAP不仅加速了训练过程，还提高了LLMs的整体性能。考虑到低质量网络数据的丰富性和经典LLM训练方法的资源密集性，这种方法提供了一种可能的前进方式。

论文网址:https://arxiv.org/abs/2401.16380

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
IBM申请名为 “LAB” 的专利，利用合成数据训练LLM

IBM近日申请了一项名为“LAB”的专利，旨在利用合成数据来训练LLM模型，以加速企业AI技术的发展。AI模型对数据有着巨大的需求提供大量、质量高、相关性强的数据常常成为一项挑战。IBM可能会利用这一专利来支持那些正在构建自己AI模型的企业，提供一种相对于收集真实用户数据言更少资源密集的方法。

IBM LLM AI头条
斯坦福团队大模型Octopus v2火了：手机就能运行准确性超越GPT-4

斯坦福大学研究人员发布的Octopusv2模型引起了开发者社区的极大关注，其20亿参数的模型一夜下载量超过2k。这一模型可以在智能手机、汽车、个人电脑等端侧设备上运行，并在准确性和延迟方面表现超越了GPT-4，同时将上下文长度减少了95%。设备端AI智能体时代即将到来，Octopusv2的发布为这一趋势注入了新的活力。

Octopusv2 AI头条
谷歌AI提出MathWriting:整合人工书写和合成数据集等改变手写数学表达式识别

在线文本识别模型取得了显著进展，但数学表达识别作为更为复杂的任务仍未得到足够关注。谷歌研究团队推出了MathWriting，一个专注于在线手写数学表达的数据集，包含230k人工编写和400k合成样本，超越了类似IM2LATEX-100K的离线HME数据集。未来的研究可以专注于优化训练/验证/测试分割以及开发针对数学表达的语言模型。

MathWriting 谷歌AI AI头条
荐李飞飞团队年度报告揭底大模型训练成本：Gemini Ultra是GPT-4的2.5倍

如何复盘大模型技术爆发的这一年?除了直观的感受，你还需要一份系统的总结。斯坦福HAI研究所发布了第七个年度的AIIndex报告，这是关于人工智能行业现状的最全面的报告之一。该指数中的其他图表显示，不同人群的观点存在显著差异，年轻人更倾向于乐观地看待人工智能将如何改变他们的生活。

李飞飞 GeminiUltra GPT-4
谷歌DeepMind推出“超人类”AI系统SAFE，擅长事实核查，节约成本并提高准确性

谷歌DeepMind的研究团队发布了一项新研究，介绍了一种名为“Search-AugmentedFactualityEvaluator”的人工智能系统。该系统利用大型语言模型将生成的文本分解成个别事实，并利用谷歌搜索结果来确定每个声明的准确性。我们才能评估自动事实检查对打击错误信息的实际影响。

DeepMind AI系统 AI头条
荐从小数据到大模型，“AI+”何以落地？

南京师范大学附属中学宿迁分校成立智慧教学小组，并以周为单位，对教师的智慧课堂应用数据进行复盘;中国人民大学附属中学丰台学校的教师们，已经习惯于课后通过课堂智能反馈系统总结自己的上课情况;而通过集体备课平台，北京师范大学广州实验学校的教师们可以随时随地进行线上交流互动和资源共享……在全国各地的中小学，AI技术正与教育不断融合。变化背后，有�

大模型
荐苹果开源OpenELM，大模型开源领域再迎一巨头！

4月24日，苹果开源了大语言模型OpenELM。这与微软刚开源的Phi-3Mini类似，是一款专门针对手机等移动设备的模型。这次苹果真的是很有诚意的开源，一开到底所有内容都贡献出来了，家大业大就是敢玩。

OpenELM 开源
谷歌整合 AI 重心，DeepMind 和研究团队合并

谷歌在周四宣布将整合旗下专注于构建人工智能模型的两个内部团队。Alphabet和谷歌CEO桑达尔・皮查伊在公司网站上发布了一篇博客文章，解释了将AI模型构建团队整合到谷歌DeepMind团队内的决定，其中包括来自公司研究部门的团队。公司还将其他责任团队划归到其中央信任与安全团队，公司正在加大对AI测试和评估的投资。

DeepMind AI头条
元象大模型开源30款量化版本可更低成本部署

元象大模型开源了30款量化版本，支持vLLM和llama.cpp等主流框架的量化推理，无条件免费商用。对量化前后的模型能力、推理性能进行评估，以XVERSE-13B-GPTQ-Int4量化版本为例，量化后模型权重压缩了72%，总吞吐提高了1.5倍，同时保留了95%的能力。元象大模型的开源量化版本提供了方便快捷的部署方式，可以根据需求选择不同的框架和精度模型进行部署和推理。

元象大模型量化版本推理性能
破解36年前魔咒！Meta推出反向训练大法消除大模型「逆转诅咒」

【新智元导读】大语言模型的「逆转诅咒」，被解开了。来自MetaFAIR的研究人员推出了反向训练大法，让模型从反方向上学到了事实之间的逻辑，终于改进了这个困扰人们已久的问题。36年前的预言1988年，Fodor和Pylyshyn在《认知》刊物上发了一篇关于思维的系统性的文章。

Meta 大模型

今日大家都在搜的词：

热文

3 天
7天

苹果研究团队揭示WRAP技术：用合成数据进行预训练大模型 成本低准确性高

今日大家都在搜的词：

热文

站长商机

苹果研究团队揭示WRAP技术：用合成数据进行预训练大模型成本低准确性高