首页 > 业界 > 关键词  > WRAP最新资讯  > 正文

苹果研究团队揭示WRAP技术:用合成数据进行预训练大模型 成本低准确性高

2024-02-05 10:20 · 稿源:站长之家

**划重点:**

1. 🔄 **预训练效率提升:** WRAP应用于嘈杂的C4数据集,预训练速度提高了近三倍,显著降低了LLM训练的高昂成本和时间投入。

2. 🚀 **模型性能提升:** WRAP在相同计算预算下使模型性能更出色,通过使用Pile的不同子集,减少了超过10%的歧义,并在13种不同活动的零-shot问题回答准确性上提高了超过2%。

3. 📝 **重新构造网络文档:** WRAP使用中等规模的LLM对网络文档进行改写,以多种风格呈现。

站长之家(ChinaZ.com)2月5日 消息:近几个月来,大型语言模型(LLMs)在人工智能社区中引起了极大的关注和流行。这些模型在文本摘要、问答、代码完成、内容生成等任务中展示出了强大的能力。

然而,LLMs通常在不充分的网络抓取数据上进行训练。这些数据通常杂乱、无结构,表达不清晰。按照现有的扩展原则,即随着模型规模的增加,计算能力和数据量也应该成比例增加,这带来了挑战。

困扰研究人员的主要问题有两个。首先,预训练涉及显着的计算成本和时间。其次,互联网上高质量数据的稀缺性问题迫在眉睫。在最新的研究中,来自苹果和卡内基梅隆大学的研究团队通过引入Web Rephrase Augmented Pre-training(WRAP)的概念,解决了这些问题。

WRAP是一种创新方法,利用已存在的、经过指令调整的LLM。这个LLM用于将在线页面改写成特定风格,包括模仿维基百科的语气或将文本转换为问答格式。WRAP的主要目标是通过添加真实和人工改写的数据来提高LLMs的预训练效果。

AI换脸 人脸识别 (2)

图源备注:图片由AI生成,图片授权服务商Midjourney

WRAP的主要特点包括:

- **预训练效率:** 将WRAP应用于嘈杂的C4数据集,显著加快了预训练速度,约为三倍。这种效果对于减少与LLM训练通常相关的高昂费用和时间投入至关重要。

- **模型性能提升:** WRAP在相同的计算预算下使模型性能更出色。使用Pile的不同子集减少了超过10%的歧义,提高了13种不同活动的零-shot问题回答准确性超过2%。

- **网络文档改写:** WRAP使用中等规模的LLM对网络文档进行改写,呈现多种风格。这种方法不同于创建新数据,而是通过改进已有内容,保持原始信息的质量和多样性。

WRAP生成的合成数据有两个主要好处。首先,它包含反映应用中使用的语言多样性的各种风格。有了这种多样性,LLM更好地为更广泛的实际事件做好准备。其次,WRAP改写的合成数据比原始网络抓取的数据质量更高。这种质量的提升源于语言更有序、更连贯,从而促进更有效的模型学习。

WRAP是LLM预训练领域的一项重大进展。通过使用高质量、不同风格的合成数据,WRAP不仅加速了训练过程,还提高了LLMs的整体性能。考虑到低质量网络数据的丰富性和经典LLM训练方法的资源密集性,这种方法提供了一种可能的前进方式。

论文网址:https://arxiv.org/abs/2401.16380

举报

  • 相关推荐
  • 大模型时代的新燃料|标贝科技推出大规模拟真多风格语音合成数据

    本文探讨了人工智能语音交互领域的发展现状与挑战。文章指出,大模型技术驱动下语音交互应用场景持续拓展,但面临数据质量、隐私合规等挑战。当前语音大模型训练需要TB至PB级数据,而传统数据供给模式难以满足需求。合成数据作为真实数据的重要补充,能通过参数化生成机制规避隐私风险,突破传统数据在多样性和场景覆盖上的局限性。国内外科技企业已开始广泛应用合成数据训练AI模型,如Meta的LLaMA3和微软的Phi-4模型。标贝科技推出超大规模拟真多风格语音合成数据集,包含上万小时数据,覆盖中英混合场景,支持情感合成、风格迁移等前沿任务,为虚拟偶像、数字人等元宇宙场景提供实时语音生成方案。该数据集基于32kHz高保真采样率技术,在自然度、流畅度等方面达到行业领先水平。

  • 何小鹏“剧透”:小鹏训练的一个物理大模型 是国内车企“独一份”

    快科技4月14日消息,今日早间,小鹏汽车创始人何小鹏在社交平台发帖称:作为最早把「智能化」作为核心的车企,小鹏的本质是「AI汽车公司」,我认为AI 最大的价值在于改变物理世界,而不仅是数字世界,我们要做一家面向全球的AI汽车公司,我更想通过 AI 来改变物理世界,这是很有意义的,但难度也更大。小鹏坚持全栈自研,去年率先在自动驾驶领域引入强化学习、模型

  • 合合信息发布“大模型加速器 2.0”,助力大模型跨越“幻觉”障碍

    近日,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,凭借其多维度升级,为降低大模型“幻觉”风险、推动大模型精准应用提供了强大助力。训练数据是影响大模型“认知能力”的关键,合合信息“大模型加速器 2.0”基于领先的智能文档处理技术,从数据源头入手,对复杂文档的版式、布局和元素进行精准解析及结构化处理,

  • 免登录AI聚站!当贝AI宣告新一轮技术迭代:五大模型9种形态

    当贝AI宣布完成新一轮技术迭代,整合DeepSeek-R1671B和DeepSeek v3大模型,推出覆盖办公、娱乐、生活等多场景的智能解决方案。此次升级从单一工具向"超级AI中枢"转型,以隐私安全、技术普惠与场景融合为核心,新增9种模型形态,支持语音播报、附件上传、知识库等功能。平台首创"无痕模式"实现端侧数据处理,保障隐私安全;个人知识库支持本地文档智能解析。�

  • 联想直营体系赋能技术平权!来酷科技首发大模型极简部署方案

    近日,联想集团旗下智慧零售与智能制造企业来酷科技,运营的全国联想直营店正式推出“DeepSeek R1 模型本地部署服务”。作为联想集团面向终端消费者的直营零售与直营服务窗口,来酷科技以 129 元普惠价面向全网开售该服务,通过“智能识别PC配置+一键轻松安装”的极简方式,将前沿AI大语言模型轻量化部署至本地计算机,实现从“云端依赖”到“端侧自主”的跨越。这不�

  • 酒仙桥论坛 | 大模型 “燃料荒” 如何破?可信数据打造智能时代新底座

    · 首届酒仙桥论坛, 6 天 11 场分论坛“AI 马拉松”持续热跑中,聚焦人工智能“产业创新应用、生态发展和数智未来”,政、产、学、研多方力量共议AI黄金发展期的机遇与挑战,搭建务实对话桥梁,加速科技创新和产业创新融合。4月17日上午,酒仙桥论坛可信数据服务专场顺利召开。在这场以“可信数据服务”为焦点的分论坛上,产学研专家从行业洞察与业务实践出发,围�

  • 奔驰新款CLA接入豆包大模型

    4月22日,奔驰与火山引擎合作的首款国产纯电车型CLA全球首发亮相。该车搭载奔驰自研MB.OS架构,接入火山引擎大模型,支持个性化智能交互体验。智能系统可识别4种情绪并给予反馈,交互效率提升50%,唤醒仅需0.2秒。虚拟助手能解答百科问题并协助车辆功能设置。这是双方继2024年8月达成AI战略合作后落地的首款量产车型,结合生成式AI和大数据技术,为中国用户打造更智能的用车体验。

  • 迅雷一键即可完成大模型下载

    近日,迅雷为提升用户使用体验,让用户能够更快更好地批量下载大模型所有文件,已针对大模型下载场景进行了优化,并上线了新版本插件,下载迅雷客户端且在浏览器安装迅雷插件即可使用。值得一提的是,在使用迅雷该插件功能创建任务时,将同时创建相对应的文件夹,下载完成后,所有文件都将在一个文件夹中,相比传统浏览器——需要用户逐个手动点击下载图标并�

  • 微算法科技(MLGO)利用逻辑回归和 LSTM 机器学习模型准确比特币价格预测算法技术

    微算科技(NASDAQ:MLGO)开发的LR-LSTM比特币价格预测技术,结合逻辑回归和长短期记忆网络优势,能更准确预测比特币价格波动。该技术通过多层次特征学习和时间序列建模,处理市场供需、交易量等基本特征,同时捕捉价格序列中的长期依赖关系。相比传统统计模型,LR-LSTM能更好适应数字货币市场的高波动性,为投资者提供可靠决策支持。实时更新和反馈机制确保模型随市场变化保持准确性,帮助投资者降低交易风险,把握市场机会。

  • 微信,OpenAI和Kimi想一起去了:大模型的尽头依然还是社交平台

    AI圈最近弥漫着一股微妙的气息。人们似乎不再热议大语言模型的最新突破、以及AI应用的无限可能时,一些代表着未来的AI巨头,却似乎正将目光投向互联网那熟悉得不能再熟悉的角落——社交网络与社区。近期的传闻和动作颇具代表性,在大洋彼岸,手握ChatGPT和Sora等王牌的OpenAI,据称正内部测试类X的社交功能,其CEO Sam Altman甚至在私下征求反馈;而在国内,凭借长文本能力