Together AI发布RedPajama v2：包内30万亿token数据集，用于训练大型语言模型

2023-11-06 10:03 · 稿源：站长之家

划重点:
📌 高质量数据对于像Llama、Mistral、Falcon、MPT和RedPajama等最先进的开放式LLM的成功至关重要。
📌 Together.ai的研究人员发布了RedPajama-1T，这是一个5TB的数据集，拥有1万亿高质量英语token，而RedPajama-V2则是一个30万亿token的在线数据集。
📌 这个数据集的构建强调了对CommonCrawl的覆盖，包括原始数据、高质量注释和去重集群，为LLM的培训提供了有力的基础。

站长之家（ChinaZ.com）11月6日消息:Together AI最近发布了RedPajama v2，这是一个庞大的在线数据集，包含了30万亿token，成为目前公开可用的最大数据集之一，专门用于学习型机器学习系统的培训。

对于像Llama、Mistral、Falcon、MPT和RedPajama等最先进的开放式LLM，高质量的数据至关重要，但由于HTML到纯文本的转换引发的异常、通常质量较低的数据来源以及网络内容传播中固有的偏见，这些数据未经精细处理，不适合直接用于LLM的培训。因此，获取正确的数据集和数据混合是一项耗时、资源丰富且昂贵的任务。

注：图片来自项目官网

此前，Together.ai的研究人员已经发布了RedPajama-1T，这是一个5TB的数据集，其中包含了1万亿高质量的英语token，但他们并未止步于此。RedPajama-V2是它的继续，构建了一个30万亿token的在线数据集。

研究团队认为，RedPajama-Data-v2将为LLM培训提供一个在线数据的存储库，可用作提取高质量数据集的基础，并为深入研究LLM培训数据提供基础。值得注意的是，RedPajama-V2强调了对CommonCrawl的覆盖，包括84个已处理的抓取数据，而且还包括了40多个高质量注释，这些注释是通过多个ML分类器对数据质量、minhash结果等进行的，可用于模糊去重或启发式操作。LLM开发者可以使用这些注释来快速轻松地生成自己的自定义预训练数据集，通过切片和筛选公开可用的数据。

RedPajama-V2的主要焦点是CommonCrawl，它是从头开始构建的，使用了84个CommonCrawl的抓取数据和其他公开可用的网络数据。该数据集包括原始数据（纯文本）、40多个高质量注释和去重集群。为了保持尽可能多的数据原始性，并让模型构建者在流水线中进行自己的筛选和重新加权，每个CommonCrawl快照都首先经过CCNet流水线的处理。同时，研究人员还计算了40多个最流行的高质量注释，以及由CCNet处理的文本文档。这些注释的主要目标是促进对其最佳用法的研究，并使下游模型开发者能够根据自己的标准对数据集进行筛选或重新加权。此外，他们还希望随着社区的帮助，逐渐添加更多的高质量信号。

RedPajama-V2包括了1130亿份文档，涵盖了英语、德语、法语、西班牙语和意大利语，是通过处理84个CommonCrawl抓取数据而获得的。尽管去重后，头部和中部分区的文档和token数量减少了60%，但文档数量减少了71%，这表明尾部的文档通常较短。使用Bloom过滤器对头部和中部文档进行去重后，数据集减少了大约40%。文本文档占据了数据集的大部分内容，包括高质量注释和去重集群，其布局与CCNet规定的非常相似。

研究团队希望很快扩展他们目前的高质量注释集，包括与广泛使用的LLM基准相比的污染注释、每个文档的主题建模和分类注释，以及引起社区兴趣的其他注释。这一工作将为LLM领域的研究和应用提供更多的有力数据支持。

https://github.com/togethercomputer/RedPajama-Data

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档中，高效信息提取的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路，标志着该领域迈出了重要的一步。

AI 语言模型 AI头条
苹果开发设备内运行的大型语言模型优先考虑速度和隐私

苹果公司正在开发自己的大型语言模型。这款模型将能够在设备上本地运行，从优先考虑速度和隐私保护。苹果更广泛的人工智能战略预计将在6月份的WWDC上与主要软件更新预览一起公布。
Meta AI 发布开源基准数据集OpenEQA 促进AI代理的 “体验智能”

MetaAI研究人员今天发布了OpenEQA，这是一个新的开源基准数据集，旨在衡量人工智能系统对“体验式问答”的能力——这种能力使人工智能系统能够理解现实世界，从回答有关环境的自然语言问题。这一数据集被Meta定位为“体验智能”领域的关键基准，其中包含超过1，600个关于180多个真实环境的问题。为了衡量人工智能代理的性能，研究人员使用大型语言模型自动评分，衡量人工智能生成的答案与人类答案的相似程度。

Meta OpenEQA AI头条
谷歌AI提出MathWriting:整合人工书写和合成数据集等改变手写数学表达式识别

在线文本识别模型取得了显著进展，但数学表达识别作为更为复杂的任务仍未得到足够关注。谷歌研究团队推出了MathWriting，一个专注于在线手写数学表达的数据集，包含230k人工编写和400k合成样本，超越了类似IM2LATEX-100K的离线HME数据集。未来的研究可以专注于优化训练/验证/测试分割以及开发针对数学表达的语言模型。

MathWriting 谷歌AI AI头条
Meta新大语言模型LLama 3将在英特尔和高通硬件上运行

Meta最近发布了LLama3，这是一款新的大型语言模型，用于实现更安全、更准确的生成式人工智能体验。除了LLM，Meta还推出了LlamaGuard2、CodeShield和CyberSecEval2等信任和安全工具，以帮助确保符合行业和用户安全期望。随着400亿参数显示出更高的准确性，可以推断出更高的AI硬件需求不会很快减少。

Meta LLama3 AI头条
Meta即将推出新一代Llama3大语言模型

MetaPlatforms公司计划在下周推出Llama3大语言模型的两个小参数版本，作为即将在2024年夏天推出的Llama3最大版本的前奏。Llama3最高版本可能拥有超过1400亿个参数，这将使其性能有望赶上OpenAI最新的GPT-4Turbo版本。Meta正在全力推进Llama3的开发，这不仅体现了该公司在AI领域的野心，也为用户带来了更加智能和开放的AI服务的期待。

语言模型 Llama3 多模态技术
OpenAI计划建立「数据市场」，训出GPT-5短缺20万亿 token

全网高质量数据集告急!据报道，AI公司如OpenAI、Anthropic等正在努力寻找足够的信息来训练下一代人工智能模型。数据短缺问题日益突出，对训练下一代强大模型至关重要。从合成数据到建立数据市场，AI领域正在不断寻求突破，以确保训练下一代强大人工智能模型所需的数据资源。

OpenAI GPT-5 GPT-5
开源AI平台Lightning AI发布AI编译器“Thunder”以加速模型训练

开源人工智能平台LightningAI宣布与Nvidia合作，发布了名为“Thunder”的下一代AI编译器，旨在加速人工智能模型的训练速度。据LightningAI称，该编译器在实际场景中相比未优化的代码，可将大型语言模型的训练速度提高高达40%。LightningStudios的产品可以按四个定价级别购买:个人开发者免费，工程师、研究人员和科学家专业级;初创公司和团队的团队级别，以及大型组织的企业级别。

LightningAI Thunder AI编译器
Llama 3官网体验入口 Meta最新开源语言模型免费使用地址

MetaLlama3是Meta公司最新推出的一款开源大型语言模型。它在多项行业基准测试中表现出色，性能卓越，可支持广泛的使用场景，包括改善推理能力等新功能。要了解更多信息，请访问MetaLlama3官方网站。

Llama3 Meta 开源模型
EleutherAI发布最新模型Pile-T5 解决代码处理相关任务局限性

EleutherAI最近发布了一款新的T5模型，名为Pile-T5，旨在解决原始T5模型在处理代码相关任务时的局限性，以及其分词器可能遗漏重要代码标记的问题。Pile-T5模型的推出，标志着在自然语言处理和代码理解领域的一个重大进步。Pile-T5在这一任务上的提升，进一步证实了其在代码相关任务上的优势。

EleutherAI AI头条

今日大家都在搜的词：

热文

3 天
7天

Together AI发布RedPajama v2：包内30万亿token数据集，用于训练大型语言模型

今日大家都在搜的词：

热文

站长商机