首页 > 业界 > 关键词  > RedPajamav2最新资讯  > 正文

Together AI发布RedPajama v2:包内30万亿token数据集,用于训练大型语言模型

2023-11-06 10:03 · 稿源:站长之家

划重点:

📌 高质量数据对于像Llama、Mistral、Falcon、MPT和RedPajama等最先进的开放式LLM的成功至关重要。

📌 Together.ai的研究人员发布了RedPajama-1T,这是一个5TB的数据集,拥有1万亿高质量英语token,而RedPajama-V2则是一个30万亿token的在线数据集。

📌 这个数据集的构建强调了对CommonCrawl的覆盖,包括原始数据、高质量注释和去重集群,为LLM的培训提供了有力的基础。

站长之家(ChinaZ.com)11月6日 消息:Together AI最近发布了RedPajama v2,这是一个庞大的在线数据集,包含了30万亿token,成为目前公开可用的最大数据集之一,专门用于学习型机器学习系统的培训。

对于像Llama、Mistral、Falcon、MPT和RedPajama等最先进的开放式LLM,高质量的数据至关重要,但由于HTML到纯文本的转换引发的异常、通常质量较低的数据来源以及网络内容传播中固有的偏见,这些数据未经精细处理,不适合直接用于LLM的培训。因此,获取正确的数据集和数据混合是一项耗时、资源丰富且昂贵的任务。

image.png

注:图片来自项目官网

此前,Together.ai的研究人员已经发布了RedPajama-1T,这是一个5TB的数据集,其中包含了1万亿高质量的英语token,但他们并未止步于此。RedPajama-V2是它的继续,构建了一个30万亿token的在线数据集。

研究团队认为,RedPajama-Data-v2将为LLM培训提供一个在线数据的存储库,可用作提取高质量数据集的基础,并为深入研究LLM培训数据提供基础。值得注意的是,RedPajama-V2强调了对CommonCrawl的覆盖,包括84个已处理的抓取数据,而且还包括了40多个高质量注释,这些注释是通过多个ML分类器对数据质量、minhash结果等进行的,可用于模糊去重或启发式操作。LLM开发者可以使用这些注释来快速轻松地生成自己的自定义预训练数据集,通过切片和筛选公开可用的数据。

RedPajama-V2的主要焦点是CommonCrawl,它是从头开始构建的,使用了84个CommonCrawl的抓取数据和其他公开可用的网络数据。该数据集包括原始数据(纯文本)、40多个高质量注释和去重集群。为了保持尽可能多的数据原始性,并让模型构建者在流水线中进行自己的筛选和重新加权,每个CommonCrawl快照都首先经过CCNet流水线的处理。同时,研究人员还计算了40多个最流行的高质量注释,以及由CCNet处理的文本文档。这些注释的主要目标是促进对其最佳用法的研究,并使下游模型开发者能够根据自己的标准对数据集进行筛选或重新加权。此外,他们还希望随着社区的帮助,逐渐添加更多的高质量信号。

RedPajama-V2包括了1130亿份文档,涵盖了英语、德语、法语、西班牙语和意大利语,是通过处理84个CommonCrawl抓取数据而获得的。尽管去重后,头部和中部分区的文档和token数量减少了60%,但文档数量减少了71%,这表明尾部的文档通常较短。使用Bloom过滤器对头部和中部文档进行去重后,数据集减少了大约40%。文本文档占据了数据集的大部分内容,包括高质量注释和去重集群,其布局与CCNet规定的非常相似。

研究团队希望很快扩展他们目前的高质量注释集,包括与广泛使用的LLM基准相比的污染注释、每个文档的主题建模和分类注释,以及引起社区兴趣的其他注释。这一工作将为LLM领域的研究和应用提供更多的有力数据支持。

https://github.com/togethercomputer/RedPajama-Data

举报

  • 相关推荐
  • 未来iPad mini/iPad Air/MacBook都将升级OLED屏:LCD退场

    苹果正在研发搭载OLED显示屏的iPad mini、iPad Air、MacBook Pro和MacBook Air机型,苹果已在iPad Pro中采用OLED屏,并计划在未来数月及数年内将OLED推广到更多设备上,从而淘汰LCD屏幕。 具体来看,iPad mini最快会在2026年配备OLED屏,同时会提升防水性能,新款iPad mini也因此涨价100美元。 至于iPad Air,其商用OLED的时间要晚于iPad mini,爆料称2026年春季亮相的iPad Air将继续使用LCD屏幕,但后续

  • 只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。

    ​这几天,OCR这个词,绝对是整个AI圈最火的词。因为DeepSeek-OCR,甚至让OCR这个赛道文艺复兴,又给直接带火了。 整个Hugging Face的趋势版里,前4有3个OCR,甚至Qwen3-VL-8B也能干OCR的活,说一句全员OCR真的不过分。 然后在我上一篇讲DeepSeek-OCR文章的评论区里,有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比,也有很多人都在问,能不能再解读一下百度那个OCR模型(也就是PaddleOCR-VL

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • 科灯跨境黑五超值建站季:WordPress/Woo标准版八折 Shopify免费建站

    科灯跨境在双十一期间推出两大建站方案:WordPress/Woo标准版享八折优惠,原价3980元折后3180元;WooCommerce建站版原价5980元活动价4780元,均含域名、SSL证书等基础配置。另针对Shopify用户提供免费建站服务,含账号注册、主题安装等全流程支持及一年免费售后。活动持续至11月30日,旨在降低外贸商家独立站搭建成本,提供一站式出海解决方案。

  • iPad、Mac新品京东跌破底价 国补可用地区、优惠力度都秒杀隔壁

    10月22日,搭载M5芯片的MacBook Pro和iPad Pro正式开售,起售价分别为12999元和8999元。恰逢双11大促,各大电商平台推出不同优惠:京东MacBook Pro最高优惠4000元,iPad Pro优惠超2000元;天猫提供消费券和88VIP专属折扣,MacBook Pro可享国家补贴。建议消费者对比各平台优惠力度及服务保障,结合性能升级综合决策。

  • 连续三年折桂!瓴羊Dataphin荣膺2025年度DAMA数据治理优秀产品奖!

    2025全球数据管理峰会以“数据×人工智能”为主题,聚焦行业最佳实践,构建从理念探讨到技术落地的完整交流链。会上,瓴羊与DAMA联合发布数据治理实践证书体系,覆盖数据分析等认证,旨在提升全民数据素养。瓴羊副总裁王赛提出Data与AI双向赋能重构企业数字化生产力,强调未来系统需支持自主决策与自动化执行。以快消品牌为例,通过Quick BI智能分析工具实现业务效率提升。瓴羊Dataphin平台助力企业构建AI友好型数据模型,连续三年获“数据治理优秀产品”大奖,提供全链路数据服务,加速释放数据价值。

  • 华为MatePad Pro流金典藏版开卖:售价7799元

    华为正式发布MatePad Pro 12.2英寸流金典藏版,售价7799元。新品搭载双OLED云晰柔光屏,分辨率达2800×1840,配备10100mAh电池及前后置摄像头组合。预装鸿蒙5系统,支持WPS Office AI办公功能与剪映专业版,带来流畅移动办公体验。小艺助手新增智能分屏、文档摘要及识屏对话功能,配合手写笔实现高效操作,被誉为“鸿蒙最强生产力平板”。

  • iPad mini 8外观巨变:去掉扬声器开孔

    iPad mini 8将采用全新设计,去掉扬声器开孔并提升防水性能,同时苹果也在为iPad mini 8研发一套新的扬声器系统。 据悉,iPad mini 8可能采用屏幕激励器方案,通过驱动屏幕振动来发出声音,其原理是将振动机械能直接传输到屏幕,然后让屏幕代替传统扬声器振膜发声。 具体来说,它是通过在机身内部的微驱动单元(激励器)来激励中框 ,从而带动屏幕振动发声。

  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

  • 华为MatePad Mini典藏版今日开售:售价5999元起

    10月27日,华为MatePad Mini典藏版正式开售,起售价5999元。作为华为首款8.8英寸小尺寸平板,该机在性能与功能上实现全面突破,堪称史上最强小平板。配备8.8英寸柔性OLED云晰柔光屏,支持P3广色域、1800nits峰值亮度及120Hz高刷,显示效果出色。通讯方面支持插卡通话、Wi-Fi7及北斗卫星消息,确保户外畅联。搭配M-Pencil Pro手写笔与智能皮套,支持专业绘画及会议语音实时转写功能,办公创作体验全面升级。

今日大家都在搜的词: