Together AI发布RedPajama v2 用于大模型训练

2023-11-06 10:06 · 稿源：站长之家

要点:
1. Together AI发布了RedPajama v2，这是一个包含30万亿标记的开放数据集，用于训练大型语言模型。
2. 这个数据集的目的是提供高质量的数据，以支持开放式大型语言模型的成功发展。
3. 数据集包含来自CommonCrawl和其他公开可用网络数据的原始文本数据，以及超过40个质量注释和去重集群。

站长之家（ChinaZ.com）11月6日消息:Together AI发布了RedPajama v2，这是一个包含30万亿标记的数据集，旨在支持大型语言模型的研究和开发。高质量的数据对于这些模型的成功至关重要，但获取适当的数据集是一项繁琐的任务，需要大量时间、资源和金钱。

研究人员从CommonCrawl和其他公开可用的网络数据中提取了原始文本数据，其中包括40多个质量注释和去重集群。他们计划扩展这些注释，以包括与常用LLM基准的比较、主题建模和分类注释等内容，以促进更深入的研究。

地址:https://together.ai/blog/redpajama-data-v2

RedPajama v2的数据集还经过最小处理，以保持尽可能多的原始数据，并让模型构建者在后续处理中进行过滤和重新加权。这个数据集的覆盖面是前所未有的，涵盖了CommonCrawl的多个处理转储。

通过这一举措，研究人员为语言模型的开发和研究提供了更多的资源和工具，有助于改进模型的性能和应用领域。

这一数据集的发布对于AI研究和应用领域具有重要意义，为开发更强大的语言模型提供了支持和基础，有望推动AI领域的进一步发展。

（举报）

相关推荐

关键词：

2025乌镇峰会：易鑫发布汽车金融行业首个Agentic大模型XinMM-AM1

易鑫集团在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型具备300亿参数、响应延迟低于200ms等技术优势，能提升获客、风控与运营效率，优化用户体验。通过全链路智能决策能力，推动行业从"单点智能"转向"整体高效"。配套SaaS平台已覆盖超4万家经销商及百余家金融机构，显著提高融资通过率与业务质量，填补领域技术空白，引领汽车金融智能化发展。

汽车金融 Agentic大模型 XinMM-AM1
鸿蒙办公再度进化，真的二合一华为MatePad Edge惊艳亮相

11月19日，华为发布首款鸿蒙二合一平板电脑MatePad Edge，标志着二合一设备进入新阶段。该产品通过系统级融合能力，实现平板与电脑生态无缝切换，支持触控、键盘等多模式操作，配备14.2英寸OLED屏幕与高效散热设计，解决传统二合一设备性能与交互痛点。同时，鸿蒙系统6带来AI增强、互联体验升级。华为将持续探索设备融合，开启智能办公新篇章，产品将于11月25日正式上市。

华为MatePad Edge 鸿蒙二合一
荐AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发布；中文图像编辑新王UniWorld-V2发布

今日AI领域动态：上海首例AI提示词著作权案宣判，法院认定提示词不具独创性；月之暗面发布Kimi K2思考模型，实现自主多轮工具调用；UniWorld-V2图像编辑模型支持中文框选即改，性能超越GPT-Image；谷歌推出AI文件检测工具Magika 1.0，支持超200种格式；Sora安卓版首日下载量达47万次；我国发布全球首个AI海洋大模型“瞰海”，可精准预测10天内海洋变化；宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控；谷歌Gemini API推出文件搜索工具，简化私有RAG系统集成。

AI 著作权提示词
华为MatePad Edge首次实现平板、电脑深度融合：四指横滑无缝切换

华为MatePad Edge二合一平板电脑今天正式公布，依托于鸿蒙系统在平板和电脑的全方位布局，在底层架构上让平板生态和电脑生态完美融合。在鸿蒙电脑系统诞生之后，华为消除了平板与电脑之间的生态壁垒，用户既能畅享完整的移动娱乐与创作生态，也能无缝进入PC级的专业办公环境。

华为MatePad 鸿蒙系统二合一平板
余承东官宣华为MatePad Edge：鸿蒙二合一平板电脑

今日，华为常务董事、产品投资委员会主任、终端BG董事长余承东发布视频，正式揭开华为MatePad Edge的神秘面纱。这款超旗舰新品定位为鸿蒙二合一平板电脑，既是巨幕平板，又具备性能电脑的强大实力。据数码博主“数码闲聊站”爆料，华为MatePad Edge亮点颇多。在屏幕方面，它采用14.2英寸OLED屏幕，并且提供柔光屏版本，能够为用户带来更为出色的视觉体验。性能上，该机�

华为MatePad Edge 鸿蒙二合一平板
Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

2025年11月15日，Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版，依托自研生存式大模型与AI Agent技术，打破创意领域垂直局限，构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果，实现从平面图到施工图的全流程高效生成。同时，Billus AI同步打造“创意设计超级员工+产业链智能体”体系，探索生成式创意与供应链智能推荐的新商业路径，助力行业从“经验驱动”向“数据智能”跃迁。

高交会 Billus毕鲁斯多模态大模型
首款鸿蒙二合一平板电脑！华为MatePad Edge搭载麒麟9 PC级芯片、双界面切换

华为宣布，首款鸿蒙二合一平板电脑华为MatePad Edge将于11月25日正式发布。据数码博主数码闲聊站”爆料，华为MatePad Edge搭载麒麟9 PC级芯片，支持65W充电，顶配提供24GB 1TB版本，并内置主动散热风扇，释放更强性能，可让《原神》等大型游戏比普通平板运行更流畅。该机正面配备14.2英寸超大屏幕，可选柔光屏版本，更护眼。同时支

华为MatePad Edge 鸿蒙二合一平板
易鑫正式发布汽车金融行业首个Agentic大模型

易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿，响应延迟低于200毫秒，支持语音实时交互，单卡吞吐达370 tokens/秒，可提升获客、风控与运营效率，解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台，研发投入超20亿元，率先实现AI全场景应用，将持续推动智能汽车金融生态建设。

汽车金融大模型易鑫
荐AI日报：百度发布文心5.0；可灵2.5Turbo模型上线“首尾帧”功能；微博推出 VibeThinker-1.5B

本期AI日报聚焦多项技术突破：OpenAI推出GPT-5.1，提升对话自然度与响应速度；百度发布原生全模态大模型文心5.0，支持跨文本图像生成；微博开源VibeThinker-1.5B模型，以低成本实现高效推理；可控视频生成模型新增首尾帧控制功能；李飞飞团队推出商用3D世界生成工具Marble；东北大学开源多语言翻译模型支持60种语言；谷歌Gemini语音功能升级实现更自然交互；阿里启动“千问”项目对标ChatGPT，全面布局C端AI应用竞争。

AI视频生成可灵2.5Turbo 首尾帧功能
华为Mate 80系列、Mate X7定档11月25日发布

华为将于11月25日14:30举行新品发布会，推出Mate80系列和Mate X7折叠旗舰。Mate80系列包括四款机型，搭载全新麒麟9030处理器和鸿蒙OS6系统，性能与流畅度显著提升，并提供多样配色。Mate X7配备7.95英寸2K内屏，采用UTG超薄柔性玻璃，搭载麒麟9030处理器，电池容量更大，影像能力升级，拥有五款时尚配色。新品引发科技圈和消费者高度期待。

华为Mate80 麒麟9030 鸿蒙OS6

今日大家都在搜的词：

热文

3 天
7天

Together AI发布RedPajama v2 用于大模型训练

2025乌镇峰会：易鑫发布汽车金融行业首个Agentic大模型XinMM-AM1

鸿蒙办公再度进化，真的二合一华为MatePad Edge惊艳亮相

荐AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发布；中文图像编辑新王UniWorld-V2发布

华为MatePad Edge首次实现平板、电脑深度融合：四指横滑无缝切换

余承东官宣华为MatePad Edge：鸿蒙二合一平板电脑

Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

首款鸿蒙二合一平板电脑！华为MatePad Edge搭载麒麟9 PC级芯片、双界面切换

易鑫正式发布汽车金融行业首个Agentic大模型

荐AI日报：百度发布文心5.0；可灵2.5Turbo模型上线“首尾帧”功能；微博推出 VibeThinker-1.5B

华为Mate 80系列、Mate X7定档11月25日发布

今日大家都在搜的词：

热文

华为Mate X7外观公布搭载全新折叠玄武架构

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

董明珠再回应玫瑰空调：创新尝试打造家电艺术品

华为Mate X7今日开启预订搭载第二代红枫影像等配置

苹果回应iPhone17PM被湿巾擦掉色：高浓度酒精或是诱因

参与开发iPhoneAir设计师离职转投AI初创公司

AI日报：谷歌Gemini 3 Pro Preview模型上线；Cloudflare文件异

华为FreeBuds Pro 5悦彰耳机价格公布：1449元支持星闪音频

小米端到端辅助驾驶“Xiaomi HAD增强版”将于11月12日发布

小米AI眼镜推出1.4.16.0固件版本支持英语口语陪练

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大

华为Mate X7外观公布搭载全新折叠玄武架构

阿里巴巴回应千问崩了：状态良好欢迎来问

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

荣耀500系列官宣将于11月24日发布

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

小米超级小爱AI大模型推出随心修图功能

站长商机