首页 > 业界 > 关键词  > HuggingFace最新资讯  > 正文

HuggingFace推出的开放合成数据集Cosmopedia 250亿个tokens

2024-02-21 16:41 · 稿源:站长之家

划重点:

- 🌍 Cosmopedia v0.1是由 Mixtral7b 生成的最大开放合成数据集,包含超过3000万个样本,总共约250亿个tokens。

- 💻 数据集汇编了来自网页数据集(如 RefinedWeb 和 RedPajama)的信息,涵盖教科书、博客文章、故事和 WikiHow 文章等各种内容类型。

- 📚 这一初始版本的 Cosmopedia 为合成数据领域的研究奠定了基础,展示了其在各种主题上的潜在应用。

站长之家(ChinaZ.com)2月21日 消息:HuggingFace 推出了 Cosmopedia v0.1,这是最大的开放合成数据集,由 Mixtral7b 生成,包含超过3000万个样本,总共约250亿个标记tokens。

数据集旨在通过映射来自网页数据集如 RefinedWeb 和 RedPajama 的信息来汇编全球知识,包括教科书、博客文章、故事和 WikiHow 文章等各种内容类型。该数据集的结构分为八个部分,每个部分都源自不同的种子样本,其中包括 web_samples_v1和 web_samples_v2,占据数据集约75% 的比例,这些样本类似于 RefinedWeb 中的内部网页数据集。

image.png

Stanford 分区利用从 stanford.edu 网站上爬取的课程大纲,而故事分区则包含来自 UltraChat 和 OpenHermes2.5的生成故事。此外,WikiHow、OpenStax、KhanAcademy 和 automathtext 分区涉及与其各自来源相关的提示。

为了方便用户访问数据集,用户可以使用提供的代码段加载特定分区。另外,对于寻求缩减数据集的用户,还提供了一个更小的子集 Cosmopedia-100k。此外,还对 Cosmopedia 进行了训练,得到了一个更大的模型 Cosmo-1B,展示了其可扩展性和多功能性。

数据集的创建过程包括为 web 样本使用主题聚类方法、迭代地改进提示以及解决污染问题。其目标是通过量身定制提示风格和受众,最大程度地提高多样性,从而显著减少重复内容。

数据集入口:https://huggingface.co/datasets/HuggingFaceTB/cosmopedia

举报

  • 相关推荐
  • AI日报:阿里夸克“C计划”曝光;Veo3.1将增加视频“精确编辑”功能;Anthropic推出Claude Code网页版

    今日AI领域动态:阿里夸克启动"C计划"布局对话式AI应用,剑指字节"豆包";Anthropic推出Claude Code网页版,支持浏览器直接编码;谷歌Veo新增视频"精确编辑"功能,提升创作效率;Fish Audio升级S1语音克隆模型,10秒即可复刻真人声音;AWS美东故障影响ChatGPT等多项服务;DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈;Adobe推出AI Foundry服务,支持企业定制品牌AI模型;Anthropic发布Claude for Life Sciences,加速生命科学研究。

  • 新王加冕,神装加持!AGON爱攻见证Legacy问鼎CAC 2025

    10月19日,CAC2025反恐精英亚洲邀请赛落幕,Legacy战队以3:2战胜3DMAX,夺得百万美元冠军。比赛历经五局激战,双方展现顶尖战术与顽强意志。Legacy凭借团队协作首夺国际大赛桂冠,巴西选手latto荣膺MVP。官方合作伙伴AGON爱攻为赛事提供定制显示器CS24A,以610Hz超高刷新率等技术助力选手发挥,并打造沉浸式互动展区,通过粉丝签名会、主题周边等活动连接选手与观众,推动电竞全民化发展。

  • 史上最强Ace!一加Ace 6行业唯一超高刷+大电池+快充旗舰

    一加Ace 6将于10月27日发布,被官方称为史上最强Ace旗舰。核心配置包括165Hz超高刷屏幕、7800mAh大电池和120W闪充,支持全帧率满帧运行。具备IP66/68/69/69K防尘防水、超声波指纹、金属中框和AG玻璃等特性,兼具实用性与质感。提供快银、闪白、竞黑三款配色,其中快银采用独家银紫渐变工艺,彰显速度感。

  • iPad、Mac新品京东跌破底价 国补可用地区、优惠力度都秒杀隔壁

    10月22日,搭载M5芯片的MacBook Pro和iPad Pro正式开售,起售价分别为12999元和8999元。恰逢双11大促,各大电商平台推出不同优惠:京东MacBook Pro最高优惠4000元,iPad Pro优惠超2000元;天猫提供消费券和88VIP专属折扣,MacBook Pro可享国家补贴。建议消费者对比各平台优惠力度及服务保障,结合性能升级综合决策。

  • 李杰称一加Ace 6太强了:完全能挑战友商Pro Max

    一加Ace 6于10月27日发布,定位旗舰级标准版。搭载165Hz超流畅直屏,支持全帧率游戏体验;配备7800mAh大电池和120W快充,续航强劲;具备超高性能,碾压同档产品。此外,提供IP66/68等防护、超声波指纹等旗舰配置,挑战Pro Max级别。提供快银、闪白、竞黑三色,年度旗舰一加15将同台亮相。

  • CAC2025专访:AGON爱攻诠释“产品-赛事-生态”闭环,勾勒品牌十年蓝图

    2025年上海反恐精英亚洲邀请赛圆满落幕,AGON爱攻作为赛事指定显示器品牌,不仅以迅猛龙CS24A提供顶级竞技体验,更通过构建完整电竞赛事生态强化行业影响力。品牌连续六年蝉联全球电竞显示器销量冠军,在中国市场增速领先。未来AGON爱攻将聚焦“高分辨率、高刷新率、高画质”技术方向,深化AI、OLED等前沿应用,拓展赛事合作与用户互动,从硬件供应商转型为玩家生态共建者。

  • 只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。

    ​这几天,OCR这个词,绝对是整个AI圈最火的词。因为DeepSeek-OCR,甚至让OCR这个赛道文艺复兴,又给直接带火了。 整个Hugging Face的趋势版里,前4有3个OCR,甚至Qwen3-VL-8B也能干OCR的活,说一句全员OCR真的不过分。 然后在我上一篇讲DeepSeek-OCR文章的评论区里,有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比,也有很多人都在问,能不能再解读一下百度那个OCR模型(也就是PaddleOCR-VL

  • 限时免费送!2台DGX Spark互连缺它不行!超擎数智200G DAC高速铜缆纳秒级互联,算力直达!

    全国首批NVIDIA DGX Spark已率先抵达超擎数智。购买两台及以上DGX Spark可免费获赠价值699元的200G DAC高速铜缆,实现双机200Gbps高速互联,消除性能瓶颈。限时福利需在10月31日前完成全款支付,转发活动内容到朋友圈还可额外获赠连接线。数量仅666根,送完即止。此举旨在通过高速互联方案提升AI训练与推理效率,助力用户抢占算力高地。

  • 斩获G-Mark优良设计奖,RingConn智能戒指凭创新设计与技术实力获国际认可

    中国智能戒指品牌RingConn凭借突破性设计、精准健康监测及卓越用户体验,荣获2025年G-Mark优良设计奖,实现年内连夺iF、IDEA、G-Mark三大国际顶级设计奖项的佳绩。产品以2克超轻机身融合医疗级技术,首创睡眠呼吸暂停监测功能,通过指尖光电容积脉搏波信号实现无感佩戴下的精准健康管理。其人性化设计兼顾12天超长续航与时尚佩戴体验,彰显中国智能穿戴设备在技术创新与实用美学融合领域的国际领先地位。

  • 新款MacBook Pro破发!京东11.11直降、以旧换新叠国补至高省4000元

    10月22日8点起,搭载M5芯片的MacBook Pro、iPad Pro及iPhone Air在京东11.11现货开售。活动推出多重福利:购买MacBook Pro可领500元优惠券,以旧换新至高补贴1500元,部分地区叠加国补最高减4000元;购买iPad Pro可领300元惊喜券,部分用户叠加教育优惠至高优惠2200元;购买iPhone Air享以旧换新补贴400元起、12期免息。三款新品均支持24期免息,搭载M5芯片性能大幅提升,MacBook Pro配备24小时续航,iPad Pro提供超精视网膜XDR显示屏,iPhone Air厚度仅5.6mm、内置eSIM。即日起打开京东APP搜索“苹果惊喜券”即可参与活动。

今日大家都在搜的词: