首页 > AI头条  > 正文

5.7万亿个优质tokens的诞生:大语言模型训练的 “神秘宝藏” TxT360

2024-10-08 13:45 · 来源: AIbase基地

在 AI 的世界里,数据就像是金矿,越丰富越闪亮。最近,LLM360推出了一个令人瞩目的数据集 TxT360,专为大语言模型训练量身定做。这个庞然大物不仅收录了来自各行各业的高质量文本数据,更是经历了一场全球范围的去重大作战,最终汇聚成5.7万亿个优质 tokens,真可谓是 “数据界的百宝箱”!

TxT360的魅力在于其超大的规模和超高的质量,完胜现有的 FineWeb 和 RedPajama 等数据集。这份数据集从99个 Common Crawl 快照中抓取了互联网的精华,同时还特别挑选了14个高质量的数据源,比如法律文档和百科全书,让它的内容不仅丰富多样,还相当靠谱。

image.png

更酷的是,TxT360给用户提供了一种 “数据权重调整配方”,让你可以根据自己的需求灵活调整不同数据源的权重。这就好比在烹饪时,你可以根据口味随意调配各种材料,确保每一口都美味无比。

当然,去重技术也是 TxT360的一大亮点。通过复杂的去重操作,这个数据集有效地解决了训练过程中的数据冗余和信息重复问题,确保每一个 token 都是独一无二的。同时,项目组还通过正则表达式手段,聪明地移除了文档中的个人身份信息,比如电子邮件和 IP 地址,从而确保数据的隐私和安全性。

TxT360的设计不仅关注规模,还兼顾了质量。结合网络数据和精选数据源的优势,它让研究人员能够精确控制数据的使用和分布,就像是拥有了一个操控魔法的遥控器,可以随意调整数据的比例。

在训练效果方面,TxT360也不甘示弱。它通过简单的上采样策略,使得数据量大增,最终创造出一个超过15万亿 tokens 的数据集。在一系列关键评估指标上,TxT360的表现都优于 FineWeb,尤其在 MMLU 和 NQ 等领域,显示了超强的学习能力。而结合代码数据(如 Stack V2)后,学习曲线更加稳定,模型性能也有了明显提升。

详细介绍:https://huggingface.co/spaces/LLM360/TxT360

  • 相关推荐
  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • 《暗区突围:无限》登顶360软件管家端游榜单:全周期运营,撬动千万级曝光

    360软件管家发布2025上半年精品端游榜单,显示端游市场持续繁荣。腾讯《暗区突围:无限》凭借千万级曝光量登顶热度榜首,成为PC端游市场黑马。该游戏爆发式增长得益于360从预约到增长期的全周期护航,通过首页曝光、搜索推荐、多界面联动等精准触达用户,构建高效转化链路。榜单为厂商了解用户偏好、制定营销策略提供重要参考,助力突破增长瓶颈。

  • 360安全云×江苏泛亚,助力智慧机场安全防护转守为攻

    随着云计算、人工智能、物联网和移动互联技术的深度融合,智慧机场建设正以前所未有的速度推进,显著提升了运营效率和旅客体验。然而,数字化转型也带来了新型安全挑战,如数据泄露、隐私风险和终端失控等问题。360安全云通过AI智能驱动、统一平台和7×24小时专家值守,构建了"主动免疫"安全防护体系,已累计处理230余起安全事件。该方案不仅为机场行业提供示范,也为各行业数字化转型提供了可靠的安全建设参考。360与泛亚信息技术的合作已覆盖多个区域,通过"AI+安全"战略打造区域数字经济增长新引擎。

  • 开学季装机,Ultra 5 230F搭配技嘉B860M电竞雕打造高性价比学习娱乐平台

    英特尔酷睿Ultra 5 230F处理器搭配技嘉B860M电竞雕主板的组合,专为预算有限但追求性能平衡的学生群体打造。处理器采用低功耗高能效设计,性能较上代提升显著,支持AI加速;主板提供强劲扩展性与高速接口,整机价格控制在2500元内,性价比突出。目前正值开学促销,两款产品均有特价及赠品活动,是学生装机的高性价比选择。

  • AI日报:字节OmniHuman-1.5发布;PixVerse V5模型上线;​腾讯开源智能体框架Youtu-agent

    本期AI日报聚焦多项技术突破:字节跳动发布OmniHuman-1.5实现图像音频秒变超真视频;爱诗科技PixVerse V5全球上线支持多场景创作;腾讯开源Youtu-agent框架提升AI开发效率;百度智能云发布百舸AI计算平台5.0;OpenAI将推出家长监控功能应对安全风险。同时涵盖硬件创新、市场预测及中国团队在全球AI应用领域的突出表现,展现人工智能领域快速发展的技术迭代与生态建设。

  • AI日报:Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型

    本期AI日报聚焦多项技术突破:阿里通义万相发布Wan 2.2-S2V模型,实现视频音频同步生成;字节跳动研发3D模型生成工具,降低建模门槛;面壁智能推出MiniCPM-V4.5端侧多模态模型;苹果提出RLCF训练法提升模型性能;微软开源VibeVoice-1.5B支持超长语音合成;谷歌Imagen 4正式上线;英伟达发布Jetson Thor机器人计算平台;Genspark推出AI Designer一键生成品牌方案;豆包上线未成年人保护模式。

  • 699元 小米智能家庭屏8 云台版正式发布:360°看家、支持微信沟通

    今日,小米智能家庭屏8云台版正式发布,售价699元。 小米智能家庭屏8云台版搭载500万像素镜头,镜头水平角度360,垂直方向支持上下共30手动调节,搭配F1.6大光圈镜头,官方宣称呈现3K超清画质。 该机内置高感光灵敏度图像传感器,微弱光线下也能彩色成像,同时内置红外补光灯,夜视距离10米,无光环境也能清晰成像。 小米智能家庭屏8云台版支持AI看护功能,家人、孩�

  • 产教融合新实践:360三大训练营闭环赋能高校人才培养全链条

    8月7日,第十三届互联网安全大会ISC.AI2025开幕,360集团推出为期两个月的AI训练营,包含专业营、学生营和师资营三大课程体系。作为360在教育领域的核心实践,本次训练营依托360在数字安全和AI领域的技术积累,以"产学研用"深度融合为理念,打造从师资赋能到学生培养的全链条解决方案。专业营整合360技术资源转化为教学资源,助力高校实战课程升级;学生营吸引全国30所高校800余名学子参与,通过定制化学习路径培养AI安全人才;师资营为72名高校教师提供系统培训,破解高校"金师"培养痛点。360通过"技术筑基、生态共生"理念,构建了覆盖教学资源到就业支持的一体化服务体系,为高校人才培养与产业需求无缝对接提供核心支撑。

  • 小米16系列入网:共3款 首发骁龙8 Elite 2处理器

    今日,小米16系列在3C认证方面传来新动态,该系列共有3款机型成功入网,型号分别为25098PN5AC、2509FPN0BC、25113PN0EC,且全系标配100W有线闪充,这一配置无疑为追求快速充电体验的用户带来了福音。 据相关爆料,小米16系列包含小米16和小米16Pro两款机型。其中,小米16Pro的亮点颇多,该版本提供6.3英寸和6.8英寸两种尺寸选择,或许会分别以小米16Pro和小米16Pro Max的名称与消费者�

  • 豆包1.5 Vision Lite 对比 GPT-5-min,谁更适合你?实测AI模型选型利器|AIBase

    文章探讨了企业选择AI大模型时面临的实际决策难题,指出单纯比较学术参数无法满足业务需求。AIBase模型对比平台(https://model.aibase.cn/compare)通过三大核心价值解决痛点:1)聚焦业务场景而非参数堆砌,突出价格、语言支持、上下文长度等实用维度;2)透明化成本计算,标注长文本溢价规则和多模态附加费;3)一键生成对比报告。平台特别强调中文场景的特殊性(如豆包1.5在中文处理成本的优势),并揭示厂商宣传中容易忽略的隐藏成本(如GPT-5-min超5000字符的30%溢价)。典型电商客服案例显示,需综合中文理解、多模态、性价比等维度决策,最终选择取决于具体业务需求而非绝对性能排名。

今日大家都在搜的词: