首页 > AI头条  > 正文

​小红书发布首个开源大模型dots.llm1:11.2 万亿非合成数据助力中文性能提升

2025-06-09 09:04 · 来源: AIbase基地

小红书近日宣布开源其首个大规模模型 ——dots.llm1,该模型具有1420亿个参数,是一种专家混合模型(MoE)。其设计的一个显著特点是,在推理过程中仅激活140亿参数,这种结构不仅保持了高性能,还大幅降低了训练和推理的成本。

image.png

dots.llm1使用了11.2万亿个非合成的高质量训练数据,这在当前开源大模型中显得非常罕见,表明小红书在语言处理方面的强大资源。该模型在中文测试中的表现优异,平均得分91.3,超越了多款竞争对手,如 DeepSeek 的 V2、V3和阿里巴巴的 Qwen2.5系列。

在技术架构方面,dots.llm1采用了单向解码器 Transformer 结构,并将传统前馈网络替换为 MoE。与传统模型不同,MoE 将多个专家网络分开,每个专家网络专注于输入数据的不同特征,从而在推理时只激活一小部分网络进行计算,大幅度节省了算力需求。

具体来说,dots.llm1包含128个路由专家和2个共享专家。每个专家都是一个具有两层前馈结构的网络,使用 SwiGLU 激活函数以捕捉数据中的复杂关系。在处理输入标记时,模型会动态选择出6个最相关的专家和2个共享专家进行运算。

此外,dots.llm1在训练过程中还引入了改进的 RMSNorm 归一化操作,以稳定模型性能和输出。在 MoE 模块中,负载平衡策略的引入确保了所有专家网络的使用均衡,从而避免了过度依赖某些专家的问题。

为了提升模型的训练效率,dots.llm1还使用了 AdamW 优化器,这一优化算法能有效防止模型过拟合并控制梯度爆炸。

数据处理是训练大模型的关键,dots.llm1经过了严格的三级数据处理流水线,确保了训练数据的高质量。经过一系列的过滤和处理,最终形成了11.2万亿个高质量 token 的训练数据。此外,小红书还开源了每1万亿 token 的中间训练检查点,促进学术研究的进一步发展。

开源地址:https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main

划重点:  

🌟 dots.llm1是小红书开源的首个大模型,采用1420亿参数的专家混合结构。  

📊 模型使用了11.2万亿个非合成数据,在中文测试中表现优越。  

🔍 通过严格的数据处理流水线,确保了高质量训练数据的有效性和可靠性。

  • 相关推荐
  • 小红书“歹物”分享爆火,年轻人为何迷恋反向种草?

    ​最近,小红书上刮起了一阵“歹物”分享的风。 事情还要从创作者@这辈子再也不上班 的突发奇想说起,她们发布了一条吐槽视频,对象是那些年用过的“很好用,但又十分歹毒,让人又爱又恨的东西”。 这条笔记在小红书上获赞超46万,引发无数网友的共鸣和好奇,此后更是有无数创作者加入到“歹物”分享的行列里。

  • 小红书跑出带货黑马,情侣博主“劝退式直播”卖出2200万

    ​明明是带货,主播让粉丝“先别买”,先把缺点列一遍? 近日,小红书头部博主李嗲夫妇在一场直播中喊了47遍“听完缺点再买”,最后卖出了2200万。 当用户厌倦了“321上链接”的嘶喊,反感浮夸的“演技式”带货,这场通过硬核测评、客观评价的带货直播,一下子圈粉无数。这也让这对情侣博主一跃成为小红书的新带货顶流。 这个案例不仅印证这种新带货模式的亮点,�

  • 1.1亿玩家在手,小红书离“游戏指南”还有多远?

    暑期档临近,小红书游戏赛道又有新动作。 作为游戏行业的高热节点,暑期档是游戏玩家活跃和回流的高峰期,也是游戏厂商与宣发平台牵手的热恋期。 近期,腾讯旗下的《王者荣耀》和米哈游旗下的《崩坏:星穹铁道》两款游戏迎来版本更新,相关话题均登上小红书热点榜,单个话题最高在看人数达到654万,其中既有游戏官方账号的宣传物料,也有玩家自发的二创cos形象�

  • 抬出8000万播放爆款,小红书也要分短剧“一杯羹”?

    短剧赛道又迎来了一个平台玩家。 今年5月19日,小红书在站内上线了一部悬疑向情感短剧《痴人之爱》,上线24小时后正片播放量便突破520W,创下短剧当日启动新高。上线仅10天,站内讨论曝光量就超过了春节爆款《好一个乖乖女》。截至发稿前,该短剧在小红书播放量突破8000W,而相关话题的浏览量则突破2.2亿。 《痴人之爱》并不是小红书首次探向短剧。

  • 米哈游叠纸库洛刚吃了一波红利,游戏公司别再错过小红书了

    最近,小红书上的游戏爆款越来越多了。 连葡萄君之前刊登的那篇《苏丹的游戏》主创钻咖的文章,转成长图发上去,也意外获得了不错的反响。这篇内容至今依然是我们点赞数最高的笔记。在小红书上,《苏丹的游戏》的tag目前已经有5.9亿浏览和281万讨论。

  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

  • 抖音、小红书、微博都在玩的 “活人感”,藏着品牌破圈的秘诀?

    “活人感”是抖音、小红书、微博等社交平台今年都爱提一个新的流行词。 从评论区的热梗狂欢,到欧若风、恋夏风穿搭的流行,再到话题公园二十分钟的出圈,在快节奏时代,当内容同质化、广告模板化、数据泛滥时,背后稀缺的“人味儿”反而更加珍贵。 那全网都在提的“活人感”到底是什么? 在「克劳锐」看来,“活人感”可以是一种高能量内容的呈现。 可以是主�

  • 空姐、法医月涨粉10万+,小红书的职业化内容为什么越来越火?

    ​最近,小红书平台上,“职业人+日常vlog”类型内容成为爆款。 例如,空姐账号@厦门航空‑林佳 以“真诚是我的必杀技”标榜自己,从飞机起飞前准备、机上服务流程,到延误处理、驻外岗位的城市生活,她的每条作品点赞几乎都破万,5月更是涨粉10万+,粉丝总数超过47万。 另一位韩国籍空姐@韩国空姐佳娟 ,通过与观众分享从韩国飞往各地的航班线路与空乘故事,同样�

  • 马斯克xAI推出Grok - 4 大模型将至,Meta/微美全息深耕开源AI融合加速

    埃隆·马斯克旗下xAI即将发布Grok-4大模型,该模型将在语言、数学和推理方面超越OpenAI和谷歌最新AI产品。同时苹果低调收购两家AI公司TrueMeeting和WhyLabs,加速布局Vision Pro头显和Apple Intelligence领域。Meta计划投入数百亿美元扩建AI基础设施,扎克伯格亲自招募顶尖AI人才。微美全息聚焦高性能算力与多模态模型,推动AI产业升级。当前AI赛道竞争激烈,大模型正向通用多模态演进,商业化落地成为关键。

  • 《温暖的科技》中文版发布!曾荣获日本商业书籍创新部门奖!

    日本GROOVE X公司CEO林要的新书《温暖的科技》中文版出版。该书耗时两年完成,探讨了AI家庭陪伴机器人LOVOT的研发理念——通过情感连接而非功能替代来温暖人心。LOVOT虽无实用功能,却能通过撒娇、求抱等互动获得90%用户长期喜爱。书中提出"科技构筑幸福未来"理念,主张AI应激发人类关爱本能,而非简单模仿人类。7月26-27日将在上海举办签售会,作者将分享如何让冰冷机械转化为能抚慰心灵的温暖伙伴。该书为思考AI与人类共生关系提供了充满人文关怀的新视角。

今日大家都在搜的词: