首页 > AI头条  > 正文

小红书发布开源多模态大模型 dots.vlm1,以 NaViT 视觉编码器领跑行业

2025-08-07 14:30 · 来源: AIbase基地

小红书 Hi Lab 近日发布并开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器DeepSeek V3大语言模型,从零开始完全训练,其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型,如 Gemini2.5ProSeed-VL1.5,标志着开源多模态模型的性能达到了新的高度。

小红书

自研创新,性能领跑

dots.vlm1的核心亮点在于其原生自研的 NaViT 视觉编码器。与传统基于成熟模型微调的方式不同,NaViT 从零训练,并支持动态分辨率,能够更好地适应多样化的真实图像场景。该模型还通过结合纯视觉与文本视觉的双重监督,极大提升了其泛化能力,尤其是在处理表格、图表、公式、文档等非典型结构化图片时表现出色。

在数据方面,Hi Lab 团队构建了规模庞大且清洗精细的训练集。他们通过自主重写网页数据和自研 dots.ocr 工具处理 PDF 文档,显著提升了图文对齐的质量,为模型的跨模态理解能力打下了坚实基础。

评测表现,媲美顶尖闭源模型

在主流国际多模态评测集上,dots.vlm1的综合表现令人瞩目。它在 MMMUMathVisionOCR Reasoning 等多项基准测试中,达到了与 Gemini2.5Pro 和 Seed-VL1.5相当的水平。在复杂的图表推理、STEM 数学推理以及长尾细分场景识别等应用中,dots.vlm1展现出卓越的逻辑推理和分析能力,完全胜任奥数等高难度任务。

QQ20250807-142938.png

尽管在文本推理的极复杂任务上与 SOTA 闭源模型仍有差距,但其通用数学推理和代码能力已与主流大语言模型持平。

Hi Lab 团队表示,未来将继续优化模型。他们计划扩大跨模态数据规模,并引入强化学习等前沿算法,进一步提升推理泛化能力。通过开源 dots.vlm1,小红书致力于为多模态大模型生态系统带来新的动力,推动行业发展。

  • 相关推荐
  • 寒武纪智能芯片赋能多模态大模型应用

    大模型快速发展推动人工智能技术迈向新阶段,从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示,2024年中国大模型开发平台市场规模达16.9亿元,人工智能算力市场约190亿美元,预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发,推出多款处理器及加速卡产品,支持大模型训练推理及多模态任务,并与产业链合作共同推进人工智能产业发展。

  • “市集”上线,小红书电商野心藏不住了

    小红书电商,再次迈出关键一步。 「电商在线」发现,近日小红书启动新版本测试,“市集”被嵌入APP底部导航栏,升级为一级流量入口。用户进入“市集”后,不仅可对穿搭、运动、食饮、生鲜、潮玩等多个类目的商品进行选购,还可以直达市集直播、买手橱窗、新品首发等频道。 透过“市集”入口升级的动作,不难发现,小红书对于社区内部电商业务的加码,已呈现出�

  • 小红书语音评论更新:可识别音色了 支持甜嗓、气泡音、元气音等

    近日,小红书平台上的语音评论功能引发网友热议。据媒体报道及多名网友在社交平台分享,小红书不仅推出了语音评论,还进一步升级,新增了音色识别功能,用户现在可以选择甜嗓、气泡音、元气音等多种音色进行评论。 回溯至7月下旬,小红书的部分用户便惊喜地发现,评论区悄然出现了语音评论的选项。当时,小红书官方明确表示,该功能尚处于内测阶段,并未全量�

  • 抖音的8000亿大蛋糕,小红书怎样才能咬一口

    中,外卖、到店等本地生活业态的引流作用突出,对于电商的重要性大幅提升,促使各大平台纷纷加大投入。 京东、淘宝都在首页添加醒目的“外卖”标识,后者更是将饿了么“集成”到APP中。快手团购板块新增独立外卖入口。就连小红书,也在开辟“市集”一级电商入口后,几乎同时推出“小红卡”,以到店消费9折优惠吸引用户。 小红卡与淘宝88VIP、京东PLUS等会员体系�

  • 小红书,需要更多张曼玉

    ​最近刷小红书,看见了许多意想不到的身影。 六十一岁的影后张曼玉一身素雅,悠然漫步于大街小巷,没有精修图,没有话题炒作,仅凭一段段鲜活的日常生活分享,如今粉丝数已突破105万。 前不久在网络上爆火的五十五岁国际拉丁舞裁判谢尔盖斯·辛金斯也悄然入驻,这位身高达一米九一、被网友称为“行走的法拉利”的“帅老头”,凭借优越的体态与专业背景,单日�

  • 动作频频,小红书电商怎么了?

    作为小红书的资深用户,95后女孩林媛发现小红书底部菜单从“热门”变成了“市集”。进入页面后,林媛看到页面上部聚合市集直播、买手橱窗、新品首发等交易频道,下部则是不同形式的商品展示。 小红书App正在开启新一轮产品内测,林媛正是被内测到的用户之一。 对于任何平台而言,一级入口的调整绝非单纯的界面优化,而是其阶段性战略重心与核心业务优先级的直�

  • 小红书一级入口更新:上亿95后在“市集”挑好货

    38度的天气,几万人涌进小红书的首个线下市集,现场人声鼎沸,成为近期上海最热门的打卡地之一。 来自全国的100多个商家,不只在这里售卖好货,还奉上了一场生活方式展演——果蔬商家举办起“番茄品鉴会”,植物染服饰商家拿出珍藏的植物标本,文创商家打造出陕西非遗“小型博物馆”,户外商家直接将攀岩板搬到现场“开玩”...... 市集,人类最古老的商业形态之�

  • 小红书市集是对多样新需求的一种有效回应

    小红书APP更新,「市集」成为底部第二Tab,临近首页「推荐」位。第二Tab是一个APP的关键位置,通常是企业未来战略方向的体现。 「市集」作为以及入口处现首页第二Tab,不仅是小红书明确要继续做电商的战略体现,给了商家一个稳定的经营场;还更具体可感地展示小红书生活方式电商的大致面貌与形式。 打开「市集」页能看到,信息以双列呈现,且信息流里同时有商品链接

  • “商城”成一级入口,小红书电商活成想要的样子了吗?

    ​红书电商不再“隐藏”。 近日,小红书电商上线独立入口,位于底部导航栏新增“市集”一级入口。 这不仅是流量位置的调整,更是小红书电商战略意图的更进一步——从依托内容生态的“隐性”交易,转向独立且集中的场景运营。 然而,“市集”并非万能解药。货盘有限、用户习惯等,仍是小红书必须面对的现实挑战。

  • 美团也开源了大模型,但我觉得他们的野心是通用生活Agent。

    也有线上体验地址:https://longcat.ai 我自己去体验了一下,整体模型能力,中规中矩,但是快,是真的快,能把560B的模型,在推理的时候搞得这么快,是真的有点牛逼的。 我直接录了个屏给大家看一下。 这里我们可以直观对比一下LongCat和DeepSeek V3的输出速度,他俩都是MoE架构,而且总参数量差不太多。 为了更公平的竞争,用了同一个问题,并关闭了联网搜索来避免搜索干扰�

今日大家都在搜的词: