首页 > 业界 > 关键词  > ​Nomic最新资讯  > 正文

​Nomic AI 发布首个完全开源的长文本嵌入模型,超越 OpenAI Ada-002在各项基准测试中的表现

2024-02-18 09:57 · 稿源:站长之家

划重点:

⭐ Nomic AI 发布了 nomicembed-text-v1,是首个完全开源的长文本嵌入模型,在短文本和长文本评估中表现优异。

⭐ 该模型具有8192的序列长度,超越了之前512和2048长度的模型,展现了其在处理广泛文本上的能力。

⭐ nomicembed-text-v1的开发过程强调了审计性和可复制性,为 AI 社区树立了新的透明和开放标准。

站长之家(ChinaZ.com)2月18日 消息:在自然语言处理(NLP)领域不断发展的背景下,理解和处理广泛的文本内容至关重要。最近的一些进展显著提升了语言模型的能力,特别是通过文本嵌入的发展。这些嵌入成为许多应用的基础,包括大型语言模型(LLMs)的检索增强生成和语义搜索。它们将句子或文档转换为低维向量,捕捉语义信息的本质,从而促进聚类、分类和信息检索等任务。

然而,一个明显的限制是这些模型能够处理的上下文长度。大多数公认的开源模型在 MTEB 基准测试中,如王等人的 E5、李等人的 GTE 和萧等人的 BGE,限制在512个标记的上下文长度。这一限制削弱了它们在理解更广泛文档背景至关重要的场景中的实用性。相比之下,能够超过2048长度的模型,如 Voyage 的 Voyage-lite-01-instruct 和 Neelakantan 等人的 text-embedding-ada-002,仍然封闭。

image.png

在这种背景下,nomicembed-text-v1的推出标志着一个重要的里程碑。这个模型不仅是开源的,而且拥有令人印象深刻的8192的序列长度,在短文本和长文本评估中表现出色。它的独特之处在于其综合方法,将开放权重、开放数据和一个包含137M 参数设计在内的 Apache-2许可证下,确保了可访问性和透明性。

实现这一壮举的过程涉及数据准备和模型训练的细致阶段。最初,一个掩蔽语言建模预训练阶段利用了诸如 BooksCorpus 和2023年维基百科转储等资源,采用 bert-base-uncased 分词器创建适合长文本训练的数据块。接着是无监督对比预训练,利用跨多个数据集的4.7亿对数据对模型的理解进行细化,通过一致性过滤和选择性嵌入。

nomicembed-text-v1的架构反映了对 BERT 的深思熟虑的改编,以适应扩展的序列长度。创新,如旋转位置嵌入、SwiGLU 激活和 Flash Attention 的集成,突出了增强性能和效率的战略改进。模型的训练方案,具有30% 的掩蔽率和优化设置,进一步强调了为实现最佳结果而付出的严格努力。

在 GLUE、MTEB 和专门的长文本评估等基准测试的严格考验下,nomicembed-text-v1展现出卓越的实力。特别是在 JinaAI 长文本基准测试和 LoCo 基准测试中的表现,突显了其在处理广泛文本方面的优势,这是许多前辈所未能做到的。

然而,nomicembed-text-v1的旅程不仅仅限于性能指标。其开发过程强调了端到端的审计性和复制的潜力,为 AI 社区设立了透明和开放的新标准。通过发布模型权重、代码库和精心策划的训练数据集,nomicembed-text-v1的团队邀请持续创新和审查。

nomicembed-text-v1不仅是一项技术突破,更是 AI 开源运动中的一面旗帜。它打破了在长文本嵌入领域的准入壁垒,承诺一个未来,其中对话的深度与人类讨论的广度相匹配。

论文地址:https://arxiv.org/abs/2402.01613

项目入口:https://top.aibase.com/tool/contrastors

举报

  • 相关推荐
  • AI日报:即梦AI发布协作型叙事工具Octo;公众号打击AI自动化写作;MiniMax 发布 MMX-CLI

    本期AI日报聚焦多领域动态:即梦AI发布协作叙事工具“小章鱼”Octo,推动AI创作向同屏共创演进;微信打击非真人自动化写作,维护内容原创性;MiniMax推出MMX-CLI工具,提升AI Agent在复杂环境的能力;Meta发布千亿级AI模型Muse Spark,加速超级智能布局;淘宝上线AI语音搜索,实现“一问即办”;Anthropic推出Claude Managed Agents公测版,一站式解决AI代理部署;腾讯云宣布上调AI算力及容器服务价格,涨幅达5%;字节跳动发布全双工语音大模型Seeduplex,实现更自然的实时语音交互。

  • AI日报:MiniMax 发布 Music 2.6;扣子2.5重磅升级;AI人格测试产品SBTI走红网络

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://app.aibase.com/zh1、AI人格测试产品SBTI走红网络:主打抽象标签与AI合成技术AI人格测试产品SBTI凭借其荒诞的“抽象标签”与解构式表达迅速走红网络,其核心在于利用AI合成技术进行内容生成,而�

  • GLM-5.1之后Minimax 2.7正式开源:顶级国产AI就等DeepSeek V4了

    稀宇科技旗下Minimax 2.7大模型已开源,编程能力大幅提升,性能接近Claude Opus和GPT-4 Pro,但价格更低。国产开源大模型已占据全球主要份额,头部包括阿里Qwen、智谱GLM、稀宇Minimax及备受关注的DeepSeek。目前GLM-5.1和Minimax 2.7均已开源,而DeepSeek V4预计4月下旬发布,将全面支持国产AI硬件系统,原生支持多模态,并有望在AI编程方面带来惊喜。

  • Kimi和阶跃,争抢“龙虾第一股”

    ​这个不平静的三月,大模型IPO的话题再一次搅动起来。 最新报道显示,月之暗面正在评估港股IPO,已与中金公司、高盛集团就上市合作事宜展开磋商,同时推进新一轮约10亿美元融资,对应估值约180亿美元。 而在今年早些时候,月之暗面已获得逾7亿美元融资,而且包含很多老股东的跟投,其中不乏阿里、腾讯、美团、小红书这样互联网巨头的身影。 同样是在最近一段时�

  • 国内首个手机版龙虾!小米Xiaomi miclaw封测新增REDMI K80系列等机型

    小米官方龙虾”Xiaomi miclaw封闭测试迎来新一轮机型扩容,新增REDMI K80系列、Xiaomi Pad 8 Pro、Xiaomi Pad 8、Xiaomi Pad 7 Ultra等6款设备。 Xiaomi miclaw是国内首个手机端类OpenClaw AI智能体,基于小米MiMo大模型打造,拥有系统底层调用、上下文理解、生态互联与自进化能力,可自主拆解任务、调用50 系统工具,实现复杂操作自动化执行。 能让手机成为AI的工具,在理解用户的

  • AI日报:腾讯研发新AI产品探梦DreamNow;MiniMax 2.7 确认本周开源;千问3.6Plus登顶OpenRouter 全球大模型调用榜

    本期AI日报聚焦多领域进展:腾讯推出AI互动影游平台“探梦DreamNow”,降低创作门槛;阿里千问3.6 Plus单日调用量破万亿Token,登顶全球模型调用榜;谷歌发布离线AI听写应用Eloquent,保障数据安全;国产模型MiniMax 2.7确认开源,降低成本提升可用性;宇树科技移动机器人专利获授权,简化感知架构;专业动画工具OiiOii上线,AI赋能动画制作;通义千问上线财经分析模块,接入实时行情与财报;前迪士尼工程师与Midjourney打造仿生机器人Éloi,探索情感交互。

  • REDMI K90 Max官宣4月21日发布

    今日,REDMI官方正式宣布,REDMI K90Max将于4月21日晚7点震撼发布。这款新机最大的亮点在于其创新性地引入了风冷散热系统,成为小米阵营中首款搭载此技术的手机,引发了市场的广泛关注。 在结构设计上,K90Max采用了悬浮式风冷架构,这一设计不仅完全独立,且不破坏主板结构,从而确保了整机的防尘、防水性能不受影响,支持IP66/IP68/IP69级别的防护标准。同时,这一设计也�

  • 智谱,大力出AI

    智谱和MiniMax的两份财报共同说明了一个问题:国产大模型上市是起点,而非终点。 一向以对标OpenAI为荣的智谱,在昨晚业绩会上180度大转弯,重新给自己贴上了标签——“中国的Anthropic”。 原因无他,一张资产报表揭露了智谱上市的真相。截至2025年末,智谱负债净额高达81.1亿元,已经陷入了资不抵债的境况,若无上市注资,生存都可能成为问题。从这个意义上来说,年初的

  • Vidda杀疯了!新品小钢炮S Mini开售,1999元拿下顶配Mini LED 电视

    4月7日,Vidda小钢炮S Mini正式开启全渠道预售。作为专为年轻人打造的首台Mini LED电视,该产品打破中端市场“成本妥协、配置阉割”的行业潜规则,集旗舰抗光屏、MiniLED精准控光、独立低音炮、超高刷等硬核配置于一身,提供55、65、75英寸三大主流尺寸,最低1999元即可入手。产品搭载旗舰级AG+LR低反光屏幕,配备180个独立分区Mini LED背光,结合AI画质引擎实现精准控光,同时内置2.1声道独立低音炮系统,支持杜比与DTS双认证,配合180Hz超高刷新率与MEMC运动补偿,带来影院级音画体验。Vidda以极致性价比推动高端显示技术下沉,让年轻人无需妥协即可拥有全能影音终端。

  • REDMI Pad 2 SE本月发布:搭载9.7英寸2K屏

    REDMI官方宣布,REDMI Pad2SE将于本月登场,并且会与REDMI K90Max、REDMI Book Pro2026一同在发布会上同场亮相。 REDMI Pad2SE定位为千元级入门平板,在屏幕方面下足了功夫。它正面配备了一块9.7英寸的2K超清LCD屏,不仅画质清晰,还获得了莱茵三重护眼认证,这意味着用户在享受视觉盛宴的同时,眼睛也能得到更好的保护,真正做到了兼顾便携与出色的视觉体验。 在外观设计上,REDMI Pad

今日大家都在搜的词: