首页 > AI头条  > 正文

​微软 Bing 团队开源 “Harrier” 多语言嵌入模型

2026-04-08 13:57 · 来源: AIbase基地

微软的 Bing 团队近日宣布开源其最新的词嵌入模型 “Harrier”。该模型在多语言 MTEB v2 基准测试中表现优异,支持超过 100 种语言,为用户提供了更为强大的语言处理能力。Harrier 的训练数据包括超过 20 亿个示例以及来自 GPT-5 的合成数据,采用了 32,000 个词元的上下文窗口,使其在多语言任务中具备更高的准确性和灵活性。

Bing,必应,new Bing,搜索引擎,微软,AI,人工智能,chatGPT

在参数配置上,Harrier 拥有一个完整的 27 亿参数版本,此外还推出了两个更小的版本,分别为 0.6 亿参数和 2.7 亿参数,旨在为低性能硬件的用户提供可行的解决方案。这三款模型均已在 Hugging Face 平台上以 MIT 许可证发布,方便开发者进行使用和集成。

嵌入模型在人工智能系统中扮演着至关重要的角色,尤其是在搜索、信息检索和数据组织等任务中。随着 AI 技术的发展,嵌入模型的需求愈加迫切,能够帮助 AI 代理独立处理更复杂的多步骤任务。因此,微软表示,Harrier 的发布将推动 AI 技术在各个领域的应用。

未来,微软计划将 Harrier 技术集成到 Bing 搜索引擎中,以及用于新一代 AI 代理的基础服务。这一战略将进一步提升 Bing 在 AI 领域的竞争力,满足用户对高效信息处理的需求。

划重点: 

🌍 Harrier 模型支持超过 100 种语言,具备强大的多语言处理能力。  

💡 该模型采用超过 20 亿个示例及 GPT-5 数据训练,确保了高准确性。  

🚀 微软计划将 Harrier 集成到 Bing 及新一代 AI 代理服务中,提升搜索引擎性能。


  • 相关推荐
  • 灵初智能双模型亮相,全球最大人类手部数据集正式开源

    灵初智能发布新一代具身大模型Psi-R2与Psi-W0,并开源首个1000小时人类手部操作全模态数据集。该数据集总储备达10万小时,为当前行业最大的开源人类手部操作数据集,标志着具身智能从实验室走向产业化的关键一步。Psi-R2是首个使用10万小时量级人类数据预训练的World Action Model,输入图片和语言即可输出预测的未来视频和机器人动作。Psi-W0作为Action-Conditioned World Model,核心功能是对Policy进行评估与提升,并通过强化学习将人类数据的dynamic迁移至机器人dynamic。此次开源的数据集具备三大亮点:全模态覆盖视觉、语言、关节角度、触觉四类信息;通过自研外骨骼手套采集,3D轨迹精度达亚毫米级;涵盖工业装配、生活操作、物体抓取等多场景任务。该数据集可广泛应用于智能制造、物流仓储、商业服务等商业化场景,加速具身智能在千行百业的落地应用。

  • 国产AI大模型GLM-5.1登顶开源第一:可独立编程8小时

    3月底智谱正式推出了GLM-5.1大模型,编程能力评分45.3分,号称比全球最强的Opus 4.6只低了2.6分。 前两天GLM-5.1大模型也正式开源,也深受开发者喜爱,现在最新的排名也来了全球权威AI评测平台LMArena(百万用户参与盲测)更新Code Arena专项榜单,GLM-5.1登顶全球开源模型第一,位列全球模型第三。 除了榜单表现优秀,根据智谱的说法,GLM-5.1不仅继承了上一代模型的开源SOTA编码能

  • 京东开源图像模型JoyAI-Image-Edit:达到世界一流水平

    京东探索研究院近日开源了自研的JoyAI-Image-Edit图像模型,其核心突破在于能理解图像的三维空间结构,解决了传统AI修图空间逻辑混乱的问题。该模型具备三大空间编辑能力:视角变换、空间漫游和物体空间关系操控,并兼容15类通用编辑功能。应用场景广泛,尤其在具身智能领域,可为机器人理解世界提供关键底层能力。京东近期在AI领域动作频频,持续推动AI与产业深度融合。

  • 谷歌发布Gemma 4大模型:31B登顶开源第三!手机可离线运行

    今天凌晨,谷歌DeepMind正式推出新一代开源大模型Gemma 4,该模型与谷歌闭源旗舰Gemini共享底层技术,也是时隔一年对Gemma 3的重大升级。 此次谷歌一改此前自有协议,采用Apache 2.0商业友好型许可证开源,开发者可无门槛自由修改、分发和商用。 一口气推出四款不同规格模型,覆盖从手机、边缘设备到工作站、服务器的全场景部署,在参数效率上表现亮眼,31B版本更是跻身Arena

  • 小龙虾有更便宜的Token了 国产大模型MiniMax 2.7确认本周开源

    最近小龙虾OpenClaw大热,大部分人主要的消耗还是Token词元费用,这也导致国产大模型异军突起,MiniMax 2.7就长期占据调用量前列。 MiniMax 2.7大模型发布有段时间了,但是一直没有开源的消息,现在官方在Huggingface社区终于透露了具体的计划,对OOS开发者表示歉意,称他们低估了开源所需的工作量,目前还在执行一些基础设施的适配工作,预计本周末发布MiniMax 2.7开源。

  • Scratch编程培训竞赛必备:AI录题+语言实操+阅卷发放证书的考试系统

    文章介绍了“优考试”系统如何通过AI技术革新青少年编程教育中的在线考试环节。系统利用AI智能导题功能,可自动识别并导入Scratch等编程题目,大幅提升题库建设效率;内置多种编程语言编译器,支持在浏览器中直接进行积木搭建与代码调试,确保考试环境统一公平;通过霸屏监控、实时摄像头与人脸识别等技术保障竞赛严肃性,并采用测试用例自动评分实现客观评价。此外,系统还能自动生成电子证书,助力机构品牌传播。整体而言,该系统将教师从繁琐的教务工作中解放出来,回归教学本质。

  • 国内团队打造AI社区,上线2个月登顶美区娱乐榜

    2月份,马斯克在 X 上转发了一个「Loopit」用户做的搞笑互动内容,「Loopit」旋即被各个公众号报道。说实话,我们当时并没太在意,AI 产品在某一时间段获得“集体关注”,几乎成了这个行业的常态。 但一个多月后,这款由国内团队「涌跃智能」打造的 App 竟然登顶了由媒体巨头把守的美英双区 Google Play 娱乐榜,排在后面的是「Netflix」「HBO Max」「Prime Video」。

  • AI日报:企业微信正式开源 CLI;豆包跻身全球第一梯队;微软开源前沿语音AI家族VibeVoice

    本期AI日报聚焦AI领域最新动态。企业微信开源CLI项目,整合Claude、Codex等AI助手,实现办公自动化。微软开源语音AI模型VibeVoice,支持长音频处理与多人对话生成。DeepSeek突发大规模服务中断,暴露大模型厂商在算力调度与架构稳定性方面的挑战。上海发布超150款备案大模型,集聚30万AI人才,加速具身智能发展。国产模型如豆包、小米MiMo在多个领域展现竞争力,进入“实战爆发期”。万象有声平台利用AI技术解决音频制作高成本问题,推动行业升级。智元机器人实现第10000台远征A3量产下线,15个月内产能增长十倍。Runway推出Multi-Shot App,简化视频制作流程,实现AI视频“一键成片”。

  • “拆毛线”救小猫月入近千万,国内又一混休团队跑出成绩

    近期,混休市场关注点集中在“传送带+射击”机制上。文章以《Wool Crush》为例,分析其创新之处:游戏借鉴经典PC益智游戏,将屏幕分为三部分,下半部分为华容道玩法,玩家挪出线轴;上半部分则结合毛线、猫咪等热门元素,玩家需用对应颜色线轴抽走喷火龙身上的毛线以拯救猫咪,营造对抗感。游戏在玩法融合上有想法,但视觉反馈、道具设计等方面仍有改进空间。其发行商Snap Brain Games为典型混休厂商,尝试过多种热门玩法。《Wool Crush》的成功为混休游戏创新提供了新方向。

  • AI日报:腾讯研发新AI产品探梦DreamNow;MiniMax 2.7 确认本周开源;千问3.6Plus登顶OpenRouter 全球大模型调用榜

    本期AI日报聚焦多领域进展:腾讯推出AI互动影游平台“探梦DreamNow”,降低创作门槛;阿里千问3.6 Plus单日调用量破万亿Token,登顶全球模型调用榜;谷歌发布离线AI听写应用Eloquent,保障数据安全;国产模型MiniMax 2.7确认开源,降低成本提升可用性;宇树科技移动机器人专利获授权,简化感知架构;专业动画工具OiiOii上线,AI赋能动画制作;通义千问上线财经分析模块,接入实时行情与财报;前迪士尼工程师与Midjourney打造仿生机器人Éloi,探索情感交互。

今日大家都在搜的词: