智源推出 BGE-VL 多模态向量模型，开启检索新纪元

2025-03-07 11:46 · 来源： AIbase基地

在多模态人工智能领域，智源研究院与多所高校合作推出了全新的多模态向量模型 BGE-VL，标志着多模态检索技术的一次重大突破。自发布以来，BGE 系列模型便获得了广泛赞誉，而 BGE-VL 的推出则进一步丰富了这一生态系统。该模型在图文检索、组合图像检索等多项关键任务中表现出色，展现出其卓越的性能。

BGE-VL 的成功归功于其背后的 MegaPairs 数据合成技术。这一创新方法通过挖掘现有的大规模图文数据，自动生成高质量的多模态三元组数据，显著提升了数据的可扩展性和质量。MegaPairs 能够以极低的成本生成多样化的数据集，其包含超过2600万条样本，为多模态检索模型的训练提供了丰厚的基础。这一技术让 BGE-VL 在多个主流多模态检索基准上都取得了领先成绩。

在多模态检索日益受到重视的今天，用户对信息的获取需求愈发多样化。以往的检索模型多依赖于单一的图文对进行训练，无法有效应对复杂的组合输入。而 BGE-VL 通过引入 MegaPairs 数据，克服了这一局限，使得模型能够更全面地理解和处理多模态查询。

智源团队在多个任务的性能评测中，发现 BGE-VL 模型在 Massive Multimodal Embedding Benchmark（MMEB）上的零样本性能表现优异，尽管 MegaPairs 未涵盖 MMEB 中的大部分任务，但其任务泛化能力依然令人振奋。此外，在组合图像检索的评测中，BGE-VL 同样表现突出，大幅超过了众多知名模型，如谷歌的 MagicLens 和英伟达的 MM-Embed。

未来，智源研究院计划继续深化 MegaPairs 技术，结合更丰富的多模态检索场景，致力于打造更加全面和高效的多模态检索器，为用户提供更为精准的信息服务。随着多模态技术的发展，BGE-VL 的推出无疑将推动相关领域的进一步探索与创新。

论文地址:https://arxiv.org/abs/2412.14475

项目主页:https://github.com/VectorSpaceLab/MegaPairs

模型地址:https://huggingface.co/BAAI/BGE-VL-MLLM-S1

相关推荐

主流AI多模态大模型有哪些？超全的多模态大模型指南分享

2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据，实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型，对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

多模态大模型 AI技术发展 GPT-4V
AI重构社交生态 Soul以多模态技术赋能社交

社交平台Soul正通过AI技术重塑社交生态：1）2016年推出智能推荐系统"灵犀引擎"，2020年启动AIGC算法研发，2023年推出自研大模型Soul+X，开发AI虚拟人、智能聊天等应用；2）升级多模态大模型，支持文字对话、语音通话、多语言理解等功能，提供拟人化情感陪伴；3）围绕Z世代需求，促成超10万对情侣步入婚姻，并联合开展心理健康公益活动；4）以"技术+人文"双轮驱动，致力于打造更智能舒适的社交环境，重新定义人机关系。

AI社交 Soul平台多模态大模型
荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

本文介绍了AI领域多项重要进展：1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen，显著提升建模效率；2)阿里发布多模态大模型HumanOmniV2，准确率达69.33%；3)钉钉AI表格实现1小时处理千项任务；4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级；5)微软推出Deep Research智能体，自动化研究流程；6)香港理工与OPPO联合开源视频超清框架DLoRAL；7)谷歌开源MCP工具箱简化AI与数据库集成；8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。
共探AI视频新纪元：讯飞“绘镜开放麦”全回顾

7月12日，科大讯飞与WaytoAGI联合主办的"绘镜开放麦"活动在杭州举行，汇聚全国百余位AI视频创作者探讨AI视频创作潜力。活动发布了"讯飞绘镜共创者计划"，邀请视频爱好者参与AI创作。多位创作者分享了AI赋能视频创作的经验，讯飞工程师详解了AI视频生成技术原理，强调精准提示词的重要性。讯飞绘镜平台通过精细化提示词优化、角色DNA赋予等技术，提升视频生成质量。活动还展示了AI视频挑战赛优秀作品，6位获奖者获颁荣誉。WaytoAGI作为最大AI开源社区，将持续推动AI创作生态发展。
从“修图师”到“艺术总监”，图灵精修：AI赋能摄影创作新纪元

文章介绍AI修图工具"图灵精修"如何革新商业摄影后期流程。该工具融合达芬奇电影级调色引擎和16位色彩管理技术，能智能处理皮肤瑕疵、衣物褶皱等常见问题，将传统25分钟的修图时间缩短至30秒内。通过与影楼管理系统无缝对接，实现从拍摄到交付的全流程效率提升30%，降低成本60%。CEO表示该工具旨在解放修图师的重复劳动，让其转型为视觉创意专家。数据显示，使用后影楼创意时间增加3小时，客单价提升25%。图灵精修以亲民价格提供顶级修图质量，正推动行业从"修图"向"创意"转型。
荐A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0；通义千问发布Qwen Chat桌面客户端

本期AI日报重点报道了多项AI领域突破性进展：1.月之暗面推出万亿参数开源大模型Kimi K2，展现强大智能能力；2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统；3.通义千问发布桌面客户端Qwen Chat；4.IndexTTS2实现影视级语音合成；5.HuggingFace开源机器人Reachy Mini热销；6.Meta推出实时视频生成模型StreamDiT；7.PixVerse新增多关键帧视频生成功能；8.特斯拉推出仅支持AMD处理器的Grok AI助手；9.OpenAI推迟开源大模型发布以加强安全测试；10.Liquid AI开源边缘AI模型LFM2；11.AI"时间穿越"特效在社交媒体走红。

人工智能开源大模型技术趋势
告别模型搜寻困境：AIbase模型广场让你高效找到最佳AI模型

文章探讨了在AI技术快速发展背景下，如何高效发现和评估适合需求的AI模型这一核心挑战。传统方式存在模型分散、评估门槛高、应用场景模糊等问题。AIbase模型广场通过聚合主流平台模型、提供多维度评估（性能指标、用户反馈、易用性等）、强化场景连接（按业务问题分类）和部署辅助信息，构建了完整的模型发现与应用生态。该平台能显著提升效率，帮助开发者快速锁�
微云全息（NASDAQ: HOLO）引领加密货币预测新纪元：HNFCS技术揭秘

微云全息(NASDAQ:HOLO)开发了混合神经模糊控制系统(HNFCS)，结合神经网络学习能力和模糊逻辑灵活性，能有效预测比特币等加密货币价格波动。该系统通过处理海量市场数据，动态调整预测模型，克服了传统方法在样本外预测和超时预测准确性方面的局限。HNFCS技术优势在于其自适应性和实时性，可扩展应用于多种金融场景，为投资者提供精准决策支持，有望成为加密货币市场的重要分析工具。
荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

AI日报精选：1)百度开源文心大模型4.5系列，含10款新模型，性能优异；2)通义千问发布多模态模型Qwen-VL，支持图文交互；3)阿里开源3亿参数多模态模型Ovis-U1；4)华为开源盘古7B稠密和72B混合专家模型；5)美图MOKI推出AI创意广告功能，一键生成专业视频；6)谷歌Gemini 2.5 Pro API重新免费开放；7)豆瓣上线"深入研究"AI功能；8)小米"AI百宝箱"结束内测；9)北京智研院开源多模态系统OmniGen2；10)知乎升级"直答"知识库功能。

AI日报文心大模型开源模型
荐AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型上线；亚马逊推AI代码编辑器 Kiro

【AI日报】今日AI领域重要动态：1)美图推出RoboNeo，通过自然语言指令实现图片精修、品牌设计等全能影像处理；2)Unsloth AI将Kimi K2模型量化至1.8bit，体积缩减78%保持性能；3)谷歌Gemini嵌入模型登顶MTEB榜单，超越OpenAI；4)亚马逊发布免费AI代码编辑器Kiro，集成Claude模型；5)Claude新增应用工具目录功能提升工作效率；6)MiniMax完成近3亿美元融资，估值超40亿美元；7)UTCP新协议让AI代理直

今日大家都在搜的词：

热文

3 天
7天

智源推出 BGE-VL 多模态向量模型，开启检索新纪元

主流AI多模态大模型有哪些？超全的多模态大模型指南分享

AI重构社交生态 Soul以多模态技术赋能社交

荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

共探AI视频新纪元：讯飞“绘镜开放麦”全回顾

从“修图师”到“艺术总监”，图灵精修：AI赋能摄影创作新纪元

荐A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0；通义千问发布Qwen Chat桌面客户端

告别模型搜寻困境：AIbase模型广场让你高效找到最佳AI模型

微云全息（NASDAQ: HOLO）引领加密货币预测新纪元：HNFCS技术揭秘

荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

荐AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型上线；亚马逊推AI代码编辑器 Kiro

今日大家都在搜的词：

热文

尾号“8个7”手机号拍出320万元溢价率高达146%

王化在小米履职10年雷军：谢谢这十年辛苦的工作和贡献

A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0

淘宝闪购：日订单量再次突破8000万创新高

AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型

黄仁勋与雷军合影上热搜一旁小米SU7 Ultra见证科技双雄会

抖音：“抖音会议”App是诈骗软件会直接控制用户手机

AI日报：字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音

OPPO K13 Turbo系列支持IPX9/IPX8/IPX6满级防水将于7月21日发

黄仁勋称想买一辆小米汽车英伟达在多方面与小米开展合作

尾号“8个7”手机号拍出320万元溢价率高达146%

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模

小米回应AI眼镜没有屏显功能：专注拍摄、AI语音交互

王化在小米履职10年雷军：谢谢这十年辛苦的工作和贡献

A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0

淘宝闪购：日订单量再次突破8000万创新高

AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型

黄仁勋与雷军合影上热搜一旁小米SU7 Ultra见证科技双雄会

腾讯客服回应误删微信聊天记录可撤销：苹果iOS机型已支持

周杰伦发布第一条抖音视频：回顾成长史粉丝超1200万

站长商机