首页 > AI头条  > 正文

智源推出 BGE-VL 多模态向量模型,开启检索新纪元

2025-03-07 11:46 · 来源: AIbase基地

在多模态人工智能领域,智源研究院与多所高校合作推出了全新的多模态向量模型 BGE-VL,标志着多模态检索技术的一次重大突破。自发布以来,BGE 系列模型便获得了广泛赞誉,而 BGE-VL 的推出则进一步丰富了这一生态系统。该模型在图文检索、组合图像检索等多项关键任务中表现出色,展现出其卓越的性能。

BGE-VL 的成功归功于其背后的 MegaPairs 数据合成技术。这一创新方法通过挖掘现有的大规模图文数据,自动生成高质量的多模态三元组数据,显著提升了数据的可扩展性和质量。MegaPairs 能够以极低的成本生成多样化的数据集,其包含超过2600万条样本,为多模态检索模型的训练提供了丰厚的基础。这一技术让 BGE-VL 在多个主流多模态检索基准上都取得了领先成绩。

image.png

在多模态检索日益受到重视的今天,用户对信息的获取需求愈发多样化。以往的检索模型多依赖于单一的图文对进行训练,无法有效应对复杂的组合输入。而 BGE-VL 通过引入 MegaPairs 数据,克服了这一局限,使得模型能够更全面地理解和处理多模态查询。

智源团队在多个任务的性能评测中,发现 BGE-VL 模型在 Massive Multimodal Embedding Benchmark(MMEB)上的零样本性能表现优异,尽管 MegaPairs 未涵盖 MMEB 中的大部分任务,但其任务泛化能力依然令人振奋。此外,在组合图像检索的评测中,BGE-VL 同样表现突出,大幅超过了众多知名模型,如谷歌的 MagicLens 和英伟达的 MM-Embed。

image.png

未来,智源研究院计划继续深化 MegaPairs 技术,结合更丰富的多模态检索场景,致力于打造更加全面和高效的多模态检索器,为用户提供更为精准的信息服务。随着多模态技术的发展,BGE-VL 的推出无疑将推动相关领域的进一步探索与创新。

论文地址:https://arxiv.org/abs/2412.14475

项目主页:https://github.com/VectorSpaceLab/MegaPairs

模型地址:https://huggingface.co/BAAI/BGE-VL-MLLM-S1

  • 相关推荐
  • 主流AI多模态大模型有哪些?超全的多模态大模型指南分享

    2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据,实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型,对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

  • AI重构社交生态 Soul以多模态技术赋能社交

    社交平台Soul正通过AI技术重塑社交生态:1)2016年推出智能推荐系统"灵犀引擎",2020年启动AIGC算法研发,2023年推出自研大模型Soul+X,开发AI虚拟人、智能聊天等应用;2)升级多模态大模型,支持文字对话、语音通话、多语言理解等功能,提供拟人化情感陪伴;3)围绕Z世代需求,促成超10万对情侣步入婚姻,并联合开展心理健康公益活动;4)以"技术+人文"双轮驱动,致力于打造更智能舒适的社交环境,重新定义人机关系。

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 共探AI视频新纪元:讯飞“绘镜开放麦”全回顾

    7月12日,科大讯飞与WaytoAGI联合主办的"绘镜开放麦"活动在杭州举行,汇聚全国百余位AI视频创作者探讨AI视频创作潜力。活动发布了"讯飞绘镜共创者计划",邀请视频爱好者参与AI创作。多位创作者分享了AI赋能视频创作的经验,讯飞工程师详解了AI视频生成技术原理,强调精准提示词的重要性。讯飞绘镜平台通过精细化提示词优化、角色DNA赋予等技术,提升视频生成质量。活动还展示了AI视频挑战赛优秀作品,6位获奖者获颁荣誉。WaytoAGI作为最大AI开源社区,将持续推动AI创作生态发展。

  • 从“修图师”到“艺术总监”,图灵精修:AI赋能摄影创作新纪元

    文章介绍AI修图工具"图灵精修"如何革新商业摄影后期流程。该工具融合达芬奇电影级调色引擎和16位色彩管理技术,能智能处理皮肤瑕疵、衣物褶皱等常见问题,将传统25分钟的修图时间缩短至30秒内。通过与影楼管理系统无缝对接,实现从拍摄到交付的全流程效率提升30%,降低成本60%。CEO表示该工具旨在解放修图师的重复劳动,让其转型为视觉创意专家。数据显示,使用后影楼创意时间增加3小时,客单价提升25%。图灵精修以亲民价格提供顶级修图质量,正推动行业从"修图"向"创意"转型。

  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

  • 告别模型搜寻困境:AIbase模型广场让你高效找到最佳AI模型

    文章探讨了在AI技术快速发展背景下,如何高效发现和评估适合需求的AI模型这一核心挑战。传统方式存在模型分散、评估门槛高、应用场景模糊等问题。AIbase模型广场通过聚合主流平台模型、提供多维度评估(性能指标、用户反馈、易用性等)、强化场景连接(按业务问题分类)和部署辅助信息,构建了完整的模型发现与应用生态。该平台能显著提升效率,帮助开发者快速锁�

  • 微云全息(NASDAQ: HOLO)引领加密货币预测新纪元:HNFCS技术揭秘

    微云全息(NASDAQ:HOLO)开发了混合神经模糊控制系统(HNFCS),结合神经网络学习能力和模糊逻辑灵活性,能有效预测比特币等加密货币价格波动。该系统通过处理海量市场数据,动态调整预测模型,克服了传统方法在样本外预测和超时预测准确性方面的局限。HNFCS技术优势在于其自适应性和实时性,可扩展应用于多种金融场景,为投资者提供精准决策支持,有望成为加密货币市场的重要分析工具。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • AI日报:美图发布影像AI Agent RoboNeo;1.8bit量化Kimi K2模型上线;亚马逊推AI代码编辑器 Kiro

    【AI日报】今日AI领域重要动态:1)美图推出RoboNeo,通过自然语言指令实现图片精修、品牌设计等全能影像处理;2)Unsloth AI将Kimi K2模型量化至1.8bit,体积缩减78%保持性能;3)谷歌Gemini嵌入模型登顶MTEB榜单,超越OpenAI;4)亚马逊发布免费AI代码编辑器Kiro,集成Claude模型;5)Claude新增应用工具目录功能提升工作效率;6)MiniMax完成近3亿美元融资,估值超40亿美元;7)UTCP新协议让AI代理直

今日大家都在搜的词:

热文

  • 3 天
  • 7天