首页 > AI头条  > 正文

Salesforce推出xGen-MM开源多模态AI模型,助力视觉理解

2024-08-20 11:15 · 来源: AIbase基地

Salesforce推出了一套名为 xGen-MM 的开源多模态 AI 模型,这套模型可以同时理解和生成文本、图像等多种数据类型,可能会彻底改变我们对 AI 的研究和应用方式。

Salesforce AI 研究团队在 arXiv 上发布了一篇论文,详细介绍了 xGen-MM 框架。这个框架不仅包含了预训练模型,还有数据集和微调代码。值得一提的是,这个最大模型有40亿个参数,性能在多个基准测试中表现不俗,与同类开源模型相比毫不逊色。

image.png

这次开源的举动,与目前很多科技巨头选择将高级 AI 模型保密的趋势截然不同。Salesforce 表示,他们希望通过开放模型和数据集,来促进更广泛的研究和开发。其实,这样的决定也是为了让更多的研究人员和开发者有机会参与到多模态 AI 技术的进步中来。

xGen-MM 的一大创新在于它能够处理 “交错数据”,也就是说,它可以同时处理多个图像和文本。这种能力让模型能够执行更复杂的任务,比如同时回答关于多张图像的问题,真的是相当牛!这样的应用场景可能在医疗诊断、自动驾驶等领域会大有用武之地。

此次发布还包括了多种优化版本的模型,比如基础预训练模型、一个为遵循指令而调优的模型,以及一个旨在减少有害输出的 “安全调优” 模型。这种多样化的选择,反映了 AI 社区对能力与安全伦理的平衡日益重视。

不过,随着强大模型的发布,也引发了人们对更先进 AI 系统潜在风险和社会影响的讨论。尽管 Salesforce 已经做了安全调优来降低风险,但如何平衡创新与安全,仍然是个值得深思的问题。

Salesforce 的这一开源发布,给研究人员提供了宝贵的工具,以更好地理解和改进这些强大的技术。同时,这也为 AI 领域的透明度树立了一个新的标杆,可能会推动其他科技巨头更加开放他们的研究。

模型入口:https://huggingface.co/collections/Salesforce/xgen-mm-1-models-662971d6cecbf3a7f80ecc2e

划重点:

🌟 xGen-MM 是 Salesforce 推出的一套开源多模态 AI 模型,支持文本和图像的综合理解与生成。

🔍 模型具有处理交错数据的能力,能够同时回答关于多张图像的问题,应用前景广阔。

🔒 该发布包括多种优化版本,关注安全性与伦理问题,为研究者提供丰富的资源。

  • 相关推荐
  • 荣耀Magic 8系列上新,火山引擎助力“YOYO助理”多模态升级

    10月15日,荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等年度旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力,结合火山引擎与豆包大模型技术,支持联网问答、识图、修图、闲陪伴、口语练习、出行规划等场景,提供图文、语音、视频等多种输入输出形式,实现秒级响应与沉浸式交互体验,成为用户“口袋里的万能管家”。

  • 零一万物联合开源中国推出OAK平台,目标打造Agent世界的“生态适配器”

    在GOT C 2025全球开源技术峰会上,零一万物CEO李开复博士发表演讲,强调开源模型是构建AI Agent的最佳选择。零一万物与开源中国联合发布一站式AI Agent开源开发平台OAK,支持对接多种开源大模型,旨在打破生态绑定限制,助力开发者实现“Agent开发自由”。该平台具备可视化编排、评估优化、数据管理等功能,未来将逐步推出四大核心模块,推动开放协作的AI Agent生态发展。

  • 荣耀年度旗舰上新,火山引擎助力“YOYO助理”多模态智慧再升级

    10月15日,荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力,支持图文、语音、视频输入及多样化内容输出,结合火山引擎的豆包大模型技术,提供联网问答、智能识图、创意修图、出行规划等场景服务,实现“有问必答、答则精准”的智慧体验,成为用户贴身的“万能管家”。

  • AIbase GEO品牌监控服务如何助力品牌赢得AI搜索可见性

    随着生成式AI普及,用户正从传统搜索引擎转向ChatGPT等AI助手提问。品牌可见性不再依赖搜索排名,而取决于AI是否准确提及品牌。但AI模型知识来源不透明,存在品牌被错误引用、替代甚至忽略的风险。AIbase推出的GEO品牌监控服务,通过多平台监测、情感分析、竞品对比等功能,帮助企业实现“可见、可信、可控”的AI声誉管理,用数据驱动品牌在AI搜索时代的战略升级。

  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 墨刀AI Agent:更懂产品经理的超级智能体上线

    2025年AI将进入"智能体时代",从被动工具升级为能理解意图、辅助决策的伙伴。墨刀AI+Agent专为产品经理打造,具备三层核心能力:懂逻辑(理解需求生成原型)、懂场景(熟悉全流程工作)、懂协作(跨角色沟通优化)。它能贯穿调研、原型、文档、评审等环节,解放重复劳动,让产品经理专注高价值决策,实现从效率提升到决策升级的人机协作新模式。

  • 生成式引擎优化(GEO)是什么?从0到1理解新一代SEO

    本文系统介绍了生成式引擎优化(GEO)这一新兴概念。GEO旨在通过优化内容结构、提升语义丰富度和权威性,增强内容在AI生成答案中的可见性和引用率。与关注关键词排名的传统SEO不同,GEO聚焦三大转变:从排名思维转向引用思维,从关键词优化转向语义优化,从流量思维转向信任思维。文章详细解析了GEO的三大核心逻辑(结构化内容、权威信号、语义丰富度)、五大实用技巧(构建FAQ、数据支撑、场景化建议、时效维护、内容网络),并指出当前面临的算法黑盒、效果滞后等挑战。最后强调GEO需通过专业检测工具持续验证优化效果,是企业抢占AI时代流量红利的关键利器。

  • 全新开源的DeepSeek-OCR,可能是最近最惊喜的模型。

    ​AI圈虽然天天卷,但是很多的模型,真的越来越无聊了。 每天就是跑分又多了几个点。 直到昨天,DeepSeek久违的发了一个新模型。 DeepSeek-OCR。 这玩意,是真的有点酷。

  • 数巅完成数亿元pre-A轮融资,领跑企业级AI Agent赛道

    北京数巅科技完成数亿元Pre-A轮融资,由济和创投与赛富基金领投。资金将用于产品研发、国内市场深耕及国际市场拓展,强化其Data Agent技术在行业落地方面的领先优势。数巅推出企业级Data Agent解决方案,通过模块化架构整合海量行业知识与企业数据,精准识别用户需求,实现秒级响应与深度推理,满足企业数据分析、智能报告生成及业务决策等需求。该方案已在多家央国企及金融机构落地,查数准确率超99%,成为国内企业级智能体应用的重要里程碑。

今日大家都在搜的词: