首页 > AI头条  > 正文

CMU、Meta联手放大招! VQAScore一个问题搞定文生图模型评测,准确性远超传统方法!

2024-11-06 14:17 · 来源: AIbase基地

生成式AI发展迅猛,但如何全面评估其性能一直是个难题。各种模型层出不穷,效果也是越来越惊艳。但是,问题来了,怎么评价这些文生图模型的效果呢?

传统的评价方法,要么是靠人眼看,主观性太强;要么是用一些简单的指标,比如CLIPScore,但这些指标往往无法捕捉到复杂文本提示中的细节,比如对象之间的关系、逻辑推理等等。这就导致很多文生图模型的评测结果不准确,甚至会出现一些搞笑的情况,明明生成的图片驴唇不对马嘴,得分却还挺高。

image.png

为了解决这个问题,卡耐基梅隆大学和Meta的研究人员最近联手推出了一套新的文生图评测方案——VQAScore。这个方案的核心思想,就是用视觉问答(VQA)模型来给文生图模型打分。

image.png

具体来说,VQAScore会先把文本提示转换成一个简单的问题,比如“这张图里有没有一只猫在追一只老鼠?”,然后把生成的图片和这个问题一起丢给VQA模型。VQA模型会根据图片内容判断问题的答案是“是”还是“否”,VQAScore就根据VQA模型判断“是”的概率来给文生图模型打分。

image.png

这个方法看起来简单,但效果却出奇的好。研究人员用VQAScore在8个不同的文生图评测基准上进行了测试,结果发现,VQAScore的准确性和可靠性都远超传统的评测方法,甚至可以与那些使用GPT-4V等超大模型的方案相媲美。

更厉害的是,VQAScore不仅可以用来评测文生图,还可以用来评测文生视频和文生3D模型。这是因为VQAScore的核心是VQA模型,而VQA模型本身就可以处理各种类型的视觉内容。

image.png

为了进一步推动文生图领域的进步,研究人员还创建了一个新的文生图评测基准——GenAI-Bench。这个基准包含了1600个复杂的文本提示,涵盖了各种视觉语言推理能力,比如比较、计数、逻辑推理等等。研究人员还收集了超过15000个人工标注,用来评估不同文生图模型的效果。

总的来说,VQAScore和GenAI-Bench的出现,为文生图领域带来了新的活力。VQAScore提供了一种更加准确可靠的评测方法,可以帮助研究人员更好地评估不同模型的优缺点。GenAI-Bench则提供了一个更加全面和具有挑战性的评测基准,可以推动文生图模型朝着更加智能和人性化的方向发展。

当然,VQAScore也有一些局限性。目前VQAScore主要依赖于开源的VQA模型,而这些模型的性能还不如GPT-4V等闭源模型。未来,随着VQA模型的不断进步,VQAScore的性能也会进一步提升。

项目地址:https://linzhiqiu.github.io/papers/vqascore/

  • 相关推荐
  • 马斯克xAI推出Grok - 4 大模型将至,Meta/微美全息深耕开源AI融合加速

    埃隆·马斯克旗下xAI即将发布Grok-4大模型,该模型将在语言、数学和推理方面超越OpenAI和谷歌最新AI产品。同时苹果低调收购两家AI公司TrueMeeting和WhyLabs,加速布局Vision Pro头显和Apple Intelligence领域。Meta计划投入数百亿美元扩建AI基础设施,扎克伯格亲自招募顶尖AI人才。微美全息聚焦高性能算力与多模态模型,推动AI产业升级。当前AI赛道竞争激烈,大模型正向通用多模态演进,商业化落地成为关键。

  • 谷歌24亿收购Windsurf击败OpenAI,Meta/微美全息竞相扩充AI战略布局

    谷歌以24亿美元收购AI编程初创公司Windsurf,原计划由OpenAI斥资30亿美元收购的交易突然取消。Windsurf年收入已达1亿美元,其核心团队将加入谷歌DeepMind。同时,Meta收购AI语音公司PlayAI,加强自然语音生成能力。微美全息等企业也在积极布局"AI+"赛道,推动多场景应用。全球科技巨头正通过收购和人才争夺加速AI领域布局,AI技术已成为推动行业变革的核心引擎,未来竞争将围绕技术创新和商业化应用展开。

  • 微软以Maia 280开启新局对垒英伟达,Meta/微美全息开源联动引领AI创新

    微软自研AI芯片Braga因设计问题延期至2026年,将推出过渡产品Maia280,性能或提升30%。微软原计划2025年量产Braga芯片以减少对英伟达的依赖,但延期导致后续产品线同步推迟。面对英伟达在AI芯片领域的主导地位(市占率超80%,年销售额增长10倍),微软正调整战略转向更务实的迭代路线。与此同时,Meta成立"超级智能团队"加速AI研发,微美全息押注量子计算等前沿技术。行业分析师认为,由于英伟达技术迭代速度极快(年增长32%),多数企业自研芯片计划可能最终难以抗衡其市场领导地位。

  • Meta高薪挖人!苹果AI大牛跳槽了

    Meta首席执行官扎克伯格正以高薪挖角竞争对手的AI人才,苹果一名核心工程经理已决定跳槽加入。 据悉,负责苹果基础模型团队的Ruoming Pang从苹果跳槽至Meta,他曾在苹果管理着约100名员工的团队,该团队致力于苹果大型语言模型的研发。 Ruoming Pang团队开发的模型已经应用到iPhone中,比如邮件摘要、生成式表情(Genmoji)等等。 Meta以每年数千万美元的待遇成功吸引了Ruoming Pan

  • 文生图大模型有哪些?探索AI绘画的核心引擎与选择利器

    本文探讨了当前主流的AI文生图技术及其应用场景。国际阵营中,OpenAI的DALL·E3擅长复杂语义理解,MidJourney以艺术风格见长,Stable Diffusion则以开源生态支持深度定制。中国力量方面,百度文心一格在中文语义和国风创作表现突出,阿里通义万相侧重商业化应用,昆仑万维天工支持长文本生成连贯图像。垂直领域工具如Adobe Firefly深度集成设计流程,Runway ML革新视频创作。文章建议通过聚合平台高效对比模型特性,并指出下一代技术将突破分辨率限制,实现跨模态生成。从精准语义到无限可能,AI文生图正在重塑视觉创作边界。

  • 淘宝闪购放大招:用500亿补贴砸向市场!

    ​7月2日,淘宝闪购正式宣布启动“500亿元补贴计划”,在未来12个月内,平台将直补消费者及商家共500亿元。 对于即时零售生态而言,这是近期最具分量的一颗“深水炸弹”。对于淘宝而言,则想在“即时零售”上趁机完成一次组合式翻盘。

  • InfoComm Asia 2025 | 利亚德解锁东南亚视听新蓝图

    7月23-25日,利雅德及旗下Planar携多款创新显示产品亮相曼谷InfoComm Asia 2025展会。重点展品包括:新一代MG冷屏前后维护系列、AT超薄节能LED屏、高端透明屏及裸眼3D屏等,其中MG系列采用RGB全倒装Micro芯片和COB封装技术,实现低温高效运行;AT系列通过CNC工艺实现超薄设计;透明屏运用COG封装技术打破传统边界;裸眼3D屏支持多视角观看和实时互动。公司还展示了VDS、CDI等经典产品线,满足东南亚市场多样化需求。利雅德实施双品牌战略,以Planar拓展高端市场,Leyard主攻中端和经济型市场,2024年海外营收达27.88亿元。未来将持续加强亚太布局,推动视听技术创新。(140字)

  • AIBase.com完整评测:发现20,382+AI工具的最佳途径

    AIBase是全球领先的AI工具导航平台,收录超过20,382个AI工具,涵盖25个主类别和187个子类别。平台提供智能搜索、专业分类目录和多语言支持,90%的工具经过实际测试。其核心优势包括:1)行业领先的收录数量和准确性;2)每日更新最新AI工具;3)用户可在30秒内找到所需工具。文章通过三个案例展示了AIBase如何帮助不同职业群体提升工作效率,并提供了5个专业使用技巧。尽管

  • 男子长出4cm“生姜”大结石 常以冰镇饮料和浓茶解渴

    ​近日,湖南长沙南湖医院接诊一例特殊肾结石患者,53岁的胡先生因长期在三伏天高温环境下工作,且以冰饮料、浓茶替代饮水,导致右肾形成4厘米生姜状巨型结石。该病例经手术治疗后康复出院,为户外作业人群敲响健康警钟。 据胡先生自述,其从事户外工作多年,入夏后常以冰镇饮料和浓茶解渴。三个月前开始出现腰腹部胀痛,起初通过大量饮水可缓解,但近期疼痛加

  • Meta 抢占AI霸权争夺加剧,微美全息(WIMI.US)布局产业生态应对市场竞争

    Meta斥资数十亿美元争夺AI领域主导权,包括从OpenAI挖走三名研究员,甚至开出1亿美元签约费。同时,Meta同意以148亿美元收购AI初创公司Scale AI 49%股份,这是其史上最大外部投资。中国AI领域也快速发展,已有433款大模型完成备案上线。专家指出,开源模式推动了大模型创新生态,形成"技术-数据-场景"循环迭代。微美全息(WIMI.US)通过搭建高性能AI算力基地,集成国际先进�

今日大家都在搜的词: