CMU、Meta联手放大招！ VQAScore一个问题搞定文生图模型评测，准确性远超传统方法！

2024-11-06 14:17 · 来源： AIbase基地

生成式AI发展迅猛，但如何全面评估其性能一直是个难题。各种模型层出不穷，效果也是越来越惊艳。但是，问题来了，怎么评价这些文生图模型的效果呢?

传统的评价方法，要么是靠人眼看，主观性太强;要么是用一些简单的指标，比如CLIPScore，但这些指标往往无法捕捉到复杂文本提示中的细节，比如对象之间的关系、逻辑推理等等。这就导致很多文生图模型的评测结果不准确，甚至会出现一些搞笑的情况，明明生成的图片驴唇不对马嘴，得分却还挺高。

为了解决这个问题，卡耐基梅隆大学和Meta的研究人员最近联手推出了一套新的文生图评测方案——VQAScore。这个方案的核心思想，就是用视觉问答（VQA）模型来给文生图模型打分。

具体来说，VQAScore会先把文本提示转换成一个简单的问题，比如“这张图里有没有一只猫在追一只老鼠?”，然后把生成的图片和这个问题一起丢给VQA模型。VQA模型会根据图片内容判断问题的答案是“是”还是“否”，VQAScore就根据VQA模型判断“是”的概率来给文生图模型打分。

这个方法看起来简单，但效果却出奇的好。研究人员用VQAScore在8个不同的文生图评测基准上进行了测试，结果发现，VQAScore的准确性和可靠性都远超传统的评测方法，甚至可以与那些使用GPT-4V等超大模型的方案相媲美。

更厉害的是，VQAScore不仅可以用来评测文生图，还可以用来评测文生视频和文生3D模型。这是因为VQAScore的核心是VQA模型，而VQA模型本身就可以处理各种类型的视觉内容。

为了进一步推动文生图领域的进步，研究人员还创建了一个新的文生图评测基准——GenAI-Bench。这个基准包含了1600个复杂的文本提示，涵盖了各种视觉语言推理能力，比如比较、计数、逻辑推理等等。研究人员还收集了超过15000个人工标注，用来评估不同文生图模型的效果。

总的来说，VQAScore和GenAI-Bench的出现，为文生图领域带来了新的活力。VQAScore提供了一种更加准确可靠的评测方法，可以帮助研究人员更好地评估不同模型的优缺点。GenAI-Bench则提供了一个更加全面和具有挑战性的评测基准，可以推动文生图模型朝着更加智能和人性化的方向发展。

当然，VQAScore也有一些局限性。目前VQAScore主要依赖于开源的VQA模型，而这些模型的性能还不如GPT-4V等闭源模型。未来，随着VQA模型的不断进步，VQAScore的性能也会进一步提升。

项目地址：https://linzhiqiu.github.io/papers/vqascore/

相关推荐

马斯克xAI推出Grok - 4 大模型将至，Meta/微美全息深耕开源AI融合加速

埃隆·马斯克旗下xAI即将发布Grok-4大模型，该模型将在语言、数学和推理方面超越OpenAI和谷歌最新AI产品。同时苹果低调收购两家AI公司TrueMeeting和WhyLabs，加速布局Vision Pro头显和Apple Intelligence领域。Meta计划投入数百亿美元扩建AI基础设施，扎克伯格亲自招募顶尖AI人才。微美全息聚焦高性能算力与多模态模型，推动AI产业升级。当前AI赛道竞争激烈，大模型正向通用多模态演进，商业化落地成为关键。
谷歌24亿收购Windsurf击败OpenAI，Meta/微美全息竞相扩充AI战略布局

谷歌以24亿美元收购AI编程初创公司Windsurf，原计划由OpenAI斥资30亿美元收购的交易突然取消。Windsurf年收入已达1亿美元，其核心团队将加入谷歌DeepMind。同时，Meta收购AI语音公司PlayAI，加强自然语音生成能力。微美全息等企业也在积极布局"AI+"赛道，推动多场景应用。全球科技巨头正通过收购和人才争夺加速AI领域布局，AI技术已成为推动行业变革的核心引擎，未来竞争将围绕技术创新和商业化应用展开。
微软以Maia 280开启新局对垒英伟达，Meta/微美全息开源联动引领AI创新

微软自研AI芯片Braga因设计问题延期至2026年，将推出过渡产品Maia280，性能或提升30%。微软原计划2025年量产Braga芯片以减少对英伟达的依赖，但延期导致后续产品线同步推迟。面对英伟达在AI芯片领域的主导地位（市占率超80%，年销售额增长10倍），微软正调整战略转向更务实的迭代路线。与此同时，Meta成立"超级智能团队"加速AI研发，微美全息押注量子计算等前沿技术。行业分析师认为，由于英伟达技术迭代速度极快（年增长32%），多数企业自研芯片计划可能最终难以抗衡其市场领导地位。

微软AI芯片 Braga芯片延期 Maia280产品
Meta高薪挖人！苹果AI大牛跳槽了

Meta首席执行官扎克伯格正以高薪挖角竞争对手的AI人才，苹果一名核心工程经理已决定跳槽加入。据悉，负责苹果基础模型团队的Ruoming Pang从苹果跳槽至Meta，他曾在苹果管理着约100名员工的团队，该团队致力于苹果大型语言模型的研发。 Ruoming Pang团队开发的模型已经应用到iPhone中，比如邮件摘要、生成式表情（Genmoji）等等。 Meta以每年数千万美元的待遇成功吸引了Ruoming Pan

Meta AI人才挖角扎克伯格
文生图大模型有哪些?探索AI绘画的核心引擎与选择利器

本文探讨了当前主流的AI文生图技术及其应用场景。国际阵营中，OpenAI的DALL·E3擅长复杂语义理解，MidJourney以艺术风格见长，Stable Diffusion则以开源生态支持深度定制。中国力量方面，百度文心一格在中文语义和国风创作表现突出，阿里通义万相侧重商业化应用，昆仑万维天工支持长文本生成连贯图像。垂直领域工具如Adobe Firefly深度集成设计流程，Runway ML革新视频创作。文章建议通过聚合平台高效对比模型特性，并指出下一代技术将突破分辨率限制，实现跨模态生成。从精准语义到无限可能，AI文生图正在重塑视觉创作边界。
荐淘宝闪购放大招：用500亿补贴砸向市场！

7月2日，淘宝闪购正式宣布启动“500亿元补贴计划”，在未来12个月内，平台将直补消费者及商家共500亿元。对于即时零售生态而言，这是近期最具分量的一颗“深水炸弹”。对于淘宝而言，则想在“即时零售”上趁机完成一次组合式翻盘。

淘宝闪购 500亿元补贴即时零售
InfoComm Asia 2025 | 利亚德解锁东南亚视听新蓝图

7月23-25日，利雅德及旗下Planar携多款创新显示产品亮相曼谷InfoComm Asia 2025展会。重点展品包括：新一代MG冷屏前后维护系列、AT超薄节能LED屏、高端透明屏及裸眼3D屏等，其中MG系列采用RGB全倒装Micro芯片和COB封装技术，实现低温高效运行；AT系列通过CNC工艺实现超薄设计；透明屏运用COG封装技术打破传统边界；裸眼3D屏支持多视角观看和实时互动。公司还展示了VDS、CDI等经典产品线，满足东南亚市场多样化需求。利雅德实施双品牌战略，以Planar拓展高端市场，Leyard主攻中端和经济型市场，2024年海外营收达27.88亿元。未来将持续加强亚太布局，推动视听技术创新。（140字）

亚太视听展利亚德 LED显示屏
AIBase.com完整评测：发现20,382+AI工具的最佳途径

AIBase是全球领先的AI工具导航平台，收录超过20,382个AI工具，涵盖25个主类别和187个子类别。平台提供智能搜索、专业分类目录和多语言支持，90%的工具经过实际测试。其核心优势包括：1）行业领先的收录数量和准确性；2）每日更新最新AI工具；3）用户可在30秒内找到所需工具。文章通过三个案例展示了AIBase如何帮助不同职业群体提升工作效率，并提供了5个专业使用技巧。尽管
男子长出4cm“生姜”大结石常以冰镇饮料和浓茶解渴

近日，湖南长沙南湖医院接诊一例特殊肾结石患者，53岁的胡先生因长期在三伏天高温环境下工作，且以冰饮料、浓茶替代饮水，导致右肾形成4厘米生姜状巨型结石。该病例经手术治疗后康复出院，为户外作业人群敲响健康警钟。据胡先生自述，其从事户外工作多年，入夏后常以冰镇饮料和浓茶解渴。三个月前开始出现腰腹部胀痛，起初通过大量饮水可缓解，但近期疼痛加
Meta 抢占AI霸权争夺加剧，微美全息（WIMI.US）布局产业生态应对市场竞争

Meta斥资数十亿美元争夺AI领域主导权，包括从OpenAI挖走三名研究员，甚至开出1亿美元签约费。同时，Meta同意以148亿美元收购AI初创公司Scale AI 49%股份，这是其史上最大外部投资。中国AI领域也快速发展，已有433款大模型完成备案上线。专家指出，开源模式推动了大模型创新生态，形成"技术-数据-场景"循环迭代。微美全息(WIMI.US)通过搭建高性能AI算力基地，集成国际先进�

人工智能 Meta 大型语言模型

今日大家都在搜的词：

热文

3 天
7天

CMU、Meta联手放大招！ VQAScore一个问题搞定文生图模型评测，准确性远超传统方法！

马斯克xAI推出Grok - 4 大模型将至，Meta/微美全息深耕开源AI融合加速

谷歌24亿收购Windsurf击败OpenAI，Meta/微美全息竞相扩充AI战略布局

微软以Maia 280开启新局对垒英伟达，Meta/微美全息开源联动引领AI创新

Meta高薪挖人！苹果AI大牛跳槽了

文生图大模型有哪些?探索AI绘画的核心引擎与选择利器

荐淘宝闪购放大招：用500亿补贴砸向市场！

InfoComm Asia 2025 | 利亚德解锁东南亚视听新蓝图

AIBase.com完整评测：发现20,382+AI工具的最佳途径

男子长出4cm“生姜”大结石常以冰镇饮料和浓茶解渴

Meta 抢占AI霸权争夺加剧，微美全息（WIMI.US）布局产业生态应对市场竞争

今日大家都在搜的词：

热文

苹果发布首个iOS 26公测版液态玻璃设计引发热议

AI日报：扣子空间网页设计功能上线；阿里Wan 2.2即将上线；O

REDMI Pad 2将于8月1日开售：2.5K屏+9000mAh电池

陶琳称特斯拉不关注排名：回应懂车帝辅助驾驶测试第一

华为Pura 80数字版维修备件价格出炉：换屏849元

华为鸿蒙HarmonyOS 5.1官宣7月31日开启升级：覆盖30多款设备

马斯克正式进军餐饮业特斯拉首家超级充电站餐厅开业

微信能自动发消息了！微信新增自动发送消息功能

苹果发布首个iOS 26公测版液态玻璃设计引发热议

特斯拉餐厅6小时狂赚4.7万美元马斯克正式进军餐饮业

A日报：Trae 2.0 正式升级 SOLO 模式；通义发布Qwen3新模型；智

AI日报：通义开源AI编程大模型Qwen3-Coder；360将推智能眼镜

小米REDMI首部短剧《时空合伙人》收官雷军“声音”亮相成惊喜

全球第一网红野兽先生计划中国行比甲亢哥更火

AI日报：字节发布同声传译模型Seed LiveInterpret 2.0；秘塔搜

站长商机