首页 > 业界 > 关键词  > SPRIGHT最新资讯  > 正文

Hugging、英特尔发布文生图一致性解决方案——SPRIGHT

2024-04-02 14:34 · 稿源:站长之家

站长之家(ChinaZ.com)4月2日 消息:Hugging 和英特尔发布了提高文生图模型空间一致性的方案,大幅提高了模型对提示词中空间关系的理解能力。

在当前的将文字描述转换为图像的技术(T2I)中,一个关键短板是它们往往无法精准地生成与文字提示中所描述的空间关系相符的图像。为了解决这个问题,Hugging 和英特尔全面调查了这一限制,并开发了一些数据集和方法,以此达到行业领先水平。

QQ截图20240402143503.png

项目地址:https://spright-t2i.github.io/

他们发现目前的图文数据集对空间关系的表达不够充分。为了解决这个问题,他们创建了SPRIGHT——第一个专注于空间关系的大规模数据集,方法是重新标注了来自四个广泛使用的图像数据集的600万张图片。经过三重评估和分析,他们发现SPRIGHT在捕捉空间关系方面大幅超越现有数据集。他们仅使用约0.25%的SPRIGHT数据,就在制作空间准确的图像方面取得了22%的提升,并且在FID(图像质量评分)和CMMD(跨模态匹配度评分)上也有所改进。

在包含大量物体的图像上进行训练,可以显著提高图像的空间一致性。特别地,他们在少于500张图片上进行微调后,在T2I综合比赛平台(T2I-CompBench)上达到了0.2133的空间得分,创造了新的最高记录。

通过一系列严格的实验和测试,他们记录了多项发现,这些发现有助于深入理解影响文字描述转换为图像技术在空间一致性方面的各种因素。同时,他们还会开源这个模型和数据集,以便其他研究者和开发者能够利用这些资源来进一步提高文生图模型的性能。

举报

  • 相关推荐
  • 【CIM 加速,AI有方】No.2|格创东智GT Insights用AI工作流改写半导体智造决策范式

    在半导体制造领域,数据驱动的精准决策成为提升良率、降低成本的核心。传统数据分析系统面临三大挑战:技术门槛高、分析周期长、知识传承难。格创东智推出的GT+Insights产品,通过自然语言交互实现“对话即分析”,大幅降低使用门槛。该系统采用语义建模技术,将复杂物理数据转化为业务友好模型,支持分钟级全链路良率根因分析。目前已在多家半导体企业成功落地,助力客户显著提升生产效率,推动行业向智能化持续迈进。

  • 立根中国,服务全球——LiteSSL 开放免费 TLS/SSL 证书,零门槛接入 HTTPS

    亚数TrustAsia推出LiteSSL公益项目,旨在解决HTTPS普及中TLS/SSL证书部署成本高、流程复杂等痛点。该项目提供免费、自动化证书服务,基于国产可信根证书实现全球兼容,通过本土化验证节点提升效率,并支持ACME协议实现一键部署。LiteSSL致力于构建开放安全生态,邀请开发者共同推动HTTPS成为互联网默认配置,筑牢数据传输安全基石。

  • vivo OriginOS 6启动公测招募:支持10款机型

    vivo于10月30日启动OriginOS 6公测招募,持续至11月8日,覆盖X Fold5、X200系列及iQOO 13等10款机型。系统将分批推送:首日5000名,次日1.5万,后续逐步增加至全员覆盖。用户需先升级系统至最新版,通过设置内入口报名。新系统搭载蓝河流畅引擎,重构安卓核心,通过超核计算、光子存储等技术提升多核性能、帧率稳定性及多任务流畅度。官方提醒更新前务必备份数据,确保安全。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 2599元起!一图看懂iQOO Neo11:骁龙8至尊版双芯+同档唯一2K LTPO屏

    iQOO Neo11于10月30日发布,起售价2599元。配备6.78英寸2K+144Hz京东方Q10+屏,搭载骁龙8至尊版芯片与自研电竞芯片Q2,安兔兔跑分超354万。内置7500mAh电池,支持100W快充。后置5000万像素索尼主摄,支持IP68/69防尘防水。提供疾影黑、像素方橙等配色,机身厚8.05mm、重210g。首期限时优惠,12GB+256GB版2599元。

  • GEO如何改变ChatGPT搜索和Perplexity的游戏规则

    本文对比ChatGPT与Perplexity两大AI搜索平台:ChatGPT作为全能型助手,整合搜索与多任务处理,但存在信息时效性不足;Perplexity专注垂直搜索,强调引用透明与权威来源。针对AI搜索优化(GEO),提出差异化策略:面向ChatGPT需构建结构化知识库、强化品牌实体识别;面向Perplexity需注重权威数据引用和元数据优化。文章还介绍了AIBase的GEO监测工具,通过曝光率等指标量化内容在AI生态中的可见度,并给出可落地的优化行动方案。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • 谁能成为中国的ChatGPT?夸克抢先交卷

    在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周,微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器,夸克则在国内推出了新的「对话助手」功能。 这一系列消息背后,新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化,入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式,自然语言就是未来的编程语言。 在海外市场,OpenA

  • 双11京东:海尔麦浪舒适风空调双榜TOP1

    双11大促带动空调市场“冬季焕新”热潮。海尔空调表现抢眼:麦浪舒适风空调斩获京东“万单品质空调榜”与“舒适风趋势空调榜”双榜首;小红花净省电空调位列“健康趋势空调榜”第二。产品优势源于海尔开展的千人众测活动,通过17天真实用户体验,以“新品体验+真实测评”方式直观展示产品性能。当前空调消费趋势转向“实用型升级”,用户更关注舒适感、节能性与健康保障。海尔通过线下众测让用户亲身体验智能操控与舒适送风,以“眼见为实”互动提升产品可信度,为双11选购提供直观参考。

今日大家都在搜的词: