首页 > 业界 > 关键词  > SPRIGHT最新资讯  > 正文

Hugging、英特尔发布文生图一致性解决方案——SPRIGHT

2024-04-02 14:34 · 稿源:站长之家

站长之家(ChinaZ.com)4月2日 消息:Hugging 和英特尔发布了提高文生图模型空间一致性的方案,大幅提高了模型对提示词中空间关系的理解能力。

在当前的将文字描述转换为图像的技术(T2I)中,一个关键短板是它们往往无法精准地生成与文字提示中所描述的空间关系相符的图像。为了解决这个问题,Hugging 和英特尔全面调查了这一限制,并开发了一些数据集和方法,以此达到行业领先水平。

QQ截图20240402143503.png

项目地址:https://spright-t2i.github.io/

他们发现目前的图文数据集对空间关系的表达不够充分。为了解决这个问题,他们创建了SPRIGHT——第一个专注于空间关系的大规模数据集,方法是重新标注了来自四个广泛使用的图像数据集的600万张图片。经过三重评估和分析,他们发现SPRIGHT在捕捉空间关系方面大幅超越现有数据集。他们仅使用约0.25%的SPRIGHT数据,就在制作空间准确的图像方面取得了22%的提升,并且在FID(图像质量评分)和CMMD(跨模态匹配度评分)上也有所改进。

在包含大量物体的图像上进行训练,可以显著提高图像的空间一致性。特别地,他们在少于500张图片上进行微调后,在T2I综合比赛平台(T2I-CompBench)上达到了0.2133的空间得分,创造了新的最高记录。

通过一系列严格的实验和测试,他们记录了多项发现,这些发现有助于深入理解影响文字描述转换为图像技术在空间一致性方面的各种因素。同时,他们还会开源这个模型和数据集,以便其他研究者和开发者能够利用这些资源来进一步提高文生图模型的性能。

举报

  • 相关推荐
  • 文生图大模型有哪些?探索AI绘画的核心引擎与选择利器

    本文探讨了当前主流的AI文生图技术及其应用场景。国际阵营中,OpenAI的DALL·E3擅长复杂语义理解,MidJourney以艺术风格见长,Stable Diffusion则以开源生态支持深度定制。中国力量方面,百度文心一格在中文语义和国风创作表现突出,阿里通义万相侧重商业化应用,昆仑万维天工支持长文本生成连贯图像。垂直领域工具如Adobe Firefly深度集成设计流程,Runway ML革新视频创作。文章建议通过聚合平台高效对比模型特性,并指出下一代技术将突破分辨率限制,实现跨模态生成。从精准语义到无限可能,AI文生图正在重塑视觉创作边界。

  • 用AI解锁技术公益,第五届Light创造营圆满收官

    第五届Light创造营圆满收官,19支团队从847个申报项目中脱颖而出。经过激烈角逐,11个优秀项目入围并获得资助,覆盖无障碍服务、非遗传承、儿童教育、乡村振兴、环保等多元领域。本届创造营特别关注AI技术应用,多个项目聚焦解决残障群体生活难题,如AR字幕手语眼镜帮助听障人士实现双向沟通,面部控制系统让手部障碍者操作数字设备。此外,AI还被应用于青少年心理健康干预、景区无障碍评分等场景。腾讯基金会持续支持AI技术在公益领域的创新应用,五年来已孵化上百个具有社会价值的项目,影响范围不断扩大。

  • 三星推出面向未来的移动安全解决方案,赋能个性化AI体验

    三星推出Knox增强加密保护(KEEP)和抗量子加密Wi-Fi等多项安全创新功能,为新一代Galaxy设备提供更强大的隐私保护。KEEP通过独立加密存储空间隔离应用数据,结合Knox Vault硬件级防护,确保AI功能数据安全。安全Wi-Fi引入抗量子加密技术,抵御未来网络威胁,并在公共网络自动激活防护。这些升级将隐私保护从可选功能提升为系统级设计原则,通过多层防护机制为用户数据安全提供可靠保障。

  • 高新投三江交通枢纽消防解决方案,守护城市“大动脉”

    文章探讨了地铁隧道、高铁站点、机场等交通枢纽的消防安全挑战。这些密闭空间机电设备密集、人员疏散困难,火灾风险极高。解决方案需具备三大优势:1)多维度探测技术,实现早期精准预警;2)高防护性能,抗电磁干扰、耐腐蚀;3)云端整合的智慧消防平台,联动通风排烟、应急疏散等系统。典型案例包括深圳宝安机场、广州白云站等,通过智能感知、可靠防护和高效联动,构建立体化安全屏障。未来将持续深耕消防技术前沿,为现代化综合交通运输体系提供坚实安全保障。

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • 儿童排痰难题解决方案:易坦静与科学饮水

    文章讨论了儿童呼吸道感染时痰液滞留的危害及应对措施。主要内容包括:1)痰液滞留会加重咳嗽、喘息症状,阻碍康复,甚至延长病程;2)儿童因生理特点难以有效排痰;3)介绍了氨溴特罗口服溶液作为常用祛痰药的作用机制,能稀释痰液、促进排出;4)强调日常护理中少量多次饮水的重要性;5)提醒家长若症状持续或加重应及时就医。全文着重阐述了有效排痰对治疗儿童呼吸道感染的关键作用。

  • 微云全息(NASDAQ: HOLO)推出创新区块链重建解决方案, 通过可验证秘密共享技术保障交易安全

    微云全息(HOLO)推出创新区块链重建方案,采用可验证秘密共享(VSS)技术解决许可区块链的安全隐患。该方案通过数据加密存储、改进共识机制和智能合约集成,确保在节点受损时仍能保持区块链完整性。VSS技术将密钥信息分散存储,需足够数量节点联合才能重建,防止单点故障。方案还设计了隐私保护机制,即使在不诚实重建情况下也能保护用户私钥。这一技术能快速响应攻击,允许用户独立重建,增强系统稳定性和用户信任,为加密市场带来更高安全性和稳定性。

  • AI时代的营销答卷:淘宝天下摘得TopDigital桂冠

    淘宝天下凭借AI技术在营销领域的创新实践,在第十三届TopDigital创新营销盛典上斩获两项大奖。其获奖案例《淘宝蛇年"一起上春晚"云参演证互动传播》通过AIGC技术生成个性化"云参演证",结合明星联动和裂变式传播策略,实现超45亿曝光量,累计生成1.18亿张参演证,重塑了传统春节文化互动模式。同时,与神州租车合作的小米SU7 Ultra上新营销案例,通过头部KOL传播和社交化内容裂变,达成2.36亿+曝光量,获"社会化营销"铜奖。淘宝天下已布局AI驱动的全链路营销解决方案"淘天智家平台",支持从创意生成到多媒介内容生产的全流程,持续推动数字营销创新。

  • 微算法科技(NASDAQ:MLGO)研发可信共识算法TCA,解决区块链微服务中的数据一致性与安全挑战

    微算法科技(NASDAQ:MLGO)开发了TCA(可信共识算法),该算法结合可信执行环境(TEE)和有向无环图(DAG)技术,旨在解决区块链微服务架构中的数据一致性和安全性问题。TCA通过引入安全隔离的执行空间确保数据传输完整性,利用DAG结构提高数据处理效率,降低共识延迟和能耗。该技术可广泛应用于金融、供应链管理和物联网领域,实现高效安全的分布式系统。未来随着技术进步,TCA性能将进一步提升,成为构建分布式系统的重要工具。

  • 成本低、耗时少,华为鸿蒙智家后装解决方案破解老房改造难题

    2025年6月20-22日,华为开发者大会2025在东莞松山湖举行。会上华为终端BG董事长余承东宣布鸿蒙智能硬件生态品牌升级为"鸿蒙智选",已有25+生态伙伴加入。华为推出后装智能家居改造方案,最快24小时完成改造,无需破墙布线,支持混合组网稳定可靠。方案针对2.7亿套20年以上旧房改造需求,提供AI康养等场景化解决方案。鸿蒙智联生态已有2900+品牌伙伴,7800+款设备。华为还展示了新一代主动健康空气方案和空间智能化平台,推动行业创新。6月20-30日将举办"鸿蒙智选品牌周"促销活动。