首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Meta推新框架OPT2I 提高SD图像生成一致性

2024-03-28 10:07 · 稿源:站长之家

站长之家(ChinaZ.com)3月28日 消息:Meta公司最近推出了一款名为OPT2I的新框架,该框架利用大型语言模型(LLM)来提高SD 图像从提示词到图像(T2I)的生成过程中的一致性。

OPT2I是一个优化框架,旨在提升T2I模型中的提示-图像一致性。它的工作流程始于用户输入的提示词,并通过迭代的方式生成修订后的提示词,目标是最大化一致性得分。

image.png

论文地址:https://arxiv.org/pdf/2403.17804.pdf

经过在两个数据集MSCOCO和PartiPrompts上的广泛验证,研究显示,OPT2I能够显著提高初始一致性得分,同时保持FID(一种评估生成图像质量的指标)并增加生成数据与真实数据之间的召回率。

OPT2I框架由三个主要部分构成:预训练的T2I模型、LLM以及一个自动提示-图像一致性评分器。该框架通过迭代地利用提示-评分对的历史记录,提出修订后的提示,从而生成更符合用户意图的图像。

此外,作者们还探讨了如何设计元提示(meta-prompt),以及如何通过反馈调整LLM的探索-利用权衡,以进一步提升模型的性能。总的来说,OPT2I框架为提高T2I模型的提示-图像一致性提供了一种新的有效方法。

举报

  • 相关推荐
  • Meta高薪挖人!苹果AI大牛跳槽了

    Meta首席执行官扎克伯格正以高薪挖角竞争对手的AI人才,苹果一名核心工程经理已决定跳槽加入。 据悉,负责苹果基础模型团队的Ruoming Pang从苹果跳槽至Meta,他曾在苹果管理着约100名员工的团队,该团队致力于苹果大型语言模型的研发。 Ruoming Pang团队开发的模型已经应用到iPhone中,比如邮件摘要、生成式表情(Genmoji)等等。 Meta以每年数千万美元的待遇成功吸引了Ruoming Pan

  • 苹果智能眼镜布局全面加速,Meta/微美全息产业生态协同撬动万亿市场

    苹果计划2025年推出搭载M5处理器的Vision Pro智能眼镜,2027年将发布主打拍摄和AI功能的Vision Air,以及更轻便的头显设备。彭博社透露苹果还在探索有线版Vision Pro。Meta与Ray-Ban合作的智能眼镜取得市场成功,即将推出高端版Hypernova眼镜,配备神经腕带控制器。微美全息积极布局智能眼镜领域,通过技术创新推动AR眼镜发展。随着AI技术进步,智能眼镜市场迎来爆发式增长,互联网巨头、硬件厂商纷纷入局,推动办公、影视、游戏等场景应用升级。

  • Meta 抢占AI霸权争夺加剧,微美全息(WIMI.US)布局产业生态应对市场竞争

    Meta斥资数十亿美元争夺AI领域主导权,包括从OpenAI挖走三名研究员,甚至开出1亿美元签约费。同时,Meta同意以148亿美元收购AI初创公司Scale AI 49%股份,这是其史上最大外部投资。中国AI领域也快速发展,已有433款大模型完成备案上线。专家指出,开源模式推动了大模型创新生态,形成"技术-数据-场景"循环迭代。微美全息(WIMI.US)通过搭建高性能AI算力基地,集成国际先进�

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • Perplexity推出AI浏览器Comet:想用得开1400元/月的订阅

    由英伟达支持的Perplexity AI推出了一款名为Comet的AI驱动网络浏览器。 Comet浏览器的核心卖点是其AI驱动的交互体验,公司表示它将整个浏览会话转变为单一、无缝的交互,将复杂的工作流程简化为流畅的对话。

  • ppt自动生成工具最好用的3个

    文章介绍了当前AI生成PPT工具的发展现状,重点推荐了"秒出PPT"这一专业平台。该平台具有三大特色功能:1)智能对话式生成,支持中途修改需求;2)提供三种编辑模式(纯文本、纯设计和文本+设计);3)支持导入文档自动排版,提供"保持原文"和"AI智能修改"两种模式。平台还拥有丰富的模板库,支持在线更换颜色、字体等设计元素。虽然需要购买会员,但相比市面上质量参差不齐的同类产品,该工具在交互体验和功能完整性上表现突出。

  • Lamett乐迈石晶发布2025新品,中国全屋整装迎来“石晶时代”

    乐迈石晶在第27届中国建博会(广州)推出"全屋石晶整装解决方案",以"要健康·要安全·要石晶"为主题,通过零醛添加、防水防潮、防蛀防霉等八大性能优势重新定义整装标准。该方案采用天然石灰岩和树脂晶体为原料,通过高温高压工艺实现零甲醛释放,适用于全屋空间。乐迈石晶已建立全球研发中心,拥有多项核心专利技术,业务覆盖80多个国家和地区。此次创新不仅推动建材升级,更引领健康人居新趋势,为消费者打造安全舒适的家居环境。

  • AI日报:阿里通义推Qwen-TTS模型;Cursor已支持网页和手机端;字节发布图像合成技术XVerse

    【AI日报】今日AI领域7大突破:1)阿里通义Qwen-TTS实现方言语音合成重大突破;2)Cursor发布Web版AI编程工具;3)字节XVerse技术实现多对象精准图像生成;4)NoteGen跨平台AI笔记工具革新知识管理;5)ManimML动画库可视化Transformer架构;6)TEN+Agent开源语音交互技术降低延迟;7)Chai-2抗体设计模型将药物研发周期缩短至两周。淘宝同时上线RecGPT推荐模型提升购物体验。

  • BYDFi 亮相首尔Meta Week 2025,聚焦Web3愿景与全球合规战略

    韩国首尔,2025年6月26日 —— 全球领先的加密货币交易平台 BYDFi 将参与2025年首尔 Meta Week:METACON(SMW2025),活动于6月26–27日在首尔 COEX 会展中心三楼礼堂举行。BYDFi 是 SMW2025官方合作伙伴之一,同列的还有三星、谷歌、英特尔、Spotify、Kakao、NAVER Cloud 和 GitHub 等知名科技公司。BYDFi 在 SMW2025 的参展亮点作为 SMW2025官方合作伙伴之一,BYDFi 的参与体现了其在不断发展的 Web3和数字�

  • 高德地图上线AR打卡功能:实现3D立体打卡 生成专属打卡视频

    阿里巴巴旗下高德地图正式上线创新AR打卡功能,通过深度整合AI技术与地图服务,为用户带来虚实融合的沉浸式打卡体验,无缝连接现实世界。 该功能依托前沿AI空间融合技术,突破传统二维地图限制,首创3D立体打卡。用户打开最新版高德地图App,点击右上角 ”号即可轻松开启AR之旅。 支持图片、视频、趣味AR道具及虚拟形象等多种打卡形式,完成打卡后系统将自动生成并