首页 > 业界 > 关键词  > MoA最新资讯  > 正文

MoA:用于图片合成的混合注意力架构 可实现风格参考和人物融合

2024-04-22 09:36 · 稿源:站长之家

划重点:

🔍 引入了一种新的架构,名为注意力混合模式(MoA),用于个性化文本到图像扩散模型。

🎨 MoA 通过将生成工作负载分配给两个注意力路径来实现给定主题和背景的分离生成。

🖼 MoA 能够生成高质量、个性化的图像,使得主题和背景的控制更加分离。

站长之家(ChinaZ.com)4月22日 消息:最新的研究中,提出了一种名为注意力混合模式(MoA)的新架构,旨在个性化文本到图像扩散模型,可以实现风格参考和人物融合的效果。

受大型语言模型(LLMs)中使用的专家混合机制的启发,MoA 通过将生成工作负载分配给两个注意力路径来实现给定主题和背景的分离生成。具体来说,MoA 保留了原始模型的先验知识,通过固定先验分支中的注意力层,同时通过个性化分支最小干预生成过程,学习将主题嵌入由先验分支生成的布局和背景中。

image.png

一种新颖的路由机制管理着每个层中像素在这些分支之间的分布,以优化个性化和通用内容创建的混合。经过训练,MoA 能够轻松生成高质量的个性化图像,其主题和背景的组合和交互与原始模型生成的一样丰富多样。最重要的是,MoA 增强了模型的现有能力与新增个性化干预之间的区别,从而提供了一种之前无法实现的更为分离的主题 - 背景控制。

此外,研究还探讨了 MoA 在现实应用中的潜力。例如,结合 MoA 和 DDIM 反演技术,可以实现对真实图像中主体的替换;结合 MoA 和 ControlNet,可以实现带有姿势控制的个性化生成;MoA 甚至能够在面部和身体形状完全不同的情况下进行主体交换,以及轻松地在主体之间进行形态变换。这些应用展示了 MoA 在个性化图像生成领域的潜在价值和广泛适用性。

image.png

image.png

产品入口:https://top.aibase.com/tool/mixture-of-attention-moa-

举报

  • 相关推荐
  • 大模型时代的新燃料|标贝科技推出大规模拟真多风格语音合成数据集

    本文探讨了人工智能语音交互领域的发展现状与挑战。文章指出,大模型技术驱动下语音交互应用场景持续拓展,但面临数据质量、隐私合规等挑战。当前语音大模型训练需要TB至PB级数据,而传统数据供给模式难以满足需求。合成数据作为真实数据的重要补充,能通过参数化生成机制规避隐私风险,突破传统数据在多样性和场景覆盖上的局限性。国内外科技企业已开始广泛应用合成数据训练AI模型,如Meta的LLaMA3和微软的Phi-4模型。标贝科技推出超大规模拟真多风格语音合成数据集,包含上万小时数据,覆盖中英混合场景,支持情感合成、风格迁移等前沿任务,为虚拟偶像、数字人等元宇宙场景提供实时语音生成方案。该数据集基于32kHz高保真采样率技术,在自然度、流畅度等方面达到行业领先水平。

  • 谷医堂:深耕医防融合,为健康中国添砖加瓦

    疫情过后,大健康成为全民关注的重要话题,越来越多的人开始在日常生活中注重身体养护。将疾病治疗与中医“治未病”理念深度融合,正逐渐成为提升全民健康水平的关键路径。谷医堂,作为中医药领域的践行者,敏锐洞察这一趋势,积极探索并大力推行医病和预防并举的医防融合服务模式,为民众的健康保驾护航。中医“治未病”理念源远流长,出自《黄帝内经》,涵�

  • 让AI替你打工:AI数字人直播系统-支持实时驱动+无限贴牌/形象克隆+短视频合成

    数字人直播领域持续升温,尤其在AI技术快速迭代的当下,越来越多企业希望搭建专属虚拟主播系统,以期用数字化方案降低人力成本、替代传统真人直播。然而市场产品良莠不齐,如何精准匹配需求成为关键难题。今天要推荐的这款AI数字人直播系统,正是针对这一痛点设计的解决方案。用户可自主上传品牌虚拟形象,通过智能算法快速生成高精度视频内容,并支持实时直播�

  • 华大集团与金山办公达成战略作 推动生命科学与AI办公融合

    根据合作协议,金山办公将为华大集团提供定制化的AI办公解决方案,涵盖文档处理、协作办公、数据分析等核心功能。双方将共同推动生命科学与AI办公的融合发展,加速AI能力在生命科学领域的深入应用与创新。

  • vivo Vision混合现实头显宣布下半年发布

    vivo宣布其MR设备vivo Vision将于今年下半年正式发布,引发市场广泛关注。该设备可能与vivo X300系列手机同步上市,形成产品矩阵效应。Vision头显设计借鉴夏普Vision Pro风格,采用曲面抛光镜片,集成了多颗摄像头,但具体技术参数尚未公开。此布局被视为vivo战略转型的关键一步,旨在通过MR技术强化实时空间计算能力,为基础的未来机器人物联网应用奠定基础。vivo计划打造一套视觉感知系统,重点提升机器人的视觉捕捉、处理、理解、空间建模及边缘计算等五大维度的智能化水平。这一战略定位依赖于依图科技在AI大模型与混合现实技术领域的积累,vivo加速布局机器人赛道的相关落地措施已进入实质推进阶段。伴随Vision头显的发布,行业或将迎来新一轮技术竞争。这被寄予厚望的设备能否在空间计算领域实现突破,仍需等待市场验证。

  • “客货邮”×安凯客车破壁融合 铺就乡村振兴 “快车道”

    “乡村振兴唤春归”,在全面推进乡村振兴的征程中,农村物流高效发展是激活乡村经济的关键。合肥市肥西县与六安市霍邱县,统筹谋划,精准施策,创新推动交通与邮政深度融合,成功入选全国农村物流高质量发展典型案例。作为两地城乡物流专线的运力支撑,安凯客车持续以更丰富、更好用、更适合的新时代产品畅通城乡经济循环,为乡村振兴注入澎湃动能。拓展“客�

  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • 魅族Flyme 12系统提档至5月发布 深度融合AI技术

    星纪魅族官方宣布,原计划与魅族22系列共同发布的Flyme12系统将提前至5月中旬正式登场。此次系统升级不仅时间有所调整,其适配范围也进一步扩大,涵盖魅族21、20系列以及Lucky08等多款热门机型,旨在为用户带来更加丰富的智能体验。

  • 万达美华酒店端午礼粽上市:匠心融合南北风味,以“粽”传情

    万达酒店集团推出2025年端午限定礼盒"出粽有礼",融合南北风味与匠心工艺。三款主题礼盒包含传统粽品和创新口味,如黄米蜜枣粽、云南菌菇粽等,搭配应景小物提升节日氛围。包装设计采用水墨丹青烫金工艺,展现龙舟竞渡等端午元素,兼具实用性与收藏价值。礼盒通过线上预售、企业团购等多渠道销售,延续"将贴心服务带回家"理念,让宾客足不出户享受甄选美味。此次创新既是传统与现代消费趋势的结合,也是酒店探索"餐饮+零售"模式的新实践。

  • Adobe 发布 Firefly 系列产品,涵盖图片、视频、矢量等

    Firefly 通过在单一空间内提供图像、视频、音频和矢量生成功能,将为基于人工智能的创意制作体验带来革新……