首页 > 业界 > 关键词  > MoA最新资讯  > 正文

MoA:用于图片合成的混合注意力架构 可实现风格参考和人物融合

2024-04-22 09:36 · 稿源:站长之家

划重点:

🔍 引入了一种新的架构,名为注意力混合模式(MoA),用于个性化文本到图像扩散模型。

🎨 MoA 通过将生成工作负载分配给两个注意力路径来实现给定主题和背景的分离生成。

🖼 MoA 能够生成高质量、个性化的图像,使得主题和背景的控制更加分离。

站长之家(ChinaZ.com)4月22日 消息:最新的研究中,提出了一种名为注意力混合模式(MoA)的新架构,旨在个性化文本到图像扩散模型,可以实现风格参考和人物融合的效果。

受大型语言模型(LLMs)中使用的专家混合机制的启发,MoA 通过将生成工作负载分配给两个注意力路径来实现给定主题和背景的分离生成。具体来说,MoA 保留了原始模型的先验知识,通过固定先验分支中的注意力层,同时通过个性化分支最小干预生成过程,学习将主题嵌入由先验分支生成的布局和背景中。

image.png

一种新颖的路由机制管理着每个层中像素在这些分支之间的分布,以优化个性化和通用内容创建的混合。经过训练,MoA 能够轻松生成高质量的个性化图像,其主题和背景的组合和交互与原始模型生成的一样丰富多样。最重要的是,MoA 增强了模型的现有能力与新增个性化干预之间的区别,从而提供了一种之前无法实现的更为分离的主题 - 背景控制。

此外,研究还探讨了 MoA 在现实应用中的潜力。例如,结合 MoA 和 DDIM 反演技术,可以实现对真实图像中主体的替换;结合 MoA 和 ControlNet,可以实现带有姿势控制的个性化生成;MoA 甚至能够在面部和身体形状完全不同的情况下进行主体交换,以及轻松地在主体之间进行形态变换。这些应用展示了 MoA 在个性化图像生成领域的潜在价值和广泛适用性。

image.png

image.png

产品入口:https://top.aibase.com/tool/mixture-of-attention-moa-

举报

  • 相关推荐
  • AI手机的终局,“读屏”还是“对话”?

    最近科技圈的两场“AI秀”先后刷屏。 在大洋彼岸,当地时间1月12日,苹果和谷歌宣布合作,要给Siri用上谷歌的Gemini。但苹果的做法,不是直接让Gemini操作手机上的App,而是用户说什么,Siri先理解意图,然后去调用相应的应用。换句话说,AI只是个“调度员”。这套操作,很苹果。 另一边,国内的情况就热闹得多。字节跳动的豆包AI手机一度刷屏,AI可以帮你打车、购物、订

  • 打造一站式AI服务中心,这次淘宝用AI重构服务

    当一件三年前购买的冲锋衣被用户寄回,破损的口子,意味着一段户外旅程的终结。大多数商家看到的,或许是一笔需要计算的维修成本。但专业户外品牌拓路者看到了不同的东西——一个用服务兑现品牌承诺,将一次性的维修成本,转化为消费者终身信任的机会。 他们通过AI知识库匹配合适的面料批次,由老师傅修复如初,当衣服寄回时,用户留言:“我以为品牌承诺止于下

  • 春节AI牌局,阿里跟注30亿

    互联网习惯了用短期让利换取用户行为迁移的打法,AI也染上了相似的毛病。 2月2日,阿里巴巴旗下千问APP宣布投入30亿启动春节攻势,全面接入淘宝闪购、大麦、飞猪、盒马等生态业务,以免单形式请全国用户在春节期间吃喝玩乐,并将在2月6日上线。

  • AI 春节红包雨下了1/3,效果如何?

    ​这不是元宝第一次参与春节主题红包。 彼时元宝还隶属于腾讯TEG,没有被划归到CSIG,团队就策划了一个跟2025 年春节主题相关的项目,即在微信生态做元宝红包助手。 腾讯云与智慧产业事业群CEO汤道生回忆,当时准备度不高,没提供完整的问答,也不能逐字输出,「所以最早的元宝红包助手,能力非常局限,只能给它发张图,让它生成个红包封面。」 这也能理解,不久�

  • 闪极Loomos L1 AI拍摄眼镜:架构革新+全链路AI,助力智能穿戴升级

    闪极科技推出旗舰级Loomos L1 AI拍摄眼镜,以创新架构和前沿功能重新定义智能眼镜标准。其搭载全新凤凰架构,采用4纳米四核ARM主处理器与专业蓝牙Soc的双芯组合,解决了初代产品通话卡顿、画质不佳等问题。首创摄像头与前框解耦设计,将索尼1200万像素CMOS融入镜腿,兼顾卓越拍摄效果与美观。产品采用钛合金复合板材框架,鼻梁体感重量控制在20克以内,并提供多种时尚框型与配色。核心AI功能革新包括独家VAD主动人声识别算法,可实现全天候自动录音、拍照、录像,并实时上传云端分析,形成个人记忆库。此外,隐形镜头盖设计可一秒遮蔽摄像头,平衡拍摄便捷与隐私安全。配合多功能换电仓与降噪聚音旗等配件,满足不同场景需求。闪极L1以其极致佩戴体验和全链路AI赋能,成为内容创作者、生活记录者及办公协同者的智能伴侣。

  • 钉钉AI群聊全面升级!每个群聊配备专属助理AI小钉

    2月6日,阿里钉钉发布8.2.10版本,宣布全面升级钉钉AI群聊。新版本为每个钉钉群配备专属AI助手“AI小钉”,实现全天候在线响应。AI小钉已上线三大功能:个性化资讯中枢、群动态智能管家、自然语言群管理。其中,群动态智能管家可定时汇总群内关键信息,自动生成日报/周报摘要,并智能识别未完成任务,定时定向提醒负责人跟进。用户只需在新建的钉钉内部群@AI小钉,即可通过自然语言对话查询聊天记录、管理任务、调整群设置等。存量钉钉内部群的群主和管理员可在群设置中添加配置AI小钉为群机器人,开启使用。

  • 不要对AI说谢谢上热搜 专家:背后或藏资源消耗争议

    近日,关于是否应对人工智能(AI)使用礼貌性用语,特别是“谢谢”一词,引发了社会各界的广泛讨论。随着AI技术的不断进步,一个看似微小却引人深思的问题浮出水面:对AI说“谢谢”,是否会造成不必要的资源浪费? 一段时间以来,网络上流传着一种观点,认为对AI表达感谢会触发其计算模块的额外运算,从而浪费算力与电力。这一说法虽未经严格证实,却引起了公众的�

  • AI日报:字节发布超强视频模型Seedance2.0;小红书秘密研发AI剪辑器OpenStoryline;神秘AI模型“Pony Alpha”曝光

    本期AI日报聚焦多领域进展:字节跳动发布视频生成模型Seedance2.0,显著降低视频制作门槛;小红书研发AI视频剪辑工具OpenStoryline,支持对话式编辑;千问APP推出免单卡功能,便利年货采购;顶级域名AI.com以7000万美元成交,刷新历史纪录;神秘模型Pony Alpha因高性能免费引发关注,身份存疑;OpenAI首款AI硬件“Dime”智能耳机曝光,预计2026年发布;苹果CarPlay将支持第三方语音助手,提升交互体验;阿里新一代开源模型Qwen3.5代码现身,或为原生视觉语言模型,即将发布。

  • AI的答案,不在敲钟那天

    过去几天,中国AI产业迎来了一个历史性时刻。 智谱于1月8日登陆港交所,以“全球大模型第一股”之名敲钟,另一位玩家MiniMax紧随其后,于隔日挂牌交易。 两家国产大模型玩家,在极短时间内相继上市,显然点燃了市场情绪——智谱上市当日市值迅速逼近数百亿港元,认购倍数被推至极高水平;MiniMax首日股价大幅上扬,估值一举跨过千亿门槛。 钟声落定,变化亦在悄然酝�

  • 理想AI,步入深水区

    种一棵树,最好的时间是十年前,其次是现在。 在2024理想AI Talk中,李想曾表示一定会做具身智能,但“节奏不是现在”:L4自动驾驶的汽车还解决不了,怎么去解决更复杂的? 尽管如今看来或许还没到完美的时机,但理想还是决定踏出这一步。据21世纪经济报道,1月26日,李想召开线上全员会,全程几乎不谈汽车,只谈AI,强调2026是所有想要成为AI头部公司上车的最后一年,最

今日大家都在搜的词: