首页 > 业界 > 关键词  > StyleMamba最新资讯  > 正文

StyleMamba:一种高效的文本驱动图像风格转换的ai模型

2024-05-11 15:22 · 稿源:站长之家

划重点:

StyleMamba 是一种用于文本驱动图像风格转移的有效框架,使用文本提示来指导风格化过,同时保持原始图像内容。

⭐️ 该研究团队提出了两种独特的损失函数,二阶方向损和掩码损失,以确保图像与文本提示之间的局部和全局风格一致性。

⭐️ StyleMamba 的效果经过多项测试和定性分析确认,优于当前基线方法的性能。

站长之家(ChinaZ.com)5月11日 消息:近期,来自伦敦帝国理工学院和戴尔的研究团队推出了 StyleMamba,这是一种有效的框架,用于转移图片风格,通过使用文本来指导风格化过程,同时保持原始图像内容。当前文本驱动风格化技术的计算需求和训效率低下的问题在这个引入中得到了解决。

image.png

传统上,文本驱动的风格化是通过大的计算资源和冗长的训练过程来处理的。通过专门为有效的文本驱动图像风格转移创建的条件空间模型,StyleMamba 加快了这一过程。通过这种方法,可以通过顺序地将图像特征与目文本提示进行对齐,从而精确控制风格化。

StyleMamba 提供了两种独特的损失函数,即二阶方向损失和掩码损失,以确保图像与书面提示之间的局部和全局风格一致性。这些损失将所需的训迭代次数减少了5倍,推理时间减少了3倍,从而优化了风格化方向。

StyleMamba 的有效性经过了大量测试和定性分析的确认。结果验证了该建议方法的鲁棒性和整体风格化性能优于当前基线的性能。这框架提供了一种更有效、更经济的方式,将口头描述转换为视觉上吸引人的风格,同时保持原始图像材料的完整性和精神。

该团队总结了他们的主要贡献如下:

1. 通过将条件 Mamba 整合到 AutoEncoder 架构中,StyleMamba 提供了一个简单而强大的框架。通过这种合,可以快速有效地完成文本驱动的风格转移,简化了与当前方法的比较。

2. StyleMamba 使用损失函数来提高风格化质量。引入掩码方向损失和二阶关系损失,确保更好的全局和局部风格致性,而不损害图像的原始内容,并加快了风格化过程。

3. StyleMamba 的有效性经过了彻的经验分析,包括定量和定性评估。这些测试表明了 StyleMamba 在风格化质量和速度方的优势。

由于其易用性和有效性,StyleMamba 已在除静止图像风格转移之外的设置中进行了评估。实验表明,StyleMamba 在各种应用和媒体格式上都表现出多功能性和适应性,包括多种风格转移任务和视频风格转移。

论文地址:https://arxiv.org/abs/2405.05027

举报

  • 相关推荐
  • 秀秀桌面版AI能力全面接入鸿蒙电脑,开启高效适配新范式

    5月8日,华为在深圳召开鸿蒙电脑技术与生态沟通会,首次展示鸿蒙操作系统在电脑端的应用。美图秀秀桌面版成为首批深度适配鸿蒙电脑的影像处理软件,仅用一个月完成核心功能开发,功能覆盖度达Windows平台的98%,带来更流畅的交互体验。美图展示了四大AI修图功能在鸿蒙电脑端的适配成果:AI消除、智能抠图、AI变清晰、无痕改字,修图效率与表现力双提升。鸿蒙电脑从内核层自主研发,助力软件深度优化。未来双方将围绕鸿蒙的智能图片处理能力展开联合创新,从"兼容适配"转向"联合共创",共同拓展软件创新边界,推动鸿蒙应用规模化落地。

  • 腾讯“物种之眼”AI全新升级 高效识别数千物种

    AI系统“物种类辨”通过少量数据学习,显著提升了对多种生物的识别准确率与召回率,尤其在高精度识别多类生物方面表现出色,推动生态保护与智能技术发展。腾讯开放平台“野生生物多态数据协作”项目助力野生动物监测及保护工作,促进公众科学参与。

  • 能理解海豚声音!谷歌开发全新AI模型DolphinGemma

    快科技4月15日消息,谷歌公布了一款名为DolphinGemma”的大型语言模型,旨在帮助科学家理解海豚的声音,并生成类似海豚的声音序列。研究人员预计在未来几个月内测试DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry(CHAT)发声系统,以探索是否能够翻译并模仿海豚的声音,进而实现与海豚的某种对话”。海豚是地球上最聪明且最善于沟通的动物之一,其社交互动极其复杂�

  • 字节发布豆包1.5深度思考模型:“实拍级”图像生成

    快科技4月17日消息,据报道,今日,在火山引擎AI创新巡展杭州站的现场,字节跳动旗下火山引擎总裁谭待正式发布了备受瞩目的豆包1.5深度思考模型。谭待指出,豆包1.5深度思考模型在多个关键领域展现出卓越性能。在数学、编程、科学推理这类专业领域中,它能够精准高效地处理复杂问题;在创意写作等通用任务方面,同样表现出色。该模型采用MoE架构,总参数为200B,激�

  • AI日报:Kimi全新音频基础模型Kimi-Audio;阶跃星辰开源图像编辑模型Step1X-Edit;​夸克AI超级框上线 “拍照问夸克”

    本期AI日报聚焦多项AI技术突破与应用:1)Moonshot AI推出开源音频模型Kimi-Audio,基于13亿小时训练数据,支持语音识别等任务;2)阶跃星辰开源图像编辑模型Step1X-Edit,展现强大生成能力;3)夸克AI上线"拍照问夸克"功能,实现视觉问答;4)苹果iOS18.5将在中国推送,带来智能功能;5)谷歌发布601个生成式AI应用案例,覆盖多行业;6)微软推出深度整合Windows的UFO²自动化系统;7)OpenAI升级ChatGPT至GPT-4o版本,提升STEM领域能力;8)Ema公司推出高性价比语言模型EmaFusion;9)Liquid AI发布面向边缘设备的Hyena Edge模型;10)LemonAI推出实时音视频数字人产品Slice Live。此外,国内方面,智谱与生数科技达成战略合作推动大模型发展,宝马中国宣布新车将接入DeepSeek技术。

  • 用上车规级UFS 4.0,让出行变得高效且可靠

    2025年上海国际车展显示,汽车智能化、电动化趋势加速,车载存储需求激增。随着大尺寸中控屏、HUD、流媒体等配置普及,单车存储容量将从35GB提升至数百GB甚至TB级别。车规级UFS 4.0存储成为关键,其传输速度达4,640MB/s,可快速加载高清地图和AI模型。严苛的车规认证(如AEC-Q100、IATF16949)要求存储芯片在极端温度、振动环境下稳定工作。行业正从单一ECU向域控制器架构转型,高性能车规存储需兼具大容量、高可靠性和宽温工作特性,以满足智能驾驶和车载娱乐系统的数据需求。

  • UniToken:多模态AI的“全能选手”,一次编码搞定文理解与图像生成

    复旦大学与美团研究者提出UniToken框架,首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码,有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略(视觉语义对齐、多任务联合训练、指令强化微调),UniToken在多个基准测试中性能超越专用模型。其创新性体现在:1)统一的双边视觉编码

  • AI日报: OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�

  • 弧面紧贴、深度杀根——飞科F8重塑高效净剃新标杆

    4 月 16 日,中国个人护理电器国民品牌飞科重磅发布新一代“高速弧面剃须系统”剃须刀F8(以下简称飞科F8),这款集“弧面不锈钢刀网、高速追频直线电机、AI胡须感应科技“于一体的创新产品……

  • 11.5天高效完成!我国超深水钻井周期纪录刷新

    快科技4月16日消息,中国海油宣布,在我国南部海域某超深水探井作业中,仅用11.5天就高效完成钻井作业,创造了3500-4000米超深水钻井周期的新纪录。这一突破标志着我国自主深水钻完井技术体系已具备国际先进水平。此次技术突破验证了我国在超深水钻完井领域的优智技术实力,对推动深水油气资源规模化开发具有重要意义。数据显示,十四五以来,我国深水井钻完井作业量较十三五增长超74%,有力支撑了多个大型深水油气项目的建成投产。为加快深海油气开发,中国海油在深水、超深水、高温高压、超高温超高压等多个高技术、高难度领域开展钻完?