首页 > 业界 > 关键词  > MagiCapture最新资讯  > 正文

韩国AI研究机构出品!MagiCapture:个性化生成高分辨率肖像照片

2023-09-19 14:29 · 稿源:站长之家

文章概要:

- MagiCapture是韩国AI研究机构的最新成果,致力于解决多概念定制挑战,实现高质量肖像照片的个性化生成。

- 该方法采用多概念定制,融合主题和风格概念,只需少量参考即可生成高分辨率肖像照片。

- 研究人员提供了新的注意力重新聚焦损失、即时学习策略,在定量和定性评估中明显优于基线方法。

站长之家(ChinaZ.com)9月19日 消息:韩国的一家人工智能研究机构近日发布了名为MagiCapture的新技术,该技术旨在解决肖像照片个性化生成的多概念定制挑战。传统上,人们需要前往照相馆,经历昂贵和耗时的图片编辑过程,才能获得适合简历或婚礼庆典等场合的高质量肖像照片。MagiCapture的目标是自动化这一过程,让用户只需使用几张自拍照和一些参考照片,即可获得特定风格的高分辨率肖像照片,如护照照片或个人资料照片。

image.png

这一技术的背后,是最新发展的大型文本到图像模型,如SD和Imagen等,使得高保真、逼真的肖像照片成为可能。目前,研究人员正致力于定制这些模型,以结合特定主题或美学。他们将这一挑战定义为多概念定制挑战,旨在让模型能够同时学习源材料和参考风格,生成复合输出。

与传统的文本驱动编辑不同,MagiCapture使用参考图片,让用户能够提供更细粒度的建议,从而使生成的肖像更加符合预期。然而,早期的个性化技术存在一个问题,即生成的图像常常缺乏真实感,而且在商业上难以应用。这主要是因为尝试仅用几张照片来更新大型模型的参数时,通常会导致不同概念的混合或与原始概念的分歧,这在肖像照片中尤为明显。

image.png

为了解决这一问题,MagiCapture采用了多概念定制方法,通过组合提示学习实现主题和风格创意的融合。这个过程将组合提示作为培训的一部分,并强化源材料和参考风格的紧密结合。辅助损失和假标签等技术被用来实现信息解缠和避免信息泄漏。这一方法在定量和定性评估中表现出比其他基线方法更好的性能,并且可以轻松应用于生成非人类物体的图像。

MagiCapture代表了肖像照片生成领域的一项重要技术突破,为用户提供了更便捷、个性化的肖像照片生成方法。通过多概念定制和新的学习策略,它成功地克服了传统个性化技术存在的问题,为高分辨率肖像照片的定制创造了更多可能性。

论文网址:https://arxiv.org/abs/2309.06895

举报

  • 相关推荐
  • Testin云测深度方案:AI驱动的“测试方案”助力香港政府APP降低30%研发成本

    香港特区政府推行《智慧城市蓝图2.0》,数字化服务已深入市民生活。政府APP面临设备碎片化、高并发压力及跨部门技术整合等挑战。通过引入“AI智能化+云端协同”测试模式,有望降低研发成本30%、提升测试效率50%。AI技术实现自然语言脚本生成、智能OCR识别及数据驱动精准排障。混合云资源池兼顾数据安全与灵活部署,本地化方案支持跨境网络模拟与多语种报告。结合专家管理与AI执行,构建“人+AI+流程”的质量闭环,提升公共服务质量,践行“善用公帑、以人为本”的承诺。

  • AI日报:Kling 2.6将发布;千问APP推学习大模型;Z-Image-Turbo-Fun-Controlnet-Union 开源

    本期AI日报聚焦多领域AI进展:Kling 2.6发布,支持音频同步生成,AI视频进入有声时代;千问APP推出学习大模型,提升拍照答疑与作业批改能力;阿里通义实验室开源图像生成模型,实现精准控制;豆包手机助手遭遇微信登录异常,凸显生态兼容挑战;米哈游推出带猫语特色的AI聊天模型AnuNeko;亚马逊云科技发布三款新型AI智能体,其中Kiro可自主编程数日;IDC报告预测具身智能�

  • AI日报:Medeo AI新版视频Agent上线:OpenAI正式发布GPT-5.2;钉钉AI功能大升级

    本期AI日报聚焦多款AI产品更新:Medeo AI新版视频Agent支持自然语言一键改剧本,降低创作门槛;钉钉8.1.10将AI融入职场沟通,提升效率;OpenAI低调上线GPT-5.2,延迟显著降低,逻辑一致性提升,并推出支持私有化部署的成人模式;迪士尼投资100亿美元与OpenAI合作,推动IP在生成式AI中的创新应用;谷歌Gemini Deep Research开放API,供开发者构建研究应用;Cohere推出Rerank 4,上下文窗口扩展至32K,提升企业搜索精度;拓竹科技推出3D手办生成器“印你”,依托腾讯混元3D模型,简化3D建模流程;谷歌NotebookLM升级,为Ultra会员提供更高权限,优化智能笔记体验。

  • 荣耀Magic8 Ultra入网:荣耀最强影像旗舰

    今天,荣耀Magic8 Ultra获得3C认证,其型号为BKQ-AN20,支持120W有线闪充,支持天通卫星通信。 博主数码闲聊站爆料,荣耀Magic8 Ultra将搭载豪威集团旗下的OV50R传感器,这将是荣耀史上最强影像旗舰。 据悉,OV50R CMOS的超高动态范围达到了110dB,可以提供极其出色的暗光表现,并且这颗CMOS还拥有5000万像素,像素尺寸为1.2微米,底为1/1.3英寸,专为高端旗舰设计。 对比上代,OV50R的�

  • AI日报:可灵AI全量上线O1视频大模型;千问APP接入万相Wan2.5

    本文汇总了AI领域的最新动态:可灵AI发布O1视频大模型,支持多模态输入一键生成视频;千问APP接入万相Wan2.5,提升视频创作能力;PixVerse V5.5实现音画同步,简化视频制作;深度求索推出DeepSeek-V3.2,引入稀疏注意力机制降低成本;Runway发布Gen-4.5模型,增强视觉质量;谷歌优化AI搜索体验,Gemini 3 Pro扩展国际市场;Lovart推出Touch Edit功能,实现零门槛图像编辑;蚂蚁数科Agentar入选中国智能体开发赛道第一梯队,展现技术实力。

  • Sora的AI TikTok梦迅速破产了

    ​说“ Sora的60日留存率是0”有点夸张,毕竟这个说法诞生时,Sora App上线还不满60天。不过这款明星产品的发展的确不怎么乐观。 根据a16z合伙人前段时间贴出的一组对比,Sora留存率远不如TikTok,首日留存率只有10%,30天留存率只有1%。对比来看,TikTok对应的留存率分别是50%和32%,差距明显。 同时从用户反馈来看,浏览这个App,可能很快会感到厌倦。去看看网络社区讨论,会�

  • AI日报:阿里Qwen3-TTS上线;可灵 AI上线主体库

    本期AI日报汇总了多项AI领域新进展:可灵AI推出“主体库”解决视频角色变脸问题;阿里Qwen3-TTS支持多语言多音色;腾讯混元2.0大模型开启内测;美团开源图像生成模型LongCat-Image;京东云支持千卡训练推动具身智能;英伟达小模型NVARC成本优势显著;微博CEO回应AI手机自主发博功能;微软推出轻量级实时TTS模型VibeVoice。

  • 荣耀Magic8 Mini入网:天玑9500小屏旗舰

    荣耀旗下一款神秘新机入网,结合多方爆料,这将是荣耀杀入小屏旗舰赛道的首款作品荣耀Magic8Mini。 认证信息显示,该机支持80W快充。

  • EPR家电榜:海尔、TCL、美的位列前三

    12月11日,2025中国家电科技年会发布了“2025EPR公众对话先锋”榜单,海尔智家、TCL、美的位列前三。该榜单由中国家用电器研究院等机构联合评定,旨在表彰在生产者延伸责任(EPR)领域表现突出的企业,为行业绿色发展树立标杆。评选依据企业公开的年度报告、可持续发展报告等,系统评估其EPR责任履行及信息公开程度。近年来,家电企业持续深化EPR探索,推动行业可持续发展。以海尔为例,其构建了家电循环一体化闭环体系,在回收规模、拆解效率、再生利用方面领先行业。随着双碳目标推进,EPR已成为衡量企业可持续发展能力的重要维度,头部企业的实践为行业绿色转型提供有力借鉴。

  • OPPO上线AI妙听:可将文章转双人播客 配有BGM

    OPPO ColorOS设计总监陈希分享了ColorOS新功能AI妙听。 AI妙听可将把文章一键转成播客,让原本只能读”的内容,也能用听”的方式获取。 值得一提的是,该功能并非单纯的TTS文本转语音,机械朗读,而是将内容进行重构,并以双人播客的形式呈现,配有背景音乐,用户的听感更好。 陈希表示,越来越多人喜欢听播客,不只是方便,它是一种

今日大家都在搜的词: