首页 > 业界 > 关键词  > Make-It-Vivid最新资讯  > 正文

Make-It-Vivid:通过文字描述生成3D卡通动画角色

2024-04-03 10:25 · 稿源:站长之家

划重点:

⭐️ 该项目致力于从文本指令自动生成卡通角色的纹理设计。

⭐️ 提出了 Make-It-Vivid 方法,通过 UV 空间中的文本生成高质量的纹理贴图。

⭐️ 实验表明该方法在纹理生成方面优于当前方法,可实现高效角色着色和信实的生成。

站长之家(ChinaZ.com)4月3日 消息:在创造生动的3D动画角色时,面临着这样的挑战,除了要满足特定领域的高要求比如角色需要有独特风格和丰富细节,还缺乏高质量的数据支撑。现有方法通常无法生成具有丰富细节,和过度自然的纹理,使得角色看起来不真实,不够生动。

image.png

因此,来自上海交通大学的海AI实验室和清华大学的研究团队,研究着眼于基于输入指令为卡通角色自动生成纹理设计。为了解决领域特定需求和高质量数据不足的挑战,他们提出了 “Make-It-Vivid” 方法,这是首次尝试从文本中在 UV 空间生成高质量纹理。

这个框架能够根据文本描述自动生成高质量的3D纹理。该方法通过使用视觉问答代理生成了详细的文本 - 纹理配对数据,为3D 角色准备了数据。然后,他们定制了一个预训练的文本到图像模型,以模板结构生成纹理地图,同时保留自然的2D 图像知识。此外,为了增强细粒度细节,他们提出了一种新颖的对抗学习方案,缩短了原始数据集与真实纹理领域之间的域差。

image.png

大量实验证明,他们的方法优于当前的纹理生成方法,实现了高效的角色纹理处理和根据提示生成忠实的结果。此外,他们展示了各种应用,如域外生成和纹理风格化。他们还提供了一个高效的生成系统,用于自动文本引导的纹理角色生成和动画。

这一方法接受一对数据作为输入,包括一个纹理地图、相应的文本描述 P 和网格模型 M。他们对预训练的文本到图像扩散模型的低秩适配器∆θ 进行微调,以生成高质量 UV 纹理。为了提高合成纹理的质量和感知保真度,他们引入了对抗训练来增强纹理细节。他们利用由 ControlNet 生成的渲染深度条件的合成可信图像作为指导,引导这种对抗性训练。

image.png

该项目的代码即将发布,项目入口:https://top.aibase.com/tool/make-it-vivid

举报

  • 相关推荐
  • 视频生成模型Vidu Q1怎么用?Vidu Q1官网是什么?

    国产视频生成大模型Vidu Q1在性能、价格和功能上实现重大突破。该模型由生数科技推出,在VBench评测中超越Sora等国内外顶尖模型,支持1080p高清视频生成,每秒价格低至3毛钱。其首尾帧功能仅需两张图即可实现电影级运镜效果,支持多元风格生成和48kHz高采样率混音功能。Vidu Q1已深度赋能影视、广告、动漫等行业,大幅降低创作门槛。

  • 仅用三张图像即可生成 3D 场景,苹果新 AI 模型“很惊人”

    只需三张输入图像,Matrix3D 就能生成物体、甚至整个环境的详细 3D 重建,这显然可以为 Apple Vision Pro 等沉浸式头显带来非常有趣的应用……

  • 用AI半年涨粉50万,Make工作流这样批量出爆款!

    也就是说,通过搭建make工作流(一种AI自动化工作流软件),可以实现自动化更新:从最开始的信息采集,文件格式化,到入库(notion库),进行分发、改写,最后在推特发布,平均一个月能发1到2万条推文。

  • 小米通报海信Vidda商业诋毁案 称海信Vidda构成商业诋毁

    5月13日,小米法务部就与聚好看科技(海信旗下Vidda品牌)商业诋毁纠纷案终审结果发布声明。法院终审维持一审判决,认定聚好看2021年11月发布的含"米有问题""米有屌丝"等谐音文案的海报构成对小米商业诋毁,要求其在Vidda官微置顶致歉7天并赔偿小米55万元。Vidda已于5月10日发布致歉声明承认文案存在误导性。该案为净化行业竞争环境提供了司法范例,法院在审理中重点审查了涉案文案的语义指向性、传播范围及实际损害后果。小米强调企业竞争应遵循商业道德和法律规范,任何通过诋毁对手获取市场优势的行为都将受到法律制裁。(140字)

  • 腾讯元宝又叒叕上新:一句话即可生成Mermaid图表

    据其介绍,只要在元宝里输入一句话,比如帮我用Mermaid生成一张xxx流程图”,系统就会自动生成饼图、流程图、甘特图、时序图等。生成后,用户可以立刻预览效果,或者复制代码拿去其他地方使用。 腾讯元宝介绍,这个功能比较适合用在学术研究、工作报告、数据分析等场景,能帮助用户把复杂的内容快速变成图表,让信息更直观,沟通也更高效。

  • 聚首华南,2025下半年增材制造、3D 打印的顶尖展览与活动推荐

    2025年全球3D打印行业将迎来系列盛会。4月西安论坛成功举办后,下半年将迎来深圳Formnext Asia(8月26-28日)、东京论坛(9月25-26日)和法兰克福Formnext展会(11月18-21日)三大国际活动。这些平台将汇聚全球顶尖企业,展示航空航天、医疗健康、汽车工业等领域的最新技术成果,特别关注中国企业的快速成长。法兰克福展会预计吸引超900家展商,中国展商数量有望再创新高。系列活动将搭建全球产业交流平台,推动3D打印技术创新与商业应用深度融合。

  • 10倍精度升级!腾讯混元3D模型v2.5版本发布

    腾讯混元3D模型升级至v2.5版本,建模精度和贴图真实度显著提升。新版本参数体量从1B增至10B,有效面片数增加超10倍,支持1024几何分辨率。纹理系统支持4K高清贴图和凹凸细节,率先支持多视图生成PBR模型。针对动画场景优化骨骼蒙皮系统,支持非标准姿态自动绑定。新增文生/图生3D减面模型、多视图建模模板等专业工作流。混元3D v2.5已全面更新至腾讯AI创作引擎,免费生成额度提升至每日20次,并正式上线腾讯云API面向企业开放。GitHub开源版本累计Star超1.2万。

  • AI日报:腾讯混元3D生成模型2.5版本发布;海螺推出图像人物参考功能;百度上线移动端超级智能体心响App

    本文介绍了多款AI领域的新产品和技术进展:1)Kortix-AI推出开源通用AI智能体平台Suna;2)腾讯混元3D生成模型升级至2.5版本;3)海螺AI推出基于单张图像生成多角度角色图像功能;4)百度发布"心响"App整合多智能体协作;5)Nari Labs开源媲美真人的对话语音模型Dia;6)Grok新增视觉处理和多语言支持;7)Genspark推出AI幻灯片工具;8)Character.AI发布让静态图片"说话"的AvatarFX模型;9)pad.ws结合白板和代码编辑器;10)OpenBMB开源社区推出长文本生成模型"卷姬";11)腾讯推出AI阅读助手"企鹅读伴";12)OpenAI有意收购Chrome浏览器;13)字节跳动调整AI产品线布局。这些创新展现了AI技术在自动化、3D生成、语音交互、内容创作等领域的快速发展。

  • 618必买高画质投影来了 Vidda C3系列开启首销超多惊喜!

    5月8日,Vidda正式推出C3系列4K三色激光投影新品。该系列搭载新一代激光器、光学变焦和MT9681芯片,全线支持杜比视界。其中C3 Ultra和C3 Pro实现行业最宽1.67倍光学变焦,重新定义专业家庭影院标准。C3 Ultra采用全球首发的MCL 39激光器,实测亮度达3200CVIA,配备2×10W JBL定制音响和20W低音炮。全系列支持HDR亮度映射、杜比视界和IMAX认证,色彩表现超越传统LED投影。硬件方面搭载MT9681旗舰芯片,C3 Ultra配备8GB+128GB内存,支持千兆网口和HDMI 2.1接口。AI方面引入DeepSeek深度思考智能体,支持18大AI功能。首发价格从6399元至11999元不等,即日起开启预售。

  • 3199元起!华为智能门锁2 Pro/Ultra开启预售:首次掌静脉+3D人脸识别

    华为智能门锁2 Pro、华为智能门锁2 Ultra今天正式开启预售,官方定价分别是3199 元、3699元起,国补到手价是2634.15元、3059.15元。