11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
Nvidia和Shutterstock最近联手推出了一项名为文本转3D的全新服务GettyImages也推出了一项旨在给创意专业人士更多控制权的AI图像生成服务。Shutterstock的3D生成服务是基于Nvidia最新版本的Edify,这是一种用于视觉生成AI的多模态架构。Shutterstock和GettyImages的这些举措将进一步推动AI在创意领域的应用,为创意专业人士提供了更多创作和编辑的可能性。
在数字媒体和虚拟现实领域,3D动画角色的创建一直是一个重要的环节。一款名为Cartwheel的新工具正在改变这一游戏规则。但这并没有阻止人们对于这款工具的期待,因为Cartwheel的出现,无疑为3D动画的创建带来了前所未有的便利。
Nvidia与3D软件开发商MasterpieceStudio合作发布了MasterpieceX,旨在通过使3D建模像使用MidJourney或StableDiffusion创建二维图像一样简单,革新了3D建模领域。MasterpieceStudio在官方声明中表示,“多年来,我们一直在努力创建直观的尖端3D工具,同时也使越来越多的人能够开始创建3D。从现有的模型开始更容易获得所需的结果不必从头开始创建设计。
Meta与德国慕尼黑工业大学研发出创新模型ViewDiff,旨在帮助用户通过文本、图像或二者结合使用,快速生成高质量多视角3D图像。该模型解决了传统文本生成多视角3D图像领域的三大难点:无法生成真实背景环境、图像质量和多样性不理想、缺乏多视角和一致性。该模型的推出不仅在技术层面上具有重大意义,也将为未来的3D图像生成领域带来更多创新可能。
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
Meta联合伦敦大学学院研究院在一项研究中提出了一种全新的文本引导的3D场景编辑方法,被称为ReplaceAnything3D。这一方法通过引入Erase-and-Replace策略,能够有效地替换场景中的特定对象,实现了文本提示下的高质量3D场景编辑。这项研究对于游戏、电影、虚拟现实和混合现实等领域的3D内容创作和编辑具有重要的推动作用。
随着大模型技术的飞速发展,基于语言和视觉的3D场景编辑方法取得了十足进步,如Instruct-NeRF2NeRF在修改和场景控制方面展示了强大功能。但在内容生成方面依然面临困难,例如,在3D场景中直接生成一只3D蝴蝶。值得一提的是,InseRF只需要一个粗略的视角框,就可实现精确的对象定位,这对于用户来说非常便捷。
3DTopia是一款先进的文本到3D生成模型,通过两阶段的处理,能在短短5分钟内实现高质量的文本到3D模型的生成。这一创新工具的应用范围广泛,特别适合那些需要快速生成3D物体、进行文本图像转换、以及从事3D设计的用户。点击前往3DTopia官网体验入口并亲身感受这一创新工具的魅力。
瑞士苏黎世联邦理工学院和Google苏黎世的研究人员联合提出了一项名为InseRF的新技术,该技术引起了科技界的广泛关注。该技术通过文本提示和2D边界框,成功在3D场景中生成一致的物体,无需明确的3D信息。随着技术的不断发展和改进,InseRF有望成为未来生成式AI领域的重要技术之一。
LumaAI发布了Genie1.0版本,这是一个文本到3D模型的转换工具,能够在不到10秒内根据文本描述创建任何想象中的3D对象。生成的3D模型不仅包含形状包含了表面材料的细节,比如颜色、纹理或反光性,这使得模型更加逼真和详细。该工具已可在网络和Luma的iOS应用中尝试。
GPTEval3D提供了一个用于评估文本到3D生成模型性能的评估指标。利用OpenAI和PyTorch,它通过ELO评分系统提供了一个全面的框架,用于评估文本到3D生成模型的性能。3DTopia/GPTEval3D为评估和比较文本到3D生成模型提供了一个用户友好的平台,提供了结构化的方法、清晰的文档和未来增强功能的一瞥,为更强大的评估体验铺平了道路。
德克萨斯大学奥斯汀分校和MetaRealityLabs的研究人员联手推出了SteinDreamer,该技术集成了SteinScoreDistillation技术,以改进文本至3D生成领域的梯度估计高方差问题。这一技术的突破对于自动化和加速虚拟现实、电影和游戏中的3D资产创建具有重要意义。SteinDreamer通过SSD技术呈现出更丰富的纹理和较低级别的方差,相较于SDS产生了更少的过饱和和过度平滑的伪影。
一家名为NationA的初创公司以其创新性的生成式人工智能技术Neuroid。动画制作一直是一个繁琐、复杂且昂贵的过程现在,NationA的人工智能技术有望彻底改变这一局面。对于那些不太愿意使用AI提示动画生成器的人,公司还提供了一个包含即用动画的资产商店。
Text2Immersion是一个创新的工具,专门用于从文本提示生成高质量的3D沉浸场景。该方法首先使用预训练的2D扩散和深度估计模型逐步生成高斯云,然后通过精炼和插值处理来增强生成场景的细节。如需了解更多或体验Text2Immersion,请访问Text2Immersion官方网站。
Text2Immersion是一种创新的方法,通过文本提示生成高质量的3D沉浸式场景。该项目的流程首先利用预训练的2D扩散和深度估计模型逐步生成高斯云,然后在高斯云上进行细化阶段,通过插值和细化来增强生成场景的细节。通过对系统进行广泛评估,我们证明了其在渲染质量和多样性方面超越了其他方法,为文本驱动的3D场景生成迈出了重要一步。
MoMask是一个创新的3D人体运动生成模型,其核心思想是通过层级量化方案表示人体动作,包括基础层和逐层的残差标记。在模型结构上,引入了MaskedTransformer和ResidualTransformer,分别用于预测基础层的掩码动作标记和逐渐预测更高层次的标记。其在重建、生成和比较方面的实验证明了其在3D人体动作建模领域的卓越性能。
3D生成是AI视觉领域的研究热点之一。来自Adobe研究院和斯坦福大学等机构的研究者利用基于transformer的3D大型重建模型来对多视图扩散进行去噪,并提出了一种新颖的3D生成方法DMV3D,实现了新的SOTA结果。更多技术细节和实验结果请查阅原论文。
芝加哥大学的研究人员与SnapResearch合作,推出了一种名为3D画笔的人工智能方法,通过文本描述自动生成网格上的局部语义区域的纹理。这一创新使得用户可以通过直观的、自由形式的文本输入控制纹理编辑,为各种网格描述其编辑。这一研究为3D建模和纹理编辑领域带来了新的可能性,为游戏、动画、电影等各个行业提供了更加高效和直观的纹理编辑工具。
OVIR-3D是一个开放词汇的3D实例检索系统,它以直观有效的方式解决了在没有对3D数据进行训练的情况下获取3D实例的问题。该系统通过语言引导的2D区域提议进行3D融合,为机器人应用提供了解决方案。文章还提到了OVIR-3D的应用前景,以及后续工作OVSG的介绍,该工作在OVIR-3D的基础上构建3D场景图,实现更精准的对象检索。
北京智源AI研究院、牛津大学、澳大利亚国立大学联合发布了一项研究—3D-GPT,通过文本问答方式就能创建高精准3D模型。3D-GPT使用了大语言模型的多任务推理能力,通过任务调度代理、概念化代理和建模代理三大模块,简化了3D建模的开发流程实现技术民主化。在多步语言指令的场景中,3D-GPT能够充分理解每一步指令,并对场景进行准确修改。
硅谷初创公司LumaAI专注于将AI技术与3D内容相结合,例如从智能手机视频中生成NeRF或其他3D格式。该公司发布了一个名为Genie的Discord机器人,用于生成文本到3D。该链接可在LumaAI的网站上找到。
11月2日,著名开源平台StabilityAI在官网宣布推出了Stable3D,支持用户通过文本、图片或插图,直接就能生成高质量3D模型。生成模型的格式是.obj,可以直接在Blender、Maya、C4D、ZBrush等主流3D模型开发平台中进行二次编辑,同时支持导入到UnrealEngine5、Unity游戏开发引擎中直接使用。微调功能申请地址:https://stability.ai/contact此外,为了保证AI生成的图片安全,StabilityAI已经在图片中内置
3D游戏开发平台Hiber3D通过谷歌的PaLM大语言模型,结合自身500多个模板库,以及数百万个成品3D场景进行微调,推出了一个全新游戏开发平台。该平台在生成式AI加持下,用户可以像使用ChatGPT那样,通过文本问答方式快速创建3D游戏场景和功能,例如,生成一个被行星、恒星和宇宙飞船包围的空间站场景。超过500万用户在Hiber3D平台上开发了游戏。
百度输入法上线AI创作助手“超会写”小红书爆款标题轻松拿捏百度输入法推出基于文心大模型的创作助手“超会写”,可以为用户提供场景化的高质量文本创作服务。用户只需在“超会写”界面输入需求,AI助手就会提供几个符合条件的文本供选择。AiLMe天燕大模型官网:www.apusai.com/#/马斯克承认用X数据训练AI:微软别想用,但我自己能用马斯克更新推特隐私政策表示会使用用户�
字节跳动研究人员推出了名为MVDream的新技术,它可以仅通过文本描述生成高质量的3D图像。这种从文本到图像的生成技术,被称为“文本到3D”技术,是当前计算机视觉领域的热门研究方向。MVDream模型的核心特色功能如下:总结言,该模型的创新点在于融合了2D图像生成与3D数据一致性,通过多视图先验指导3D生成,既保留了2D生成的泛化性又提升了3D任务的性能。
CSM是一家来自美国的支持使用AI从视频、图像或文本创建3D资产。用户只需上传任意一张2D图像即可获得对应的3D模型。创建的模型也会发布在官网的“ShowCase”页面上,任何人都可以免费下载使用。
Shap-e是一个基于AI的3D模型生成器,可以将文本转化为详细的3D模型。它通过使用神经网络来理解输入条件与物体形状之间的关系,为设计师、艺术家、开发者和任何想要探索AI辅助3D建模可能性的人提供了许多有希望的功能。这无疑是一个值得在人工智能之旅中探索和尝试的模型。
元宇宙曾经大热,但之后却被冷落。一个很大的原因是生成3D化身的方法大多需要昂贵且复杂的采集设备,以构建高保真的化身模型。文中提出的新方法在四个指标上都获得了最高分,证明该模型有能力生成具有更详细外观和几何形状的化身。
OpenAI+最近分享了他们在将文本提示转化为+3D+物体方面的最新探索,名为+Shap-E。这款生成式+AI+工具提供了一种新的方式来生成+3D+物体,其制作的物体比去年发布的+Point-E+模型更好、更详细、更准确。这款+AI+在理解如何制作一些复杂物体方面仍然存在困难,但总体言,其结果在成功方面非常显著。
Instruct-NeRF2NeRF+使用生成式+AI+模型的方法,可以根据文本输入编辑3D+场景。今年早些时候,加州大学伯克利分校的研究人员展示了InstructPix2Pix,这是一种允许用户使用文本指令在+Stable+Diffusion+中编辑图像的方法。Instruct-NeRF2NeRF+项目页面上提供了更多示例、代码和模型。