11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
PALP是一种用于文本到图像生成的个性化方法。该方法通过使用得分采样来保持模型与目标提示的对齐,从提高文本对齐度,并能够生成复杂和精细的图像。通过这种方式,PALP可以根据不同的主题生成对应的图像。
在MetaAI的一项开创性研究中,研究人员成功解决了动态3D头像的高保真重新调整光线的挑战。传统方法在实时应用中捕捉面部表情的细节常常需要进行改进,尤其是对于捕捉亚毫米级细节的要求。通过将基于3D高斯函数的几何模型与革命性的可学习辐射转移外观模型相结合,研究团队超越了现有方法的局限,为头像的逼真程度树立了新的标准。
Adobe研究人员与斯坦福大学团队联合提出了一种名为DMV3D的全新3D生成方法。该方法旨在解决增强现实、虚拟现实、机器人技术和游戏等领域中3D资产创建的共同挑战。该研究为通过统一3D重建和生成的2D和3D生成模型的领域之间的鸿沟,以解决3D视觉和图形领域中的各种挑战,提供了新的视角和可能性。
人工智能内容生成领域取得了飞速的发展,尤其是在文本到图像模型方面,为生成高质量、多样性和创意丰富的AI生成内容开辟了新时代。与这些先进的文本到图像模型进行有效的自然语言交流一直是一个重要挑战,因为这需要用户具备对提示工程的专业知识。这些功能使Mini-DALLE3成为一个强大的文本到图像工具,提供了丰富的创作和交互体验。
来自中国科学院自动化研究所、腾讯公司和香港中文大学的研究人士提出了一种名为SimpleDiffusionAdapter的方法,用于实现高效的文本到视频生成。传统的文本到视频技术发展还不够成熟SimDA方法通过只fine-tune部分参数,将T2I模型转化为T2V模型,实现了高效的视频生成。SimDA方法在文本到视频生成方面取得了高效和优化的效果,为实现高质量视频生成提供了一种新的途径。
LP-MusicCaps是一种基于LLM的伪音乐字幕生成方法。该项目的目标是为音乐生成字幕。4.零样本学习和迁移学习支持:LP-MusicCaps训练的模型在零样本学习和迁移学习场景下表现良好,证明了基于大型语言模型的伪字幕的有效性。
由于离散声学标记建模的发展,最近在语音和音乐的自回归创建方面取得了重大改进。研究人员开发了一种名为VampNet的音乐生成方法,它利用了声学token建模和并行迭代解码的技术。音乐家可能会使用VampNet录制一个简短的循环,将其输入到系统中,并让VampNet在每次重复循环区域时根据这个想法生成音乐变体。
企查查APP显示,6月9日,北京百度网讯科技有限公司申请的“生成数字人的方法、模型的训练方法、装置、设备和介质”专利获授权。专利摘要显示,本公开提供了一种生成数字人的方法、模型的训练方法、装置、设备和介质,涉及人工智能领域,具体涉及自然语言处理、深度学习、计算机视觉、图像处理、增强现实和虚拟现实等技术领域,可应用于元宇宙等场景。实现方案为:获取素材内容;基于预训练的场景划分模型,从素材内容中确定多个场景,其中,多个场景中的每个场景分别对应于素材内容中的一个具有完整语义信息的内容片段;以及对于多个场景中的每个场景,基于对应的内容片段,确定该场景对应的目标内容;基于对应的目标内容,确定该场景的场景标签信息;以及基于场景标签信息,配置特定于该场景的数字人。
天眼查信息显示,阿里巴巴(中国)有限公司 4 月 26 日公开一项“短视频的生成方法、装置、电子设备及可读存储介质”专利,申请公布号为CN114401435A...该方法包括:获取在短视频发布页面输入的特效配置参数;所述特效配置参数包括目标功能控件和特效类型参数;根据所述特效类型参数,为所述目标功能控件生成对应的引导特效;将短视频数据和所述目标功能控件进行合成,得到短视频,以使所述目标功能控件通过引导特效引导短视频观看者执行设定操作;发布所述短视频...
6月22日,北京字节跳动网络技术有限公司“一种题目生成方法、装置以及计算机可读存储介质”专利获授权,公开号为CN111353037B。