近日,字节跳动最新发布了DreamActor-H1视频生成系统,用户只需输入商品和角色照片,即可自动生成专业级带货视频,旨在通过采用扩散变换器(DiT)技术,解决现有技术在真实性和自然性方面的局限。
传统的视频生成方法常常无法同时保持人和产品的身份,导致演示效果不够真实,互动性也较差。这使得消费者在观看产品演示时,难以获得真实的购买感受。为了解决这一问题,DreamActor-H1 框架提出了一种创新的方法,采用成对的人机交互参考信息,并引入了一种额外的掩蔽交叉注意力机制。通过这些技术,框架能够更好地保持人机交互的身份特征和产品细节,例如产品的徽标和纹理。
此外,DreamActor-H1 利用 3D 身体网格模板和产品边界框来提供精确的动作引导,使得手势与产品位置之间的匹配变得更加直观。这样的设计使得用户在观看视频时,能够感受到更真实的互动体验。而且,框架还采用了结构化文本编码,增强了视频生成过程中对类别级语义的理解。这一技术特别适用于跨帧的小角度旋转变化,从而提升了 3D 模型的一致性。
在丰富的数据增强策略和混合数据集的支持下,DreamActor-H1 在生成高保真度的人机交互演示方面,表现出色。经过严格的测试和评估,研究团队发现,该框架在保持人和产品身份完整性以及生成逼真的演示动作方面,均优于现有的最先进技术。这一突破性的成果,将为数字营销和电子商务领域带来新的机遇,推动产品展示方式的变革。
DreamActor-H1 的推出不仅将为消费者提供更加真实和互动的购物体验,同时也为商家提供了更有效的产品展示工具。随着技术的不断进步,消费者在虚拟空间中的购物体验必将更加生动、真实、富有吸引力。无疑,DreamActor-H1 将成为数字营销领域的一颗新星,引领人机交互演示视频生成的新潮流。
地址:https://submit2025-dream.github.io/DreamActor-H1/