站长之家(ChinaZ.com)3月22日 消息:最近,阿里达摩院在魔搭社区(ModelScope)发布了一个新的人工智能模型,可以根据用户输入的英文文本提示,自动生成对应的视频。这个模型由三个子网络组成,整体参数约17亿,采用了扩散模型的结构,通过从噪声视频中迭代去噪的过程,实现视频生成的功能。
这个模型目前已经开放给用户试玩,只要输入一些简单的描述词,就可以看到生成的视频效果。比如输入“A panda eating bamboo on a rock”,就可以看到一只大熊猫坐在岩石上吃竹子的画面。
不过,目前这个模型还不支持中文输入,而且生成的视频长度多在2-4秒,等待时间从20多秒到1分多钟不等,画面的真实度、清晰度以及长度等方面还有待提升。
阿里达摩院的这个发布引起了国内外网友的关注和尝试,也展示了人工智能技术在内容生成领域的进步和潜力。未来,或许我们只需要一些文字提示,就能制作出任何风格和主题的视频内容。
(体验地址:https://modelscope.cn/studios/damo/text-to-video-synthesis/summary)
(举报)