声明:本文来自于微信公众号 数字生命卡兹克,作者:数字生命卡兹克,授权站长之家转载发布。
这次去WAIC,论坛、探展直播、活动等等,硬生生干了个周末,几乎累麻了。
我自己这两天印象最深的,也是我觉得对我最有用的。
还是可灵的更新。
他们首发了1个全新的功能,灵动画布,还把之前的多图参考做了巨幅升级。
这两都挺酷的。
我当时在现场,录了一下灵动画布的发布,真的,发完以后底下掌声雷动。
这个形态我当时看完以后,眼前一亮,确实非常的有意思。
特别是对于AI创作者来说。
当时论坛结束以后,我问他们啥时候能用,他们说一会闭馆了我们晚上回去让产品给你开,但是你要是急的话,可以去楼上的可灵展区先试试看。
然后我就去楼上了。
给我看懵逼了。
我拍了一下当时的展区的盛况。
根本就特么挤不进去,我说我还是等你们晚上给我开吧,就掉头回酒店了。
晚上的时候,他们给我发了一句,可以用了。
果然,我登上去,发现已经开好了。
灵动画布在工具栏的最左边。
点进来之后的界面,是这样的。
其实你能看到,最大的三个功能,就是以模态为划分的,图片生成、视频生成、音效生成。
这个界面你可以先不用管,我们随便点开一个,比如图片生成。
进去以后,你会发现,自己来来到画布界面,出现了节点。
左边是Prompt输入框,右边是可以选择的参数,比如模型、比例、多少张之类的。
中间用一个线给链接起来。
你只需要点一下立即生成。
他就会拉出一条新的线,链接到一块新的卡片上,而这些卡片,就是图片的生成结果。
大概几十秒以后,四张图生成出来了。
接下来,就是灵动画布这种画板式的产品,最棒的一点了。
在传统的可灵的UI界面里,如果我们想把可灵生成的图,用图生视频的方式生成AI视频的话。
需要点击这个生成视频。
然后带着这张图,跳到了视频生成的界面。
在对着一堆的按钮和参数,调完以后,生成视频。
但是我们都知道,做一个AI视频的片子,可能需要几百张图,几百个视频。
就这么来回跳来跳出,人会跳成智障,感觉自己是个跳跳虎,你很容易就迷失了,忘了自己的素材在哪里。
特别是所有的生成结果都堆在右边的结果栏里,图和视频混着排,我不知道你们,我自己是真的经常干着就找不到我之前的内容在哪了。
而在灵动画布里,就天然的适合做这种任务。
同样的,你可以把鼠标放在视频生成上,然后单击,就会出来两个关联的节点,这时候,这张图片自己本身和文本就作为素材节点,再加上参数节点,点击生成以后就可以直接生成视频。
在这里面,你就可以切换模型,切换生成类型,还有一些几条、几秒等参数。
而新升级的多图参考,也在这个里面。
素材节点+参数节点,就可以得到我们的视频生成结果。
同时,这个视频生成结果本身也是一个素材节点,后续可以用文本输入+视频参考的形式,给这个视频去加音效。
我们需要用到的,主要就是节点之间的排列组合。
比如文本输入+参数节点生成图片,比如图片&文本输入+参数节点生成视频,或者文本输入+参数节点直接生成视频。
其实底层逻辑和可灵之前的用法都是一样的,但是不同的是,它把每一个工作的节点拎了出来,让你在这个画布上就能够实时查看你的每一步工作。
我们还可以,微调Prompt,并行的开跑好几个任务,之前我经常这么干,就是为了要一个最好的效果,而现在,在画板上,并行会比传统的UI直观非常多。
这个并发的感觉,究极壮观,强迫症患者表示爽飞了。
2分钟左右,视频跑完了,你还可以,给他们加音效。
最后,从文字到图片到带有音效的视频,就成了一个流。
而且这个画布是无限的,也就是说,你在上面铺开一整个短片分镜也没关系。
如果画布太大,在画布上迷路了咋办?没关系,右下角可以缩放,随时会随时提示你正在什么地方。
如果你的画布被弄得特别乱怎么办?也没关系,它有一个功能叫做整理画布。
点击一下,咻的一下,页面又整洁了。
对于创作者来说,非常直观、方便、快捷,而且还极度可控。
我相信很多朋友其实都感觉到了,这玩意很像ComfyUI。
其实这种节点画布式产品,越来越成为一种主流的交互形态了,比如ComfyUI、扣子、百度的自由画布、Flowith等等。
这种形态,我觉得解决了一个我一直认为的AI工具生态化的核心难题。
产品间的孤岛化。
过去几年,其实AI工具发展得非常迅猛,但用户的体验却越来越破碎。
还记得2024年,我们生图用Midjourney、生视频用可灵、TTS用hailuo,生成完音频以后再扔回可灵做口型驱动,实在是太操蛋了。
标签上永远开着十几个网页。
也是后来我是在忍不了来回切换,搞了一个49寸的巨长无比的显示器,直接人工把所有的工具变成了节点式显示器画布,5、6个网页并排排列。
这边生成的素材我下载下来,然后传到另一个产品里面,然后生成完再下载下来上传到另一个地方,效率有提高,但还是难受。
节点式画布直接打通了这种孤岛,把多个不同工具和功能真正整合成了一个平台级的生态。
而且因为我自己是UI设计师出身,在很久以前就在用画布式的工具,比如Sketch、Figma、AI(Adobe那个AI)等等,其他大家也有一个很棒的点。
就是,我们真正在创作的时候,其实不是线性的。
创作一直是一种非线性、网状的拓扑结构。
我们的灵感并不是顺序产生的,而是随机、并发、发散出现的。
而这种产品形态,本身就非常的契合创作本身。
而可灵本身有生态级优势,图片、视频做的很棒,做这种进一步的创作工具,本身就是水到渠成的。
灵动画布上,还有一些小细节。
比如底下这个对话框,我在对话框里写一句提示词,点右边这只小笔,它就可以给我优化提示词。
我在这个框里写了一句生成一只金毛犬,这是它刷刷刷给我写的,还直接给出了任务节点:
生成好的结果那一栏,也会有添加到对话框的选项。比如我生成了一张图片,就可以添加到对话框里,让它再做参考。
说实话,这比我之前用可灵要省事太多了,不用翻历史创作天荒地老,要什么东西直接一拖画布,就拿到了。
还有首尾帧,你把两张图直接拖进去,一框选,就可以直接生成首尾帧视频,或者直接多图参考生视频,也行。
而且这个灵动画布,还可以多人协作,点击右上角的分享,就可以把自己的画布分享给别人。
也可以输入协作者的ID来添加协作者。
目前最多能加五个协作者,对于一个短片来说,已经很够用了。
可以看到,可灵AI现在越来越想往生态、专业上去做出一些定义了。
并且因为内测中,所以还有很多功能不全,我整理罗列了一下。
除了灵动画布之外,还有一个新升级的就是多图参考。
可灵的多图参考生视频是今年一月份出的,现在又来了一波更新,也可以直接在画布中使用。
这次多图参考的升级,主要就是人物和角色更自然、一致性也更强了。
同时支持4张图。
并且,可以参考部分区域。
可以参考主体,可以只参考面部、服饰等等。
让参考更加的精准。
我们用这个功能,玩很多的花活。
比如,肌肉男在麦当劳中举着卡皮巴拉深蹲。
比如,让大卫和女孩一起在花园里散步,画风保持的非常完美。
比如,两只猫一起玩毛球。
非常的有意思。
用多图参考,保证一致性,我觉得才是用AI来做故事的起点。
除了多图生视频之外,多图生图也有很多花活。
在图片生成一栏,点参考生图——多图参考,就能看到主体、场景和风格三个生图维度了。
这个界面,有点眼熟之前Google的whisk,都是依据主体 - 场景 - 风格来出图,不过可灵的自由度还要更高。
whisk每个维度只能放一张图,但可灵的主体这栏足足可以放四张图。
我直接用它生成了一个拼好饭的升级版,拼好购。
还有喜闻乐见的邪门cp修罗场大乱炖。
贼好玩。
做几个case我觉得也不是特别有意思,于是,有了一点小想法,我就花了一下午和一晚上的时间,用灵动画布和多图参考,做了一个小片子。
一个模特女孩的一天。
在多图参考生的模式下,一致性会强到非常离谱。
数字生命卡兹克,赞8
我写完这篇文章的时候,已经凌晨两点了。
我看了眼屏幕上的灵动画布,满满当当的节点里堆满了我这一晚上的奇思妙想,突然有种莫名的满足感。
或许,我们距离真正的无限创作时代。
又更近了一步。
(举报)