复杂场景也能稳住
总的来说,我个人感觉模型在画面一致性和可控性这块的表现还是蛮强的,日常用来做多角色、多镜头的视频制作场景很合适~
在使用时建议大家尽量多上传一些不同角度、不同参考元素,这样模型整体的输出水准会更稳一些~
一镜到底也能拍
在这次更新中,Seedance2.0还有一个大功能亮点就是——「一镜到底」。
但是这个一镜到底和咱们认知的不太一样,它主要强调的是我们可以给模型不同的参考画面,模型可以把这些画面用一个视频串联起来~
这次,咱玩点未来科幻感的,我直接给模型喂了三张赛博味拉满、视角各不相同的一百年后的地球城市参考画面:
先说说优点,输入中涉及的三个参考镜头确实都给我完整还原在视频里了,而且确实是一镜到底,这没得说。
但一个算不上缺点的缺点的是——图一和图二的画面衔接太硬了点,我放慢给大家看:
其实我个人更理想的情况是,在图一和图二之间应该加一段狭窄空间作为过渡,这样再切到图三时,整体的连贯感会更好,也不太会有割裂的感觉。
(大家觉得呢,有啥更好的解决方式吗,欢迎留言~)
支持完整剧情输出
在一致性和稳定性方面,Seedance2.0还有一个本事是能自己——脑补剧情。
它不只是基于首帧往后生成画面,而是可以结合多份参考素材和提示词,直接跑一整段完整的「剧情输出」。
这次我干脆让AI按一套六宫格漫画,直接创作一支完整的剧情向动漫视频:
将【@图片1】以从左到右从上到下的顺序进行漫画演绎,保持人物说的台词与图片上的一致,分镜切换以及重点的情节演绎加入特殊音效,整体风格诙谐幽默。
emm…画面本身倒是没啥问题,六个画面都被完整还原了出来。
问题主要出在文字上,不少字体和原漫画里的文案对不上,而且文字出现的时机也和画面不同步。
我猜可能是因为文字本身不属于画面主体的一部分,相较于人物、动作和场景这些画内元素,漫画里的文字对模型来说优先级明显更低。
所以在多镜头和节奏切换时很容易被当成可变元素处理…
果然啊,人不能既要又要还要,AI也是同理。(doge
视频长度/音效也能diy
除了基础的画面镜头能力外,Seedance2.0在视频延长和音效编辑上也上了一个level。
先来说说视频延长。
uu们需要注意的是,它这个延长并不是单纯把视频时间拉长,而是我们可以在提示词里给出首帧画面,并可以明确「标注出」需要生成的视频时长。
这次我给AI喂的是一张3D风格、正在奔跑的甜甜圈图片,要求它延长生成一段10秒的视频,并在过程中完成翻滚、跳跃、滑行等一整套连续动作:
好好好,视频时长完全没有问题,说10秒人家就生成10秒,一秒不多一秒不少,音效还贼动感,动次打次动次打次~
但是,为啥这甜甜圈是倒着跑的???(我不太理解
最后呢,咱来说说Seedance2.0在多模态上的另一个能力——音效。
官方强调的并不只是能配音,而是音色准确度超牛,同时和人物的贴合度也更高。
我们先来试一个非常考验音效能力的场景——吃播(流哈喇子,看看模型能不能准确还原不同食物咀嚼的声音:
从下面生成的效果看,AI把吃炸鸡的咔嚓声、脆脆的黄瓜声、披萨拉丝的声音以及可乐的气泡音全都1:1还原了,不错不错!
咱们再来试一个ASMR的场景,这回我们让AI在同一个视频中演绎出不同物体的触发音,看看会是啥效果~
除了第一个水晶碰撞声稍微有点出戏,其余几乎都做到了1:1还原。金属、玻璃、丝绸的质感都很真实,层次也在线:
我猜水晶声音比较出戏的原因,主要是因为模型直接按提示词生的标准音效,而没有根据场景进行思考,所以出来的声音反而像金属碰撞的声音,而不是水晶摩擦音…
虽然网上铺垫该地都是Seedance2.0的各种评价,但这次我实打实用下来的感受就是:
如果单说镜头理解能力(包括但不限于画面的一致性、可控性、连贯性),Seedance2.0的表现确实有点超出我的预期。
哪怕用的是很大白话的提示词,也能跑出相当理想的效果,很适合咱用在日常的AIGC视频的画面生成创作中去。
小bug也有,比如像多宫格漫画的剧本输出,模型不见得能1:1还原每个场景画面,此外,音效上可能也偶尔会有出戏的问题。
日常如果用来做一些商业场景、AIGC日常创作而言,已经够用而且好用了,还是很惊喜的~
这不嘛,有网友用完,都直呼好莱坞要完蛋了,看来对模型的表现甚是满意。(doge)
目前,Seedance2.0已经在豆包App和即梦里上线,感兴趣的朋友可以直接上手搓搓看~
(ps:亲测,这两天建议大家在豆包体验,即梦现在生成一个视频要排队好几个小时,没招了…)


VIP复盘网