Seedance 2.0深度测评：复杂场景贼稳，连asmr都会？

太热闹了！整个一个现象级showtime～

前脚字节刚上线Seedance2.0，后脚直接全网现象级刷屏！！！

这边马斯克怒赞，那边美国导演直呼好莱坞要完蛋了。

甚至急得不少老外狂催更：啥时候能开放全球使用？咋注册中国账号？在线等！挺急的！

如此之火爆，如此之amzing，那咱高低也得上手搓一把试试。

看我搓的这个全网超火的「猫咪大战哥斯拉」同款视频，小猫一跃，直接一个重拳出击～

再来看这个AI版《F1狂飙飞车》，转速表飙升、刹车尖啸，太有好莱坞内味儿了嗷：

再来试试Chinesekungfu大战钢铁侠，俩人一来一回近身过招，音效刺激感拉满，太带派了！

脑洞大开的网友们更会整活儿，快看下面这位网友做的一镜到底，镜头从街头一路滑进地铁站、钻进车厢，超有梦核感：

还有这位网友，只是上传了一张漫画截图，Seedance2.0直接给他整出了一整段剧情视频，别太amazing啊我说！！

老实说，Seedance2.0确实对镜头语言理解更到位也更可控了，参考能力直接nextlevel，很适合咱日常做多镜头和精细化控制使用～

老规矩不废话，咱直接边测边唠，模型到底能不能打，让大家来评！！！

镜头理解更到位了

复杂场景也能稳住

我不知道uu们有没有遇到过跟我一样的挠头瞬间：

那就是咱们日常做AI视频时，一旦涉及涉及多镜头的提示词，主体特征就会很容易「发飘」。

举个栗子，搓出来的视频人物前后长得不一样，场景和镜头风格不统一等等，最后基本都会面临反复抽卡的戏码……

归根结底，还是因为模型的一致性和稳定性有bug。

这次Seedance2.0一个最明显的升级点就落在多模态输入形式上，咱可以输入图像、视频、音频、文本四种混合内容形式，模型在画面一致性上的表现也更稳更可控了～

先来点开胃菜，最近网上邵氏武侠AI视频火得不行，于是我直接输入一张武林中人对打的动作写真照：

在具体提示词的设计上，需要画面里的男女角色在对话、情绪变化、动作展开到再次对峙之间形成一条完整的冲突链，同时需要AI在多镜头切换中稳住人物外形，并在整体风格和情绪基调上保持一致！

从下面的效果看，在大幅动作和多次镜头切换过程中，即便人物表情和镜头角度发生变化，但男女主的面部特征依然稳定，没有明显变形的问题，不戳不戳！

咱再来玩点有意思的，这回咱让蒙娜丽莎在卢浮宫上演一出卢浮宫偷喝可乐的《大戏》。

在提示词设计里，蒙娜丽莎需要始终固定在原有画像中完成掏可乐、喝可乐这样幅度不小的动作，还要同步出现说话表情，对模型的稳定性要求一下子就拉高了：

你还真别说，蒙娜丽莎这偷喝可乐时鬼鬼祟祟的小眼神和动作还真挺到位，说话时面部一致性也稳住了，手扶画框的动作没有出戏，过关过关！！

咱再来玩个首尾帧玩法，马年到了正好应应景，我上传了两张画风完全不同的马儿奔跑图片，让这匹马在同一个画面里完成一次大变身：

有点东西……从水墨风一路过渡到油画风，再到像素风，整体衔接得很自然，音效和变身动作也卡得挺准！！！

总的来说，我个人感觉模型在画面一致性和可控性这块的表现还是蛮强的，日常用来做多角色、多镜头的视频制作场景很合适～

在使用时建议大家尽量多上传一些不同角度、不同参考元素，这样模型整体的输出水准会更稳一些～

一镜到底也能拍

在这次更新中，Seedance2.0还有一个大功能亮点就是——「一镜到底」。

但是这个一镜到底和咱们认知的不太一样，它主要强调的是我们可以给模型不同的参考画面，模型可以把这些画面用一个视频串联起来～

这次，咱玩点未来科幻感的，我直接给模型喂了三张赛博味拉满、视角各不相同的一百年后的地球城市参考画面：在提示词设定上，需要模型在同一视角里把图一到图二再到图三顺畅串起来，中间还要完成急转、俯冲、拉升等大幅运镜，对镜头衔接的逻辑和连贯性要求更高：

于是乎，我就得到了一个无人机视角的未来城市穿越大片，别说，这镜头画面的超绝抖动感还挺带派？？？

先说说优点，输入中涉及的三个参考镜头确实都给我完整还原在视频里了，而且确实是一镜到底，这没得说。

但一个算不上缺点的缺点的是——图一和图二的画面衔接太硬了点，我放慢给大家看：

其实我个人更理想的情况是，在图一和图二之间应该加一段狭窄空间作为过渡，这样再切到图三时，整体的连贯感会更好，也不太会有割裂的感觉。

（大家觉得呢，有啥更好的解决方式吗，欢迎留言～）

支持完整剧情输出

在一致性和稳定性方面，Seedance2.0还有一个本事是能自己——脑补剧情。

它不只是基于首帧往后生成画面，而是可以结合多份参考素材和提示词，直接跑一整段完整的「剧情输出」。

这次我干脆让AI按一套六宫格漫画，直接创作一支完整的剧情向动漫视频：

将【@图片1】以从左到右从上到下的顺序进行漫画演绎，保持人物说的台词与图片上的一致，分镜切换以及重点的情节演绎加入特殊音效，整体风格诙谐幽默。

emm…画面本身倒是没啥问题，六个画面都被完整还原了出来。

问题主要出在文字上，不少字体和原漫画里的文案对不上，而且文字出现的时机也和画面不同步。

我猜可能是因为文字本身不属于画面主体的一部分，相较于人物、动作和场景这些画内元素，漫画里的文字对模型来说优先级明显更低。

所以在多镜头和节奏切换时很容易被当成可变元素处理…

果然啊，人不能既要又要还要，AI也是同理。（doge

视频长度/音效也能diy

除了基础的画面镜头能力外，Seedance2.0在视频延长和音效编辑上也上了一个level。

先来说说视频延长。

uu们需要注意的是，它这个延长并不是单纯把视频时间拉长，而是我们可以在提示词里给出首帧画面，并可以明确「标注出」需要生成的视频时长。

这次我给AI喂的是一张3D风格、正在奔跑的甜甜圈图片，要求它延长生成一段10秒的视频，并在过程中完成翻滚、跳跃、滑行等一整套连续动作：

好好好，视频时长完全没有问题，说10秒人家就生成10秒，一秒不多一秒不少，音效还贼动感，动次打次动次打次～

但是，为啥这甜甜圈是倒着跑的？？？（我不太理解

最后呢，咱来说说Seedance2.0在多模态上的另一个能力——音效。

官方强调的并不只是能配音，而是音色准确度超牛，同时和人物的贴合度也更高。

我们先来试一个非常考验音效能力的场景——吃播（流哈喇子，看看模型能不能准确还原不同食物咀嚼的声音：

从下面生成的效果看，AI把吃炸鸡的咔嚓声、脆脆的黄瓜声、披萨拉丝的声音以及可乐的气泡音全都1:1还原了，不错不错！

咱们再来试一个ASMR的场景，这回我们让AI在同一个视频中演绎出不同物体的触发音，看看会是啥效果～

除了第一个水晶碰撞声稍微有点出戏，其余几乎都做到了1:1还原。金属、玻璃、丝绸的质感都很真实，层次也在线：

我猜水晶声音比较出戏的原因，主要是因为模型直接按提示词生的标准音效，而没有根据场景进行思考，所以出来的声音反而像金属碰撞的声音，而不是水晶摩擦音…

虽然网上铺垫该地都是Seedance2.0的各种评价，但这次我实打实用下来的感受就是：

如果单说镜头理解能力（包括但不限于画面的一致性、可控性、连贯性），Seedance2.0的表现确实有点超出我的预期。

哪怕用的是很大白话的提示词，也能跑出相当理想的效果，很适合咱用在日常的AIGC视频的画面生成创作中去。

小bug也有，比如像多宫格漫画的剧本输出，模型不见得能1:1还原每个场景画面，此外，音效上可能也偶尔会有出戏的问题。

日常如果用来做一些商业场景、AIGC日常创作而言，已经够用而且好用了，还是很惊喜的～

这不嘛，有网友用完，都直呼好莱坞要完蛋了，看来对模型的表现甚是满意。（doge）

目前，Seedance2.0已经在豆包App和即梦里上线，感兴趣的朋友可以直接上手搓搓看～

（ps：亲测，这两天建议大家在豆包体验，即梦现在生成一个视频要排队好几个小时，没招了…)

本文来源：量子位

*免责声明：文章内容仅供参考，不构成投资建议

*风险提示：股市有风险，入市需谨慎