全球唯二、国内首个，阿里万相2.6杀疯！Sora 2瞬间不香了

新智元报道

编辑：艾伦 Aeneas

【新智元导读】就在刚刚，通义万相2.6一发布，就迅速成为业界功能最丰富的视频模型。酷炫新功能比Sora 2还强，成为全球唯二、国内首个角色扮演功能模型。

年底了，国内大厂们卷得越来越激烈。

就在刚刚，阿里万相2.6系列模型上线，一口气推出角色扮演、分镜控制等功能，成为业界功能最丰富的视频模型！

9月，万相2.5的图生视频，就在权威测评集LMArena上位居全国第一。

这次的万相2.6，跟以往有什么不一样？

它针对专业影视创作场景进行了全面升级，是国内首个具备角色扮演的模型！

只要输入特定的人或物的IP形象和声音，它就可以据此生成视频，一致性令人震撼。

看看下面这个视频，你就会明白它将给影视从业者带来多大的加持。

这是用户上传一段个人视频，并输入一段科幻悬疑风格的提示词，万相2.6直出的角色扮演视频。

几分钟就能一键搞定分镜设计、角色演绎、画面配音等环节，人人都能当电影主角的时代来了！

这一次，阿里万相影响的可能不仅仅是专业影视制作产业了，这是一款普通人都能玩的大模型。

万相，再一次大升级

为什么文章开头展示的Case，无论在人物还是人声、音效上，都能生成得如此逼真呢？

这都要归功于万相2.6音画一体的角色扮演功能。

这次万相2.6的是全球唯二、国内首个具备角色扮演功能的模型，在此之前Sora 2曾首创了这一功能，这一功能一度爆火，全球网友都在用山姆·奥特曼的形象来生成视频，各大社交平台涌现了山姆·奥特曼讲东北话、表演才艺等视频。

不过，有一说一，Sora 2整体偏写实风、画面清晰度不尽如人意，要生成更精致、专业的小短片是远远不够的。

而这次万相2.6终于把角色扮演和电影级画面结合起来了，将视频质感提升了一个台阶。

据介绍，通义万相在模型结构上集成了多项创新技术，可对输入参考视频进行多模态联合建模与学习，参考具有时序信息的主体情绪、姿态和多角度全面视觉特征，同时提取音色、语速等声学特征，在生成阶段作为参考条件控制，实现从画面到声音的全感官全维度一致性保持与迁移。

它可以参考输入视频中的外观和音色，将任意人或物作为主角，生成单人表演或双人合拍。

新版本万相的文生视频和图生视频都能支持15s的长视频生成，能非常自然地提升画面的时空内容容量，支持更完整的叙事。

而更强的指令遵循能力，就呈现出了更真实细腻的画面质感。

提示词：

生成一段5秒、16:9、24fps、单镜头一镜到底（no cut）的电影感视频。

场景：雨后傍晚的日式庭院石阶上，有一颗透明玻璃球（直径约8cm）放在湿润的黑色火山石上；背景是虚化的枫叶与柔和灯笼光，色调青绿琥珀，有细腻的体积光、微小雨滴漂浮在空气中，极致干净、静谧、唯美。

严格限制画面元素：只允许出现3个主体：玻璃球、黑色火山石、1只白色纸鹤（折纸质感）；

不要出现人物、动物、额外道具、额外文字或多余物体。

镜头与运动约束：

·镜头：35mm，浅景深，真实电影镜头质感，轻微呼吸感但不抖动

·运动：全程只允许一次非常缓慢的向前推镜（dolly-in），不要变焦（no zoom），不要摇晃，不要切镜头

·光照：雨后地面反光清晰但不过曝，高级、通透、无脏噪点

时间轴指令（必须精确发生）：

·0.0s–1.5s：玻璃球静止，石头表面有细小水珠闪烁；背景枫叶仅轻微摆动（幅度很小）

·1.5s–3.0s：一只白色折纸鹤从画面右侧缓慢飞入，沿着玻璃球前方逆时针绕行半圈（保持优雅、速度稳定）

·在3.0s的瞬间：折纸鹤轻轻停在玻璃球顶部边缘0.5秒（短暂停留要清晰可见）

·3.5s–4.5s：一滴雨水从玻璃球上缘形成并沿球面滑落，折射出背景灯笼的琥珀色光斑（折射要真实）

·在4.5s–5.0s：玻璃球内部出现极淡的发光雕刻文字 “新智元”（必须拼写正确、居中、只有这一段文字），亮起后保持到结束；同时纸鹤缓慢抬起准备离开但不飞出画面

结尾约束：

·5.0s结束时保持同一画面，不要淡出黑屏，不要出现额外转场、字幕、水印或边框。

负面提示词：

低质量，模糊，噪点，抖动，跳帧，卡通风，过饱和，过曝，鬼影，畸变，多镜头切换，变焦，字幕水印，logo，额外文字，人物，动物，额外道具，杂乱背景，廉价塑料质感，错误拼写，文字漂移，文字变形。

值得注意的是，万相2.6也完全可以生成非人像视频，主打的是万物都能主演。

宠物、卡通IP、手办玩偶，甚至任意物体或建筑物，都可以手拿把掐。

比如下面根据参考视频生成的蜡笔小新，模仿得惟妙惟肖，让人怀疑是原片的程度。

例如上传小猫和圣诞老人的视频作为参考，就能生成一段圣诞老人骑着小猫的梦幻画面。

多主体合拍这个功能，也是非常有意思。

你可以上传自己的角色，让它们同处一个数字时空，进行有趣的交互。

关羽撸猫这个场景，瞬间就打破次元壁。

关羽撸猫

智能分镜多镜头公式

这次万相的另一大能力升级就是支持智能分镜！

万相2.6可将用户简单的提示词转换为多分镜脚本，生成包含多个镜头的连贯叙事视频，并且保持多镜头间的主体、场景等关键信息的一致性。

我们设计了三个测试用例，重点评估了万相2.6多镜头切换、逻辑一致性以及电影级美学这三方面的能力。

赛博朋克黑色电影——侧重光影与环境逻辑

在第一个测试中，我们利用复杂的霓虹灯光和雨水环境，测试了模型在镜头切换时对「光源位置」、「地面反射」以及「人物着装细节」的统一建模能力。

这个测试的灵感，来源于《银翼杀手2049》的摄影风格。

其中，镜头调度的要求是特写（脚/倒影） -> 中景（人物状态） -> 大远景（城市环境）。

并且测试对一致性的要求也很高：倒影中的全息广告（Shot 1）必须在远景（Shot 3）中作为实体背景出现；风衣的材质和湿润感在不同景别下必须一致。

可以看到，万相2.6很好地完成了要求，效果惊艳。

提示词：

Cinematic sequence, 3 shots montage. Shot 1: Close-up of a futuristic detective's boots stepping into a rain puddle on a neon-lit street at night. The reflection shows a towering holographic advertisement in blue and pink. Shot 2: The camera tilts up and pulls back to a medium shot. The detective, wearing a weathered brown trench coat and a fedora, stands still. Rain pours down, soaking the coat. The blue and pink neon lights from the background reflect accurately on his wet coat. Shot 3: Wide drone shot, pulling far back and up. The detective is a small figure in the vast, crowded cyberpunk city. The specific blue and pink hologram from Shot 1 is now visible as a massive skyscraper projection. The atmosphere is melancholic and dystopian. High contrast, anamorphic lens, 4k, hyper-realistic.

维多利亚时代的余晖——侧重人物与物体恒定性

在第二个测试中，我们通过室内精致的陈设和人物细腻的动作，测试了模型对「物体相对位置」和「人物面部特征」在不同角度下的稳定性。

对AI的要求是模仿《傲慢与偏见》或《巴里·林登》的自然光摄影。

其中，镜头调度是极特写（手部动作） -> 环绕运镜（侧面肖像） -> 拉镜头（全景布局）。

这次的一致性挑战，难度更加升级了：随着镜头环绕，天鹅绒裙子的光泽变化需符合物理规律；「夕阳」的光源方向在所有镜头中必须保持不变（长影子的方向）。

万相2.6的表现出色，每一帧中的人脸和光影变幻，都非常自然真实。

提示词：

A continuous storytelling sequence in a Victorian library. Camera Movement: The camera starts with an extreme close-up on an elegant woman's hand writing with a quill on parchment paper. Dust motes dance in the golden sunset light streaming through a large window. Transition: The camera seamlessly tracks around her, moving to a profile shot. We see she is wearing a dark green velvet dress with lace collar. She pauses and looks out the window, expression pensive. Final Composition: The camera zooms out to establish the room. The library is filled with floor-to-ceiling bookshelves. The woman sits at the heavy oak desk in the exact center. The lighting remains warm and directional from the window, casting long consistent shadows across the room. Cinematic lighting, 35mm film grain, masterpiece.

星际探索者——侧重空间关系与大动态

最后，我们要求万相2.6挑战了一场宏大叙事的视听盛宴，旨在深度测试模型对「大场景空间构建」的高层语义理解，以及从地表微观细节到星球宏观视角的无缝切换能力。

风格是模仿《星际穿越》或《沙丘》的孤寂而壮丽的史诗质感，更在镜头语言上展现了极高的专业度。

镜头调度及伴随的一致性挑战方面，整段视频采用了一组极具张力的连续运镜：

低角度跟随（Shot 1）：镜头贴地推进，捕捉宇航员步伐与扬起的红沙。
正面主观反射（Shot 2）：镜头无缝切换至正面特写，这是对空间逻辑的极限挑战——宇航员金色面罩上的反射，精准映射了其正前方的真实环境（双月与远古巨石），完美构建了「人向巨石行进」的正确空间关系，而非简单的背景贴图。
上帝视角俯瞰（Shot 3）：镜头最后极速拉升至高空，而在这一宏观视角下，沙地上清晰保留了宇航员刚刚走过的连贯脚印轨迹，完成了对时间连续性与物理逻辑的最高级验证。

万相2.6产出的这一片段，运镜如行云流水，光影与空间逻辑严丝合缝，堪称史诗级运镜，完全到了能上大荧幕的程度。

提示词：

Cinematic sci-fi sequence, IMAX format, Dune style. Global Spatial Logic: A lone astronaut is walking forward across a red desert towards a massive, black Monolith structure in the far distance. The sequence maintains strictly consistent direction of movement. Shot 1 (Low Angle Behind): Camera is positioned low, behind the astronaut's heels. We see the boots kicking up red sand as they walk forward . In the blurry background, the giant Monolith stands on the horizon. Shot 2 (Frontal Reverse Shot): Cut to a medium close-up of the astronaut's face. The camera is now in front of the astronaut, moving backwards at the same speed. The astronaut is walking towards the camera . CRITICAL DETAIL: The golden visor of the helmet reflects the scene behind the camera : specifically, the giant Monolith and two moons are clearly visible in the reflection, growing slightly larger as he approaches. Shot 3 (God's Eye Zoom): The camera rapidly pulls up vertically to a top-down drone view (90 degrees). The astronaut is a small white dot moving forward . Consistency Check: A long, single trail of footprints is visible behind him, showing the path he just walked. The Monolith is visible at the top of the frame, showing the remaining distance. Atmosphere: Epic scale, Hans Zimmer vibe, consistent lighting from the right side.

从视频效果来看，三个视频均通过了一致性挑战，万相2.6是真的强！

万相2.6的提示词公式

要把模型的能力发挥到极致，提示词无疑是最关键的一环。这次万相团队公开了角色扮演和分镜控制的提示词公式。

基于分镜控制提示词公式能精准控制镜头的结构、机位和时间，并且还能在多镜头间保持画面主体、场景、氛围的一致。

比如下面这个多镜头公式，就让我们产出了非常精彩的画面。

提示词：

这个故事以第三人称视角，讲述了一个关于放弃与重拾希望的短剧。

第1个镜头[0-3秒]一个男孩在操场的角落独自坐着，低头望着手中的信纸，随后轻轻叹气，眼神中透露出迷茫。

第2个镜头[3-5秒]硬切转场，固定机位，聚焦于男孩的眼睛，泪光闪烁，带着失落和无助。

第3个镜头[5-10秒]硬切转场，场景转至一间简朴的教室。一个女孩眼神温和而坚定，穿着朴素的衣着，面带温和而坚定的笑容，走到男孩的身边安慰他。

当然，基础的文生视频和图生视频功能，万相2.6当然也是不在话下。

仔细看，视频中的人脸、微表情和语音，都达到了高度同步，连挑眉、微笑都自然如真人。

语调的抑扬顿挫，舞台的肢体语言，还有和观众互动的时机把控，这段视频的喜剧节奏竟然毫无机械感。

可以说，万相2.6直接抓住了单口喜剧的灵魂。

万相2.6，硬刚Sora 2

国庆节期间问世的Sora 2，凭借顶尖的模型性能与实际效果，彻底炒热了视频生成的市场，点燃了创作者和网友的热情，尽管最新的数据显示Sora App的留存率并不理想，但Sora依旧是这个领域的王者。

而这次阿里发布的通义万相2.6，有望挑战这一地位。

万相2.6带来的角色扮演和分镜控制等能力，为影视制作带来了全新的想象空间，曾经需要专业团队协作才能完成的工作，如今一个人、一个灵感、一段提示词，就能启动，人人都能当导演、人人都能当电影主角的时代已经来了！