AI算力的“新战场”！世界模型World Models—全解析（附产业链&标的）

AI下一个战场在物理世界，而世界模型被认为是AI新一轮的制高点。

前几天，总部设在巴黎的世界模型（World Models）公司AMI宣布完成10.3亿美元种子轮融资。成立才3个月，投前估值已达35亿美元，这三组数字，足以颠覆认知。

据悉，AMI是2026年3月, 图灵奖得主、前Meta首席AI科学家，深度学习三巨头之一的Yann LeCun（杨立昆）在巴黎成立的 AMI Labs (Advanced Machine Intelligence)公司。

AMI总部有意设在巴黎，不是硅谷，不是北京。杨立昆明确表态，要将欧洲打造成为中美之外的AI第三极。

此前的2月18日，AI“教母”李飞飞创办的世界模型公司World Labs，也官宣完成10亿美元融资，市场预估投后估值达50亿美元。

作为AI领域两大泰斗---杨立昆与李飞飞，短期内相继押注世界模型、斩获巨额融资。其背后是顶级人物、顶级资本与顶级技术路线的三重联合，押注AI的下一个未来。

世界模型赛道正式爆发，将替代过渡的大语言模型（LLM），成为AI和算力的新战场！

今天我们来研究世界模型。下文从：① 世界模型-基础知识扫盲；② 主要流派&技术指标解析；③ 产业链&代表厂商；④ 总结&挑战，等四个维度来解析。

一、世界模型-基础知识扫盲

1、什么是世界模型

世界模型，英文World Models, 简称WMs，是一种生成式AI模型，是人工智能系统内部构建的对外部环境的抽象认知模型，借助文本、图像、视频和运动数据等输入信息生成视频内容。

旨在通过模拟环境的动态变化和因果规律，帮助智能体，如机器人、自动驾驶汽车等，理解真实世界的动态规律（涵盖物理特性与空间属性）预测未来动作和状态，从而模拟、指导及实施决策规划。

简单来说，世界模型就是给AI装上了一个“人类级别的大脑模拟器”：人类闭眼就能想象“扔球→落地→弹起”“开门→迈步→进门”的完整过程，预判动作的后果；世界模型就是让AI拥有这种能力——不是只会描述文本、生成画面，而是真正理解世界如何运转，在“脑内”预演未来、规划最优动作。

2、特点和能力

(一) 特点

（1）高维压缩（懂归纳）

① 去伪存真：从复杂的视频像素中剔除树叶摆动、光影闪烁等冗余噪声。② 特征提取：将环境精炼为包含关键实体（如人、车、障碍物）的抽象状态。 ③ 认知建模：用最精简的数学向量代表当前世界，为 AI 的逻辑推理和决策提供高效的底层数据。

（2）前向预测（能预判）

① 时空推演：基于“当前状态预定动作”，在脑内自动演算出未来的环境演变。② 多路径预判：能够意识到未来的不确定性，并给出多种可能发生的潜在场景。③ 消除延迟：通过预判未来走向，让 AI 能够克服传感器延迟，实现更具前瞻性的实时反应。

（3）物理常识（守规律）

① 内化法则：自动领悟重力、碰撞、遮挡等物理规律，确保预测结果符合因果逻辑。② 维持恒常：确保物体在运动或被遮挡时，其形状、位置和材质保持连续，不产生逻辑幻觉。③ 物理对齐：让 AI 从单纯的“像素模仿”进化到对物理世界客观真理的本质理解。

（4）内部仿真（可试错）

① 脑内梦境：允许智能体在虚拟的“内部模型”中进行千万次强化学习，无需在现实中付出事故代价。② 长程规划：在行动前先进行全流程沙盘推演，评估不同决策的后果，从而选出安全、最优的执行路径。③ 反事实优化：通过复盘“如果没有这样做会怎样”，让 AI 具备在虚拟思考中快速自我进化迭代的能力。

（二）核心能力

（1）因果推理能力：不只是统计数据间的相关性，而是能判断事件之间的因果关系，能判断“做A会导致B”。它可以区分“先后发生”和“必然导致”，从而做出更可靠的决策与预测。

（2）时空一致能力：在生成长序列（如长视频、自动驾驶长轨迹）时，保持物体结构、光影和物理状态的一致性。在时间和空间上保持场景、物体状态的连续与稳定，不会出现位置突变、时序颠倒。让AI对世界的认知符合人类真实的时空规律。

（3）物理规划模拟：模拟复杂的物理规则仍然是一项极具挑战性的任务，现实世界中的流体运动、物体碰撞等物理现象涉及到大量的参数和变量，具有高度的非线性和不确定性。在模型内部构建3D场景下的重力、碰撞、受力、运动等物理规则，可在脑中预演动作与环境交互的过程。通过模拟规划出合理路径，避免现实中盲目试错。

（4）执行与实时反馈：在真实世界中，获取实时的交互数据面临诸多困难，难以获取足够丰富和多样化的数据。而世界模型通过结合强化学习，可根据感知到的真实环境变化，实时修正模型预测与动作指令。形成“感知—模拟—执行—调整”的闭环，适配动态、不确定的真实场景。

3、为什么需要世界模型

（1）LLM撞上了物理墙

当下的AI大模型，如GPT、豆包大多是感知统计拟合，只能复现数据里的模式，本质上是高级的“词汇接龙”游戏。它们懂“重力”、“碰撞”这些词在文本中的概率分布，但根本不理解这些概念在物理世界中的实际意义。没有对物理规则、因果关系、常识逻辑的内在建模，因此不会规划、不会推理、不会泛化到没见过的场景。

ChatGPT再聪明，也不知道“把球扔出去，它划出的弧线该有多弯”。文字描述物理世界始终是间接的，而机器人、AR眼镜这些硬件需要的是"第一手体感"。普通大模型抓取杯子会训练无数次，一旦换了不同颜色或形状的杯子，就束手无策，抓不稳了。而世界模型可推理、泛化，应对复杂、变化的场景。

（2）具身智能的需求爆发

当前的具身智能体，都需要AI在真实三维空间里做决策。如特斯拉的Optimus机器人、宇树的H1进工厂拧螺丝、开箱、分拣不规则物品不可能把所有物品、姿态和场景都训练上万遍，而是需要建立物理因果模型，能预测“我这样用力，物体会怎么转、怎么滑等问题。

再比如，自动驾驶汽车，需要AI在现实街道上避障运行，建模道路、车辆动力学、行人意图、遮挡推理，预测“如果我不减速，车会撞哪里”，实现决策级安全，而不是只做感知。

世界模型的核心是补齐物理建模、实时推理、泛化能力的短板，其成熟度直接决定产品能否商业化落地。这不仅是技术、更是商业、进化的问题。

（3）突破人类文本数据的枯竭瓶颈

科学家预测，人类留在互联网上的高质量文本数据在未来几年内就会被大模型“吃干榨净”。如果仅仅依赖文本，AI 的智商提升将停滞。

而世界模型的价值在于，真实世界的视觉、听觉和空间交互数据是无限的。世界模型通过观察海量无标注的视频、通过视觉、力觉、触觉等传感器采集真实数据，去自己领悟世界的物理运行规律和逻辑，做出正确的预测和判断。这被认为是通向人类级别智能（AGI）的下一座金矿。

4、与LLM/VLN/VLA的区别

一言以蔽之，LLM：只懂文本，负责“想和说”；

VLN：看图文本，负责“导航指令理解”

VLA：看图文本动作，负责“直接动手”

World Models：懂物理时空因果，负责“脑内模拟、预判未来”。

（1） LLM（Large Language Model，大语言模型）

LLM的核心是文本token预测，语言理解、知识、推理、规划。可以完成写代码、聊天、逻辑推理、任务拆解。是AI的“语言中枢/逻辑中枢”。

但其短板是，没有物理常识、没有空间感、看不见世界，全靠文字脑补。代表：GPT、gemini、Deek Seek、豆包、阿里千问等。

（2）VLN（Vision-Language Navigation，视觉语言导航）

VLN其核心是图文对齐路径导航，是早期具身智能的经典范式。特点是只解决“按指令走到目标点”，不建模完整世界，不做长期物理预测。VLN是VLA的前身，机器人导航专用模块。

VLN输入的是自然语言指令，如输入“走到客厅拿水杯”）视觉图像。可输出导航动作（前进、左转、右转、停止）。代表如 RxR、Env-Emb、DUET、谷歌/斯坦福早期机器人导航模型。

（3） VLA（Vision-Language-Action，视觉-语言-动作模型）

VLA输入的是文本指令图像/视频状态，可输出连续动作、轨迹、关节角、抓握指令。其核心是端到端“看-懂-做”，直接输出机器人关节/控制指令。

其特点是多模态映射，不强调内部建模世界，泛化强，但偏“黑箱响应”，不懂物理因果。是机器人的“反射神经/执行层”。代表有 Google RT-2、Figure Helix、π0.6、银河通用AstraBrain、千寻智能 Spirit V1.5等。

（4）World Models（世界模型）

而世界模型的核心是对环境的时空、物理、因果结构建模未来预测。其特点是内置物理规则、空间结构、时序演化，可“脑内预演”，是真正的认知与决策核心。是机器人的“大脑模拟器/世界认知内核”。

输入的是多模态观测（视觉、雷达、力觉）；输出的是内部状态表征、未来状态预测、规划结果。

下表：世界模型、LLM/VLN/VLA的区别

维度	LLM 大语言模型	VLN 视觉语言导航	VLA 视觉 - 语言 - 动作模型	World Models 世界模型
核心输入	文本	文本单目 / 环视图像	文本视频 / 图像状态	多模态观测时空序列
核心输出	文本 /token	导航动作（左转 / 前进）	机器人动作 / 关节指令 / 轨迹	未来状态、场景预测、规划决策
空间 / 物理	❌ 完全不懂	⚠️ 懂简单空间，不懂物理	✅ 懂空间，弱物理 / 因果	✅✅ 强物理、时空、因果
预测未来	❌ 只能续写文本	❌ 只看当前	❌ 被动响应，不主动预测	✅ 核心能力：预测、模拟、预演
核心能力	语言、知识、推理、规划	图文对齐点到点导航	端到端 “看 - 懂 - 做” 泛化执行	世界建模、因果推理、长时序规划
角色定位	语言与逻辑中枢	专用导航模块（逐步被替代）	执行与动作接口	认知与世界模拟器
典型代表	GPT、Llama 、豆包、DeekSeek	RxR、Env-Emb	RT-2、Figure Helix、千寻 Spirit V1.5	I-JEPA、World Labs、Giga-Brain
落地形态	聊天、代码、文案、规划	室内导航、避障	机器人直接控制、抓取、家务	机器人大脑、自动驾驶、仿真、科学模拟

5、世界模型四大应用场景

（1）自动驾驶--最成熟，最先落地

自动驾驶是当前世界模型商业化成熟度最高的场景，也是唯一实现百万级设备规模化部署的赛道。

传统自动驾驶只会“看路”，不会预判、不会推理，极端场景如暴雨天鬼探头、无保护左转、加塞容易失效，无法适配复杂的开放道路环境，控制精度不足，训练成本极高。

而世界模型可以：① 构建道路4D时空模型，预判车辆/行人5–10秒行为；② 支持虚拟仿真训练，不用海量路测就能练出强泛化能力；③ 实现「传感器输入→世界模型建模→控制指令输出」的端到端闭环，消除模块间的误差传递，大幅提升决策的稳定性与鲁棒性更安全、更像人类开车。

世界模型是高阶自动驾驶（L4/L5）的必选项。代表案例是谷歌的Genie 3、英伟达Cosmos、英国自驾公司Wayve 的GAIA-1 ；另外华为WEWA、蔚来的NWM、商汤“绝影开悟”世界模型等。

下图：深蓝S09搭载的乾崑智驾ADS 4采用全新WEWA世界模型架构：

（2）机器人&具身智能--终极战场，人形机器人必备

机器人是世界模型最具长期价值的场景，也是杨立昆、李飞飞等顶级科学家下场创业的核心目标 —— 世界模型是通用人形机器人从「专用设备」走向「通用智能体」的唯一路径。

传统机器人只会重复动作，环境一变就废，环境适配能力为零；且不会规划；无法理解物体的材质、重量、摩擦系数等物理属性，抓握鸡蛋要么捏碎、要么抓不住，拧瓶盖要么拧不开、要么拧变形，不会精细操作，泛化性极差。

世界模型可以：① 实时3D空间物理建模，懂重量、材质、碰撞；② 支持脑内预演任务（倒水、做饭、收拾），长时序规划；③ 零样本适应新环境，不用重新编程。

代表：李飞飞的World Labs3D空间智能世界模型、LeCun的JEPA系列模型、极佳视界的Giga-Brain、星动纪元的Ctrl-World、智澄AI、流形空间的Manifold AI、无界矩阵Evogen-verse等。

下图：GigaWorld-0-Video-Dreamer世界模型

（3）游戏与AR/VR--C端最快，体验革命

传统游戏与AR/VR内容贵、NPC死板、AR/VR穿模、延迟高易晕。

而世界模型在游戏与虚拟现实中扮演着核心角色。它用于构建虚拟环境的逻辑与物理规则，使玩家能与动态场景互动。通过世界模型，系统可模拟重力、碰撞、光照等真实效果，提升沉浸感。同时，它还支持AI角色的行为决策，推动剧情发展，而且文本一键生成无限开放物理世界，成本大降。

在AR/VR中，世界模型可实现真实物理交互，不穿模、不漂移，增强用户体验的真实性与连贯性。如苹果Vision Pro、Meta Quest、NVIDIA Omniverse等。

（4）科学模拟--最有价值，人类科研加速器

在气象学、流体力学、分子生物学等自然科学领域，传统研究依赖求解极其复杂的偏微分方程，计算成本极其高昂。世界模型通过深度学习系统化地掌握了这些复杂系统的动力学演化规律。它可以直接在数据层面进行 AI 推理，以数万倍的速度替代传统的数值计算，同时保持高度的物理保真度，从而加速科学发现的进程，预测更快、更准，提升100-1000倍。

代表公司： Google DeepMind的气象大模型 GraphCast 能够在一分钟内预测未来 10 天的全球天气；AlphaFold 3 实现了对所有生命分子结构及其相互作用的预测。英伟达的Earth-2 气候数字孪生平台，结合 AI 与物理模拟进行全球气候预测；FourCastNet 天气预测模型。

总之，世界模型让AI拥有“物理常识预判未来脑内模拟”。

落地场景顺序预测：自动驾驶 → 游戏/AR/VR → 工业机器人 → 科学模拟 → 家用人形机器人。如下图：

二、主要流派&技术指标解析

（一）三大主流派系

目前世界模型主要分为三大流派：视频生成流派、JEPA 派、3D 空间智能派。它们在“如何模拟世界”的理念上有着根本的分歧：

1、视频生成流派--OpenAI Sora、谷歌Genie为代表

视频生成应该是目前最具代表性的、也是最为大众所熟悉的世界模型路线。它的目标很直观，就是尝试让AI直接生成一个“能动起来的世界”，并让这个世界随着时间流动、演化、变化。

1）核心思想&代表科学家

核心思想是将世界视为 “一种特殊的语言”，用处理文本的自回归，主要结合了 Diffusion（扩散模型）和 Transformer 架构（如 DiT），将视频帧序列化为视觉 token，像 LLM 预测下一个词一样预测下一帧画面，从海量视频中隐式学习世界的物理规律与时序动态。

视频生成的核心提出与主导科学家：David Ha、Jürgen Schmidhuber（2018 年《World Models》论文作者），Ilya Sutskever（OpenAI 联合创始人，Sora 核心主导者），Google DeepMind Genie 团队。

2）优势与局限性

优点是生成质量极高，内容逼真度高，擅长捕捉复杂时空关联，视觉效果震撼，而且它生成的结果“看得见”。我们肉眼能直接观察世界模型是否具备物理一致性、是否理解时空结构，并且它能快速商业化落地，影视、广告、教育、游戏都能立刻使用。

但局限性同样存在，逼真和高清的画面，训练与推理成本极高；基于数据驱动学习的视频生成不具备可解释性和鲁棒性，被批评为“只是在做像素级的插值拟合”，尚未真正理解物理因果逻辑。

3）案例代表

OpenAI在发布Sora之初，它们就将其定义为一个“世界模拟器”。Sora并不是简单地把一段视频用静态图像一张张“拼出来”，而是让画面里的事物能够随着时间连续地演化。

这些视频细节之所以令人震撼，是因为人们发现，模型似乎开始真的“理解”了事物变化的背后规律，它知道光线在材质上如何变化，知道一个物体在受到外力后该怎样移动。而目前与Sora类似的，还有Google的Genie 3 、字节Seedance、快手Kling等一系列视频生成模型。

下图：谷歌 Genie3 特点

2、JEPA 派：联合嵌入预测架构流派--不追求画面，追求物理逻辑

2025年，当全球AI行业几乎所有的头部公司——OpenAI、Google DeepMind、Anthropic、xAI——都在all in大语言模型。整个行业都在追逐更大的模型，追求Scaling Law、更多的算力、更长的上下文窗口。然后LeCun站出来说：你们全错了，一个人挑战整个行业。

JEPA 派就是Yann LeCun提出来的。

1）核心思想&代表科学家

Yann LeCun，杨立昆，图灵奖得主，前Meta首席科学家。自25年11月离开Meta后，于26年1月创立了Advanced Machine Intelligence Labs，简称AMI，助攻世界模型。

LeCun 认为的世界模型，不是预测下一个词，而是理解物理世界。不是从文本中学习，而是从视频、图像、传感器数据中学习。不是生成语言，而是构建对现实世界的抽象表征。

为此，LeCun提出了一个技术框架：JEPA，全程Joint Embedding Predictive Architecture，联合嵌入预测架构。他认为生成式模型（如 Sora）算力浪费严重且容易产生幻觉（Hallucination）。JEPA 更像人类大脑的运作方式，专注于更高维度的逻辑和常识。

JEPA 派的核心理念---放弃在像素层面生成画面，转而在抽象的特征空间中预测世界的变化。抛弃无关紧要的细节（如树叶的随机摆动），只关注核心变量的变化。

2）优劣势

优势是算力成本低、数据效率高、泛化性强、可更好地捕捉物理逻辑常识，因果推理能力突出；局限性是可视化能力弱，无法直接生成画面，不可解释，复杂场景几何一致性差，且产业落地的直观性不足，当前仍以实验室验证为主。

3、3D 空间智能派--李飞飞World Labs、英伟达 Cosmos

与视频生成相比，3D空间智路线走的是一条截然不同的技术选择，不是把世界画出来，而是把世界建出来。世界是三维的，不应只在二维像素上打转，只有具备了3D空间维度的认知，AI才能真正驱动机器人。

“AI教母”李飞飞创办的World Labs，提出空间智能（Spatial Intelligence）。他们认为，AI必须具备理解物体几何形状、深度和相对位置的能力。他们最近推出的Marble模型已经能从单张图片生成可编辑的3D虚拟世界。

1）核心思想&代表科学家

斯坦福大学教授李飞飞，定位的“空间智能”，认为这是继大语言模型之后AI的下一个前沿。其目标是让人工智能具备生成性、多模态与互动性三大核心能力，从而能根据文本、图像、视频等多模态输入，生成语义、几何、物理一致的可交互3D环境。

真实世界是 3D 的，世界模型必须显式建模 3D 空间结构、物体几何属性、物理引擎规则，而非隐式的像素拟合；通过 NeRF、高斯溅射、神经物理引擎，构建可测量、可操作、可交互的 3D 场景，是机器人、自动驾驶等物理交互场景的最优路线。

其本质上，是将海量的2D视觉数据与先验知识，通过AI模型“升维”为可用于生产的3D资产与场景，核心仍是服务于高质量内容的高效生成。

2）优势与局限性

空间智能的优势是空间精度高、物理一致性强、3D数据天然满足几何一致性，处理交互问题更容易，可直接用于机器人 / 自动驾驶的控制与规划，适配实体产业场景。

局限性是3D 数据稀缺、高质量3D数据主要靠LiDAR、结构光扫描仪等专业设备采集，不仅设备贵，流程还繁琐，标注成本也比2D高出一个量级。

训练与部署的算力成本极高，训练周期长。场景泛化难度大，无论是训练中的3D渲染还是实时物理模拟，计算量都远超2D模型，直接推高了研究门槛。

（二）关键技术指标

（1）FID ：初始化距离

FID是Fréchet Inception Distance（弗雷谢特 inception 距离）。是衡量生成图像与真实图像分布之间差异的指标, 尤其在图像或视频生成任务中广泛应用。

其计算原理：① 使用预训练的Inception网络（如Inception v3）将生成图像和真实图像分别映射到高维特征空间。② 计算两个特征分布的均值和协方差矩阵。③ 通过弗雷谢特距离公式，量化两个分布之间的差异，得到FID分数。

对于世界模型生成的驾驶场景视频或图像，FID值越低，表示生成图像的质量和多样性越接近真实数据, 保真度越高，模型生成能力越强，用于评估世界模型生成的单帧图像质量和多样性。

（2）FVD ：视频距离

FVD是Fréchet Video Distance（弗雷谢特视频距离）的缩写。是FID的视频扩展版本，用于衡量生成视频与真实视频在时空特征上的相似性。评估世界模型生成的视频片段在内容和动态方面与真实视频的匹配程度。

分数越低，表示生成视频与真实视频在视觉外观、运动动态、时间连贯性等方面的差异越小，即生成视频的质量越高、保真度越高。在自动驾驶、视频生成等场景中，FVD常与FID等指标结合使用，全面评估视频生成模型的性能。

（3）帧率（Frame Rate）

指模型生成或预测的视频每秒包含的帧数，通常以赫兹（Hz）为单位表示。决定模型生成视频的时间分辨率。

若世界模型的帧率为30Hz，表示模型每秒生成30帧视频画面；若帧率为60Hz，则每秒生成60帧，画面会更流畅。较高的帧率意味着模型能够更快速、更连续地生成视频内容,且高帧率可提供更平滑的视频，但计算成本更高。

（4）时长

世界模型能够生成或预测的连续视频帧的数量或时间长度，衡量模型的长期预测能力。在相同帧率下，长时预测更难，易出现累积误差和模式崩溃。反映了模型对复杂场景长时间建模和推演的能力。

早期模型可能只能生成几秒的视频，而先进模型已能实现数分钟甚至更长时间的连续生成，如LongVIE-2模型可生成长达5分钟的高保真视频。期间模型需保持场景一致性、物理规律遵循和状态记忆。

（5）一致性

指生成视频在时间维度上的连贯性，包括运动平滑性、物体身份保持、场景逻辑合理等。

真正的通用世界模型，必须同时满足“三重一致性”（Trinity of Consistency），也就是模态一致性、空间一致性和时间一致性。

模态一致性 —— 语义接口：把文本、图像、音频映射到同一个语义空间。你说“红色的猫在蓝色的车上”，模型得把颜色绑对物体，而不是张冠李戴。
空间一致性 —— 几何基石：构建稳定的3D几何认知。同一把椅子从正面看和侧面看，结构不能变形，也不能转个角度就长出第三条腿。
时间一致性—— 因果引擎：遵循物理定律和因果链条。杯子必须先掉落再碎裂，蜡烛必须越烧越短，而不是反过来。

下图：主流世界模型技术指标对比：

三、产业链&代表厂商

世界模型产业链类似于大语言模型。但对算力和多模态数据要求更高，更苛刻。其中，上游为基础设施，核心壁垒最高；中游技术层，为核心模型研发；下游为场景应用。

1、上游：基础设施层--赛道卖水人，壁垒最高

上游是世界模型的算力、数据、工具底座，决定了模型的能力上限，核心分为三大板块：

（1）算力硬件

1）核心技术：为AI 训练芯片、AI 推理芯片、智算集群、超算中心、高速互联网络。
2）代表厂商：

海外：英伟达（H100/H200 GPU）、AMD（MI300 系列）、Google TPU、英特尔 Habana；
国内：华为昇腾 910B/310B、寒武纪思元系列、海光信息深算系列、摩尔线程、沐曦的曦思、壁仞、天数智芯、地平线征程系列、浪潮信息、中科曙光等。

（2）数据服务与仿真平台

1）核心技术：3D 物理仿真引擎，降低模型开发门槛；多模态数据采集与标注、4D 时空数据集、虚实迁移工具，涵盖数据采集、清洗、标注、存储等环节，由专业数据服务商提供高质量训练数据。
2）代表厂商：

① 仿真平台：NVIDIA Omniverse、Unity、Unreal Engine、微软 AirSim、CARLA 自动驾驶仿真平台、华如科技、坤恒顺维等。
② 数据服务与标注：特斯拉、Waymo、百度 Apollo、海天瑞声、标贝科技、智元机器人Genie Studio。

2、中游：核心模型层--技术层

中游是世界模型的技术核心，分为基础模型、开发框架、MaaS 平台三大板块：

（1）基础世界模型

1）通用世界模型：

海外：Meta V-JEPA、OpenAI Sora、Google DeepMind Genie、NVIDIA Cosmos、World Labs Marvel、AMI Labs 通用世界模型。
国内：华为盘古世界模型、百度文心世界模型、腾讯混元世界模型、字节跳动豆包世界模型。

2）专用世界模型：

① 自动驾驶：华为WEWA架构、蔚来的NIO World Model、特斯拉World Simulator、Waymo Driver 世界模型、Momenta R6、商汤的绝影开悟等。
注意区分VLA端到端大模型：理想汽车Mind VLA、小鹏汽车VLA2.0、元戎启行等。

② 机器人：星动纪元Ctrl-World、极佳视界的GigaWorld等。

注意区分VLA具身智能大模型：谷歌的RT-2、Figure AI的HelixPI的π.0.6_模型、银河通用AstroBot、智元Genie Operator-1、星动纪元的Era-42原生、自变量WALL-A、智平方的GOVLA、千寻智能 V1.5、星海图G0等。

（3）MaaS 服务平台

1）核心技术：世界模型 API 服务、私有化部署、定制化训练、场景化解决方案。

2）代表厂商：

① 海外：NVIDIA Omniverse Cloud、AWS Bedrock、Google Vertex AI；

② 国内：华为云 ModelArts、百度智能云千帆平台、腾讯云 TI 平台、阿里云机器学习平台 PAI等。

3、下游：场景应用层

下游是世界模型的商业化出口，未来市场空间最大。

（1）行业垂直应用：涵盖金融（智能风控、智能投顾）、医疗（影像诊断、辅助诊疗）、教育（智能辅导、个性化学习）、制造业（智能制造、质检预测）、交通（自动驾驶、交通管理）等领域。

（2）消费级产品：如AI助手（千问、豆包）、内容创作工具（文生图/视频生成，如Seedance、Veo、Kling）、办公协同等。

四、总结&挑战

总之，世界模型已成为通向通用人工智能（AGI）的核心路径。它改变了传统 AI 仅能处理文本或静态图像的局限，赋予了智能体抽象表征、前向预测、物理常识与内部仿真四大核心能力。

通过将大语言模型（LLM）的逻辑推理与视觉-语言-动作模型（VLA）的执行力相结合，世界模型正驱动着机器人、自动驾驶及短视频创作等领域发生范式革命。

当前，世界模型正处于“从实验室走向早期商业化，从局部视觉模拟走向通用物理规律理解”的突破期。类似于 ChatGPT 在 2022 年底爆发的前夜。

1、挑战

世界模型，当前面临的核心挑战如下：

首先是技术瓶颈，物理建模与长时一致性仍是核心难题。当前世界模型对真实世界物理规律的理解仍较为表面，部分模型仍比较依赖数据驱动的模式识别，难以准确模拟复杂的动态交互过程，生成的动作偶有不符合现实中力学常识等情况，而且画面失真或行为混乱，难以长时间保持稳定和连贯。

其次是成本制约，数据、算力与能耗构成高昂壁垒。训练和运行世界模型需要强大的计算资源和海量高质量物理世界场景数据，成本压力巨大。

最后是应用评估，缺乏统一标准，难以衡量真实能力。现有模型能力评估大多关注生成画面的清晰度或短期预测的准确性，无法有效反映模型对物理规律的理解深度、超长时间运行的稳定性、因果推理能力以及在复杂任务中的规划效能。

2、迭代方向

尽管困难重重，世界模型依然会快速朝着以下方向迭代：

其一，未来世界模型的核心竞争将聚焦于 3D 空间与物理精度，显式建模将成为主流路线，隐式生成式模型将逐步向 3D 方向升级。

其二，从专用场景模型走向跨场景通用世界模型：未来 3-5 年，将出现首个真正意义上的通用世界模型，能够适配机器人、自动驾驶、工业仿真等多个场景，成为下一代 AI 的基础底座。

其三，与强化学习等多方案融合，形成 “世界模型 LLM VLA” 的完整 AGI 闭环。当前的世界模型的主流方案各有有优势和劣势，未来的世界模型，应该是融合空间智能与物理规律嵌入和强化学习的混合架构。打通LLM 负责语言与知识、世界模型负责认知与预测、VLA 负责动作与执行” 的完整闭环，实现 “感知 - 认知 - 预测 - 规划 - 执行” 的全链路自主智能。

总之，世界模型不是 LLM 的补充，而是AI 范式的根本性革命—— 它让 AI 从 “只会在数字世界里说话”，走向 “能够在物理世界里思考、决策与行动”。

作为下一代 AI 的核心底座，世界模型，是通往 AGI 的必经之路。

更是我们AI争夺的下一个高地！