机器人行动之前，先想象后果：星源智ω-EVA与具身世界模型的下一个路口

2026年的具身智能赛道，正站在一个微妙的十字路口。

一方面，资本与舆论的“滤镜”开始回调。随着部分明星企业商业化进程不及预期，市场对炫技式Demo的审美疲劳，逐渐转化为对真实交付能力的冷静审视。

另一方面，一场关乎底层技术路线的认知重构正在悄然发生。具身智能的核心战场，正从本体形态的军备竞赛，不可逆地转向大脑能力的范式对决。

6月12日，第八届北京智源大会在中关村国际创新中心开幕。200余位顶尖学者、40余位AI企业CEO汇聚于此，议题从下一代AI能力到大模型的长期价值，从AI自进化到终端智能体，这些讨论折射出行业正在经历的一场转型——从模型能力的单点突破，向真实任务的系统性落地迈进。

也是在这场顶级学术盛会上，一块被随机打乱的华容道棋盘，反而成了具身智能领域一个少见的现场隐喻。对机器人而言，面对棋盘时，它不仅需要读懂当前局面，还要在每一步移动之前，预判这一步会不会堵死后续路径。而这正是星源智选中的展示载体。

在众多参会者中，星源智以一个相对特殊的身份出现。

这家由北京智源研究院重点孵化、成立仅10个月便完成10亿元人民币融资的公司，没有带来翻跟头或跑酷的“大秀”，而是用一块华容道棋盘，和一套名为ω-EVA的具身交互世界模型，将世界模型直接嵌⼊机器⼈动作⽣成与控制决策过程，打破了世界模型⻓期作为“外部观察者”的⾏业惯例，向行业揭示了一个更深层的技术拐点。

01.

世界模型的“旁观者”困境

要理解ω-EVA的位置，需要先理解世界模型在具身智能领域一直扮演的角色。

过去几年，世界模型在人工智能领域无疑获得了相当高的关注，承载着人类对机器人理解物理规律的终极想象。然而，在具身智能的实际工程落地中，世界模型却长期扮演着一个略显尴尬的“旁观者”角色。

无论是用于生成训练数据、作为离线推演的辅助信号，还是生成一段逼真的未来视频，这些传统路径下的世界模型通常游离于机器人的实时控制链路之外，充当训练辅助工具、离线推演平台或数据生产器，而非直接参与机器人当下这一次的动作决策。

它的核心价值，即理解“我的动作会如何改变世界”，始终无法直接转化为对当前动作的即时反馈。

换句话说，尽管世界模型理解未来，但它产出的理解，机器人在真正出手的那一刻未必用得上。

星源智联合创始人、智源研究院具身交互世界模型研究中心负责人孙振国提出了一个直接的判断：如果世界模型只在训练时发挥作用，其开销与带来的收益之间的比例，其实并不划算。世界模型最擅长的是对未来的预测，如果把这种预测能力真正引入到动作生成的闭环里，而不只是停在表征塑造阶段，它的价值才算被充分发挥。

星源智联合创始人、智源研究院具身交互世界模型研究中心负责人孙振国

这个还没被充分挖掘的接口，正是ω-EVA所要填补的位置。它并不是再造一个更会“预测未来”的模型，而是从根本上重构了世界模型的角色定位，将其从“被动预测器”转变为“主动行动反馈模块”。ω-EVA首次将世界模型作为动作生成过程中的实时反馈模块，引入Proposal→Consequence→Refinement交互闭环。

02.

ω-EVA背后的两条研究线索

ω-EVA的诞生有迹可循。孙振国在大会演讲中回顾了两条关键的前期研究线索。

第一条来自医疗机器人领域。团队在心脏超声导航项目Cardiac Copilot中发现，有经验的超声医生移动探头时，并非凭直觉逐步试探，而是会在脑中形成对动作后果的预判——如果探头这样移动，接下来可能看到什么切面，是否更接近目标视图。

基于这一观察，团队设计了Cardiac Dreamer，即一个能够在隐空间中预测探头移动后心脏切面状态的模型。实验证明，这种“预演—修正”的机制可以有效降低导航误差。这一研究回答的核心问题是：机器人系统能否在行动前，对自身动作可能带来的感知后果进行预判。

第二条来自双臂灵巧操作项目DECO。在这项工作中，团队发现多模态信息的组织方式至关重要。视觉、本体状态、触觉等感知信号不应被简单拼接，而应以不同的结构路径参与动作生成。值得注意的是，触觉模块在整个系统中参数占比很小，却贡献了关键性能提升，这说明“如何组织信息参与决策”这个问题，其重要性不亚于“有多少信息”。

由此看来，第一条线索解决的其实是“如何理解交互后果”，第二条解决的则是“如何组织多模态信息参与决策”，而ω-EVA所做的，是将这两个问题合并进一个统一框架——让机器人在每一次出手之前，先把候选动作“想一遍”，然后再决定是否修正。

03.

ω-EVA的核心逻辑：先构想，再验证，后执行

实际上，ω-EVA的命名本身已经高度凝练了它的技术逻辑。EVA对应Envision（构想）、Verify（验证）、Act（执行），ω来自希腊字母Omega，代表终极与结局，与World Model的W形成视觉孪生，指向“以终为始”的行动生成方式。

具体来说，这套系统将机器人的一次动作决策拆分为三个层次。

首先，策略模型基于当前视觉观察和语言指令，生成一个候选动作提案；随后这个提案被送入以动作为条件的潜在世界模型，在紧凑的隐空间中预演该动作可能带来的未来状态变化；最后，由三分支修正器同时接收当前状态、想象中的未来后果与原始提案，将候选动作重写为最终执行的动作序列。

这一过程的关键在于，ω-EVA在整个推理链路中始终停留在潜在特征空间，不需要将未来状态解码为像素级视频，也不依赖多轮规划搜索。孙振国解释，在星源智看来，显式未来视频生成与动作控制之间存在效率和目标一致性方面的权衡，因此ω-EVA选择在潜在空间中完成后果推理。

ω-EVA选择以动作为条件进行建模，将未来预测与动作生成的目标统一起来，使世界模型的能力可以以最短的链路、最低的计算开销真正作用于当前决策。

这个改变带来的最直接效果，是世界模型角色的转变：它不再只是训练时的外部信号，而是在每一次控制决策中成为“主动反馈模块”。

ω-EVA 总体架构图

04.

四个场景，验证一套可交付的系统能力

技术之外，星源智在现场以四个具身智能场景，完成了从技术模块到交付能力的验证。

而这四个场景能够落地，有一个共同的前提：它们全部实现了端侧部署——所有感知、决策与执行都在机器人本体内完成，不依赖云端算力。

本次智源⼤会期间，刘东在具⾝智能CEO圆桌中解释了端侧部署的现实意义：⼤模型只有真正部署到机器⼈端侧，才能进⼊实时感知、决策与控制链路，转化为可⽤的具⾝智能能⼒。世界模型同样如此：如果只能停留在云端计算、离线推演或训练辅助阶段，就难以对机器⼈当下的动作形成即时反馈。刘东介绍，ω-EVA 是⽬前公开⽅案中速度最快、可在端侧部署的具⾝交互式世界模型，其意义在于让机器⼈⽆需依赖云端，在本体侧完成动作后果预演与实时修正。

华容道互动演示对应空间推理与连续规划。观众可现场打乱棋局，机器人自主理解约束关系并还原，每一步移动都涉及对后续路径的持续推演，直观呈现了ω-EVA“预演—验证—行动”的控制闭环。

流水线智能分拣面向工业场景。机械臂将不同形态物料投入传送带，机器人自主识别运动目标，完成抓取、判断与分类放置，动态目标识别、连续流程判断、跨本体协同被放入同一任务链路，考验的是具身大脑在变化环境中的实时决策能力。

机器狗清洁官端侧运行NavBrain导航能力与RoboBrain Pro具身大脑模型，在开放公共环境中完成垃圾识别、靠近、捡拾与回收的完整流程。目标发现、路径判断、避障与任务状态检查需同时处理，展示了从自主导航到任务执行的协同闭环。

机器人咖啡服务通过智元精灵G2完成，从目标识别到稳定端取、递送咖啡，呈现机器人进入日常服务场景的可能性。精灵G2搭载的是星源智自研算力平台T5，内置NVIDIA Jetson Thor处理器，算力高达2070 TFLOPS，可在本地完成感知、理解、决策和执行的完整闭环，不依赖网络连接。

这四个场景的背后，是星源智所构建的一套“软硬一体”的完整产品栈：RoboBrain Pro具身大脑模型、NavBrain导航系统、ω-EVA交互世界模型，以及面向不同本体形态的T5、N5算力平台和算力背包。软件与硬件协同设计，是星源智得以在多类场景中快速迁移部署的底层条件。

而端侧部署，正是星源智产品栈的独特之处。

05.

不造本体，只做大脑：具身赛道的“卖铲子”逻辑

谈到商业化路径，CEO刘东打了一个直接的比方：星源智是具身时代的“卖铲子的人”。公司自身不做机器人本体，而是向头部本体公司提供具身大脑与算力平台，覆盖国内超过70%的头部具身智能公司，成为英伟达Jetson Thor平台的全球最大出货商。

另一条商业路径面向高价值行业场景。公司已与亦庄机器人达成三年不低于5亿元的订单合作，同时与中力股份推进具身装卸技术的联合验证。

这种“双轮驱动”的商业化路径，既有技术平台的高度，又有场景落地的深度，其核心壁垒在于，它将稀缺的端侧模型优化能力、跨本体算法泛化能力与深刻的行业场景Know-how（如叉车装卸的复杂逻辑）结合在一起，形成了纯粹的本体公司或算法公司都难以短期复制的系统优势。

06.

结语与未来

孙振国在演讲中提出的三点判断，也许是整场大会上对具身世界模型竞争格局最直接的公开表态：世界模型不应该只在训练时预测未来，而应该真正参与动作生成；多模态不是简单增加输入类型，而是让不同感知信号以合适的结构参与决策；具身模型最终应从一次性的预测和动作生成，走向持续感知、想象与修正，并在真实交互反馈中不断校准对物理世界的理解。

这三点判断背后是一个更深的问题：机器人的“智能”，究竟发生在哪个环节？

刘东在采访中的一段话或许提供了一种理解方式。他说，机器人在执行动作时需要以10赫兹甚至30赫兹的频率完成感知—决策—执行的闭环，云端传输的延迟在这个链路里是不可接受的。这不仅是因为带宽，更是因为安全性。

在物理世界里，延迟几秒钟做出的决策，危险可能已经发生。因此，机器人的“思考”必须在机器人本体内部以极低延迟完成。

ω-EVA的设计选择，正是这个约束条件下的工程答案——始终在潜在特征空间内完成推理，不解码视频。未来不是生成给人看的，而是反馈给动作生成过程的。

具身智能的下一场竞争，焦点或许不再只是世界模型能预见多少未来，而是在行动发生的那一刻之前，机器人能不能完成一次足够快、足够有效的内部推演。

然后，做出一个更稳妥的选择。