击败英伟达、伯克利、斯坦福夺冠！中科第五纪发布FAM-1.3，首创「3D世界-动作模型」新范式！

在刚刚结束的CVPR 2026具身智能研讨会（Embodied AI Workshop）上，一场聚焦机器人连续操控能力的ARNOLD挑战赛结果，再次让业内对“少样本学习”与“安全预演”这两大技术方向投去关注。

中科第五纪自研的FAM-1.3具身操作大模型击败了来自英伟达、加州大学伯克利分校、斯坦福大学等全球顶尖团队，夺得冠军。这是该公司继CVPR 2025机器人通用操作大赛后，连续第二年在国际顶级具身智能竞赛中登顶。

更令业界瞩目的，是伴随此次夺冠同步发布的FAM-1.3大模型。

它首次提出“3D世界-动作模型”新范式，不再满足于让机器人“看懂指令、完成动作”，而是要求机器人在动作发生之前，就在三维空间中推演完整操作过程，并主动识别碰撞、误触等安全风险。

此外，作为FAM系列具身大模型的最新成果，FAM-1.3围绕机器人在真实世界中的操作能力进行了全面升级，首次将三维空间结构先验与视频生成深度融合，实现了从离散热力图预测到序列化热力图生成的跨越，并系统性地将具身世界模型安全校验能力引入少样本具身操作框架，为机器人动作提供执行前安全可视校验。

这意味着，FAM-1.3让机器人的操作不仅更智能，而且更安全、更可信。

01.

少样本条件连摘两冠，打破“数据堆砌”逻辑

ARNOLD挑战赛（ARNOLD Challenge）是具身智能领域的国际顶级前沿竞赛，已连续多年在CVPR等计算机视觉顶会期间举办。

该竞赛的主要任务形式为基于自然语言的机器人连续操控任务，如精确调节阀门、按指令清理多变环境等，重点考察机器人在复杂、混乱真实环境中的三种核心能力：复杂3D空间的精准感知与运动控制、多模态语言指令的深度理解与对齐、面向新物体新场景新目标的强大泛化能力。

中科第五纪的FAM-1.3在极低样本设定下展现出巨大优势。据官方评测，在MetaWorld仿真环境中，每任务仅使用5条示范轨迹，FAM-1.3便在7个任务上取得平均89.1%的成功率，超越此前最优方法22个百分点；在RoboCasa厨房操作任务中，每任务仅10条示范，成绩也显著优于Cosmos Policy、3D Diffuser Actor等基线模型。

这次夺冠也印证了一个趋势，具身智能的下一程，不能靠“数据暴力美学”堆砌出的数据驱动路线，而需要能洞悉因果、预判风险的“决策大脑”。这一看法也与近一阶段的行业反思不谋而合，当机器人走进产线、医院、家庭等长尾场景，不可能为每种情况都备齐海量数据，少样本泛化能力才是走向规模化的真正根基。

02.

从“看见二维平面”到“理解三维因果”

目前主流的视觉-语言-动作模型（VLA）大多将操作问题转化为二维图像到动作的映射，但真实操作发生在三维物理空间中，二维视频预测与三维执行之间存在根本性错配。为此，一些研究者提出世界动作模型（WAM），试图预测未来观测来指导动作，但依然局限在二维图像层面，忽略了几何结构信息。

FAM-1.3提出的“3D世界-动作模型”新范式，正是要弥合这种“观测空间”与“执行空间”的鸿沟。其核心创新可归结为三点：

第一，时序三维热力图与多视角视频的联合预测。模型以当前时刻的多视角RGB图像与热力图为条件，联合预测未来多视角RGB视频和热力图序列，后者经反投影还原为三维空间中的连续末端轨迹，实现从视觉感知到连续动作序列的端到端生成。

第二，三维世界模型驱动的动作安全校验。通过同时生成逼真、时序一致的多视角未来视频，可在执行前可视化审阅预测结果，判断即将执行的动作是否存在碰撞等安全隐患，将世界模型的预测能力转化为实际的安全保障工具。

技术升级：时序3D热力图预测连续动作序列生成

而此次升级最大的突破之一，是FAM-1.3首次将三维空间结构先验与视频生成深度融合，实现了从离散热力图预测到序列化热力图生成的跨越，这背后有两大关键技术模块支持：

其一，时序3D热力图预测。与FAM-1仅预测单步关键点热力图不同，FAM-1.3依托视频生成模型对时间维度的天然建模能力，一次性预测未来数十个连续时间步的多视角3D热力图序列。其中每个时间步均包含三个正交视角的热力图，经反投影融合后还原为三维空间中的连续末端轨迹。这一设计使FAM-1.3能够建模操作的完整动态过程，而非孤立的离散位点，从根本上支撑需要连续精细动作的长程、接触丰富型任务。

其二，连续动作序列生成。FAM-1.3在三维空间感知的基础上，实现了更强的连续动作生成。其核心设计包含2个层面：一是位置连续化，通过多步热力图序列反投影，生成三维空间中的连续末端轨迹，每一步均有精确的3D位置目标；二是旋转连续化，模型直接预测每个未来时间步相对于当前帧的旋转变化量，经解码还原为连续旋转角度，无需外部规划器插值。

换句话说，FAM-1.3已经将世界模型的预测能力转化为实际安全保障。通过生成逼真且时序一致的多视角未来视频，该模型可以在机器人真正执行动作之前，对即将发生的操作过程进行可视化审阅，提前判断是否存在碰撞、误触等安全隐患。在执行前识别风险，对于真实场景中的机器人部署而言，这一能力不只是技术提升，更是安全性和可信度的提升。

03.

超少样本条件下，安全性能大幅提升

实验结果进一步验证了FAM-1.3的技术优势。

在MetaWorld仿真环境评测中，仅每任务5条示范轨迹的超少样本条件下，FAM-1.3在7个任务上平均成功率达89.1%，超越此前最优方法22个百分点（包括Track2Act、DreamZero等）。在RoboCasa中，在5个厨房操作任务上，每任务仅10条示范，FAM-1.3显著优于Cosmos Policy与3D Diffuser Actor等基线。

在真实机器人实验中，FAM-1.3同样表现出色。在拾取放置、铲取柔软物体等基础任务，以及不同背景、不同高度、不同光照、未见物体类别等未见过任务中，FAM-1.3平均成功率达到57.1%，超过FAM-1等最强基线16个百分点，相较π0.5平均成功率提升50%以上。

围绕动作安全校验，中科第五纪还开展了140次rollout用户实验。四位评估者基于FAM-1.3生成的多视角未来视频进行执行前安全审阅，显著降低了碰撞等不安全动作的发生频率，验证了世界模型赋能的安全部署价值。

04.

结语

近年来，具身智能模型在人形机器人、移动操作臂等硬件上取得了快速进展，但行业正面临一道分水岭，单纯的“能执行”已经是及格线，“能预见风险”才会成为护城河。当机器人从实验室走入真实产线与物流干线，安全问题、容错能力、对意外情况的可解释性，已成为比绝对成功率更硬的部署门槛。

中科第五纪FAM-1.3的发布，恰好击中了这一产业痛点。它不仅打通了从离散关键点预测到连续动作序列生成的完整通路，还开创性地让模型在动作发生前完成一次安全推演，令机器人的每一次操作都带有“预验证”属性。这种能力对工业产线中的人机协作、物流分拣中的动态避障、以及精密装配中的力控安全等场景，都具有直接的工程意义。

据悉，中科第五纪已计划将FAM系列大模型进一步与自研世界模型深度融合，持续提升机器人在复杂动态环境下的感知、决策与操作能力。在具身智能从演示走向部署的关键时期，让机器人学会“三思而后行”，或许正是行业迈向真正可信应用的新起点。