扫码体验VIP
网站公告:为了给家人们提供更好的用户体验和服务,股票复盘网V3.0正式上线,新版侧重股市情报和股票资讯,而旧版的复盘工具(连板梯队、热点解读、市场情绪、主线题材、复盘啦、龙虎榜、人气榜等功能)将全部移至VIP复盘网,VIP复盘网是目前市面上最专业的每日涨停复盘工具龙头复盘神器股票复盘工具复盘啦官网复盘盒子股票复盘软件复盘宝,持续上新功能,目前已经上新至V6.5.7版本,请家人们移步至VIP复盘网 / vip.fupanwang.com

扫码VIP小程序
返回 当前位置: 首页 热点财经 击败英伟达、伯克利、斯坦福夺冠!中科第五纪发布FAM-1.3,首创「3D世界-动作模型」新范式!

股市情报:上述文章报告出品方/作者:机器人大讲堂 ;仅供参考,投资者应独立决策并承担投资风险。

击败英伟达、伯克利、斯坦福夺冠!中科第五纪发布FAM-1.3,首创「3D世界-动作模型」新范式!

时间:2026-07-04 11:55
上述文章报告出品方/作者:机器人大讲堂 ;仅供参考,投资者应独立决策并承担投资风险。
在刚刚结束的CVPR 2026具身智能研讨会(Embodied AI Workshop)上,一场聚焦机器人连续操控能力的ARNOLD挑战赛结果,再次让业内对“少样本学习”与“安全预演”这两大技术方向投去关注。


中科第五纪自研的FAM-1.3具身操作大模型击败了来自英伟达、加州大学伯克利分校、斯坦福大学等全球顶尖团队,夺得冠军。这是该公司继CVPR 2025机器人通用操作大赛后,连续第二年在国际顶级具身智能竞赛中登顶。



更令业界瞩目的,是伴随此次夺冠同步发布的FAM-1.3大模型。


它首次提出“3D世界-动作模型”新范式,不再满足于让机器人“看懂指令、完成动作”,而是要求机器人在动作发生之前,就在三维空间中推演完整操作过程,并主动识别碰撞、误触等安全风险。


此外,作为FAM系列具身大模型的最新成果,FAM-1.3围绕机器人在真实世界中的操作能力进行了全面升级,首次将三维空间结构先验与视频生成深度融合,实现了从离散热力图预测到序列化热力图生成的跨越,并系统性地将具身世界模型安全校验能力引入少样本具身操作框架,为机器人动作提供执行前安全可视校验。


这意味着,FAM-1.3让机器人的操作不仅更智能,而且更安全、更可信。


01.

少样本条件连摘两冠,打破“数据堆砌”逻辑


ARNOLD挑战赛(ARNOLD Challenge)是具身智能领域的国际顶级前沿竞赛,已连续多年在CVPR等计算机视觉顶会期间举办。


该竞赛的主要任务形式为基于自然语言的机器人连续操控任务,如精确调节阀门、按指令清理多变环境等,重点考察机器人在复杂、混乱真实环境中的三种核心能力:复杂3D空间的精准感知与运动控制、多模态语言指令的深度理解与对齐、面向新物体新场景新目标的强大泛化能力。


中科第五纪的FAM-1.3在极低样本设定下展现出巨大优势。据官方评测,在MetaWorld仿真环境中,每任务仅使用5条示范轨迹,FAM-1.3便在7个任务上取得平均89.1%的成功率,超越此前最优方法22个百分点;在RoboCasa厨房操作任务中,每任务仅10条示范,成绩也显著优于Cosmos Policy、3D Diffuser Actor等基线模型。


这次夺冠也印证了一个趋势,具身智能的下一程,不能靠“数据暴力美学”堆砌出的数据驱动路线,而需要能洞悉因果、预判风险的“决策大脑”。这一看法也与近一阶段的行业反思不谋而合,当机器人走进产线、医院、家庭等长尾场景,不可能为每种情况都备齐海量数据少样本泛化能力才是走向规模化的真正根基


02.

从“看见二维平面”到“理解三维因果”


目前主流的视觉-语言-动作模型(VLA)大多将操作问题转化为二维图像到动作的映射,但真实操作发生在三维物理空间中,二维视频预测与三维执行之间存在根本性错配。为此,一些研究者提出世界动作模型(WAM),试图预测未来观测来指导动作,但依然局限在二维图像层面,忽略了几何结构信息。


FAM-1.3提出的“3D世界-动作模型”新范式,正是要弥合这种“观测空间”与“执行空间”的鸿沟。其核心创新可归结为三点:


第一,时序三维热力图与多视角视频的联合预测。模型以当前时刻的多视角RGB图像与热力图为条件,联合预测未来多视角RGB视频和热力图序列,后者经反投影还原为三维空间中的连续末端轨迹,实现从视觉感知到连续动作序列的端到端生成。


第二,三维世界模型驱动的动作安全校验。通过同时生成逼真、时序一致的多视角未来视频,可在执行前可视化审阅预测结果,判断即将执行的动作是否存在碰撞等安全隐患,将世界模型的预测能力转化为实际的安全保障工具。



技术升级:时序3D热力图预测 连续动作序列生成


而此次升级最大的突破之一,是FAM-1.3首次将三维空间结构先验与视频生成深度融合,实现了从离散热力图预测到序列化热力图生成的跨越,这背后有两大关键技术模块支持:


其一,时序3D热力图预测。与FAM-1仅预测单步关键点热力图不同,FAM-1.3依托视频生成模型对时间维度的天然建模能力,一次性预测未来数十个连续时间步的多视角3D热力图序列。其中每个时间步均包含三个正交视角的热力图,经反投影融合后还原为三维空间中的连续末端轨迹。这一设计使FAM-1.3能够建模操作的完整动态过程,而非孤立的离散位点,从根本上支撑需要连续精细动作的长程、接触丰富型任务。


其二,连续动作序列生成。FAM-1.3在三维空间感知的基础上,实现了更强的连续动作生成。其核心设计包含2个层面:一是位置连续化,通过多步热力图序列反投影,生成三维空间中的连续末端轨迹,每一步均有精确的3D位置目标;二是旋转连续化,模型直接预测每个未来时间步相对于当前帧的旋转变化量,经解码还原为连续旋转角度,无需外部规划器插值。


换句话说,FAM-1.3已经将世界模型的预测能力转化为实际安全保障。通过生成逼真且时序一致的多视角未来视频,该模型可以在机器人真正执行动作之前,对即将发生的操作过程进行可视化审阅,提前判断是否存在碰撞、误触等安全隐患。在执行前识别风险,对于真实场景中的机器人部署而言,这一能力不只是技术提升,更是安全性和可信度的提升。


03.

超少样本条件下,安全性能大幅提升


实验结果进一步验证了FAM-1.3的技术优势。


在MetaWorld仿真环境评测中,仅每任务5条示范轨迹的超少样本条件下,FAM-1.3在7个任务上平均成功率达89.1%,超越此前最优方法22个百分点(包括Track2Act、DreamZero等)。在RoboCasa中,在5个厨房操作任务上,每任务仅10条示范,FAM-1.3显著优于Cosmos Policy与3D Diffuser Actor等基线。


在真实机器人实验中,FAM-1.3同样表现出色。在拾取放置、铲取柔软物体等基础任务,以及不同背景、不同高度、不同光照、未见物体类别等未见过任务中,FAM-1.3平均成功率达到57.1%,超过FAM-1等最强基线16个百分点,相较π0.5平均成功率提升50%以上。


围绕动作安全校验,中科第五纪还开展了140次rollout用户实验。四位评估者基于FAM-1.3生成的多视角未来视频进行执行前安全审阅,显著降低了碰撞等不安全动作的发生频率,验证了世界模型赋能的安全部署价值。


04.

结语


近年来,具身智能模型在人形机器人、移动操作臂等硬件上取得了快速进展,但行业正面临一道分水岭,单纯的“能执行”已经是及格线,“能预见风险”才会成为护城河。当机器人从实验室走入真实产线与物流干线,安全问题、容错能力、对意外情况的可解释性,已成为比绝对成功率更硬的部署门槛。


中科第五纪FAM-1.3的发布,恰好击中了这一产业痛点。它不仅打通了从离散关键点预测到连续动作序列生成的完整通路,还开创性地让模型在动作发生前完成一次安全推演,令机器人的每一次操作都带有“预验证”属性。这种能力对工业产线中的人机协作、物流分拣中的动态避障、以及精密装配中的力控安全等场景,都具有直接的工程意义。


据悉,中科第五纪已计划将FAM系列大模型进一步与自研世界模型深度融合,持续提升机器人在复杂动态环境下的感知、决策与操作能力。在具身智能从演示走向部署的关键时期,让机器人学会“三思而后行”,或许正是行业迈向真正可信应用的新起点。


股票复盘网
当前版本:V3.0