6月16日,阿里千问发布了具身智能大模型Qwen-Robot系列,这是千问大模型家族首个完整的具身智能模型矩阵。

具身智能被认为是AI从“数字世界对话”走向“物理世界行动”的关键一步。Qwen-Robot系列的发布,是阿里在具身智能领域的一次重要布局。它试图通过统一的模型架构,解决机器人在不同形态、不同场景下的适配难题。
据了解,Qwen-Robot系列的核心目标是弥合语言指令与物理动作之间的鸿沟,让机器人能够理解自然语言、感知三维环境并掌握物理规律。该系列包含三个核心模型,可以理解为给机器人装上了“手”、“脚”和“大脑”。
其中,Qwen-RobotManip是一个VLA(视觉-语言-动作)操作模型,通过规范状态-动作空间和相机坐标系下的末端执行器增量位姿,把视觉语言能力接入操作控制,基于完全由开源数据构建的>38100小时语料库实现了大规模多机型训练。Qwen-RobotNav是一个VLN(视觉-语言-导航)移动模型,通过可控观测编码和工具接口,把视觉语言能力接入移动控制,统一了指令跟随、点/目标导航、目标追踪和自动驾驶四类任务。Qwen-RobotWorld是一个世界模型,通过自然语言动作接口,把视觉语言能力接入世界动态预测,让同一个世界模型能够跨操作、驾驶和导航场景预测符合物理规律的未来。
此外,千问团队还推出了一个内部项目——Qwen-RobotClaw机器人智能体框架,使Qwen VLM 智能体能够将Qwen-Robot Suite 模型作为物理世界工具调用,同时妥善管理长程任务所需的上下文与记忆,推动物理智能走向更通用、更复杂的真实应用场景。


VIP复盘网