阿里千问发布其首个完整的具身智能模型矩阵

6月16日，阿里千问发布了具身智能大模型Qwen-Robot系列，这是千问大模型家族首个完整的具身智能模型矩阵。

具身智能被认为是AI从“数字世界对话”走向“物理世界行动”的关键一步。Qwen-Robot系列的发布，是阿里在具身智能领域的一次重要布局。它试图通过统一的模型架构，解决机器人在不同形态、不同场景下的适配难题。

据了解，Qwen-Robot系列的核心目标是弥合语言指令与物理动作之间的鸿沟，让机器人能够理解自然语言、感知三维环境并掌握物理规律。该系列包含三个核心模型，可以理解为给机器人装上了“手”、“脚”和“大脑”。

其中，Qwen-RobotManip是一个VLA（视觉-语言-动作）操作模型，通过规范状态-动作空间和相机坐标系下的末端执行器增量位姿，把视觉语言能力接入操作控制，基于完全由开源数据构建的>38100小时语料库实现了大规模多机型训练。Qwen-RobotNav是一个VLN（视觉-语言-导航）移动模型，通过可控观测编码和工具接口，把视觉语言能力接入移动控制，统一了指令跟随、点/目标导航、目标追踪和自动驾驶四类任务。Qwen-RobotWorld是一个世界模型，通过自然语言动作接口，把视觉语言能力接入世界动态预测，让同一个世界模型能够跨操作、驾驶和导航场景预测符合物理规律的未来。

此外，千问团队还推出了一个内部项目——Qwen-RobotClaw机器人智能体框架，使Qwen VLM 智能体能够将Qwen-Robot Suite 模型作为物理世界工具调用，同时妥善管理长程任务所需的上下文与记忆，推动物理智能走向更通用、更复杂的真实应用场景。