十年前,当一台名为“欢乐送”的配送机器人驶入餐厅的喧嚣过道,商用服务机器人时代悄然开启。十年后,超过13万台的普渡机器人在全球80余个国家的餐饮、酒店、工业、仓储等千行百业落地部署,每年累计产出逾3650万小时的真实导航数据与1580万小时的真实操作数据。这一数字,是当前公开最大机器人操作数据集的58倍。
在普渡机器人的战略图景中,不只有过去十年在商用服务机器人领域积累的领先产品矩阵与市场份额,在技术层面,一场关乎机器人大脑认知架构的深层创新,正在成为影响具身智能商业化的关键所在。
近日,普渡正式对外发布两项核心具身技术:具身智能基座大模型PuduFM 1.0与通用具身智能体平台PuduAgent。前者是以“物理直觉”重塑机器世界认知的认知内核,后者则是为物理世界提供统一智能底座的系统性架构,二者共同支撑起“一脑多形”的多形态机器人具身智能技术架构的实现。
如果说PuduFM是拥有物理直觉的“脑”,PuduAgent则是承载并调度这一大脑能力的“体”,最终有了脑体组合自然涌现的“一脑多形”终极能力。普渡用实际行动回答了一个行业性的根本命题:当机器人从单一场景的专用执行工具,迈向跨场景、跨形态的通用物理智能体,这条通往“通用物理智能”的道路,到底该怎么走?
机器人大讲堂认为,这并非纯粹的技术叙事,它本质上是一家拥有全球最多商用机器人部署网络的公司,将十年积累的真实世界数据资产、场景理解深度和系统工程能力,转化为下一个十年不可复制的核心壁垒。
01.
普渡为什么要做一脑多形?
想象这样一个场景:一家酒店的行政酒廊里,一台配送机器人正承载着一杯刚做好的拿铁,平稳地滑向餐桌旁的客人。途中,一个小朋友突然从沙发上跳下来,从机器人侧面跑过。机器人轻微减速,优雅地绕过了孩子。
就在这时,托盘上的咖啡杯因为惯性倾斜。一个人类服务员会瞬间意识到危险,杯子再斜一点,咖啡就会洒出来。但机器人“看不见”这个风险。它只知道导航路径上出现了一个障碍物,已经成功避开,任务继续。几秒钟后,杯子滑落,咖啡洒了一地。
这是当前绝大多数机器人的真实写照,它们能看见障碍物,却看不懂“倾斜”意味着什么;它们能规划路径,却无法预判下一秒会发生什么。机器人需要的不只是“看得见”,还需要“看得懂”。看得懂杯子倾斜会洒、看得懂湿滑地面要减速、看得懂一堆歪箱子要从最上面开始拿,这些在人类看来是常识的东西,对机器人来说是一座难以逾越的大山。
把时间拨回2017年。北京一家海底捞门店里,普渡初代送餐机器人“欢乐送”装载着两盘毛肚,穿过坐满食客的狭窄过道。“那时候我们最怕的不是技术故障,而是它在高峰期的过道里卡住,服务员手忙脚乱,顾客举着手机拍。”一位普渡工作人员回忆。普渡早早认识到:真实世界的复杂性,远超实验室的想象。高峰期的人流密度、突然出现的餐车、地上的油渍、小孩的跑动,这些不是标准数据集里的干净样本,而是每天都在发生的真实混乱。
十年里,普渡积累的不只是数据,而是一种本能。这种在复杂场景中“练”出来的能力,后来成了普渡最核心的技术基因。
2026年,普渡交出了自己的答卷:具身智能大模型PuduFM 1.0和通用具身智能体平台PuduAgent。这组名字背后,是一个名为“一脑多形”的通用具身智能技术架构。简单来说,就是将一个能理解物理世界的“通用大脑”,装在不同形态的机器人身上,让它们共享认知、协同工作、持续进化。

一脑多形的诞生源自普渡成熟的商业落地能力,十年里,普渡把机器人卖到了全球80多个国家和地区的成百上千个行业。但问题也随之而来:当产品矩阵越来越丰富,如何使研发更加高效?
2024年,普渡在行业内率先完成了配送、清洁、工业、通用具身智能全品类、多形态产品矩阵的搭建。普渡清楚的认识到,如果每个产品都要单独训练一个大脑,研发资源会被无限稀释,各个产品线的数据也无法共享,最终陷入‘一机一模’的陷阱。
这个“陷阱”,其实是整个行业的缩影。一个由三大断层构成的“认知牢笼”,它们分别对应着机器人在时间维度、架构维度和认知维度上的根本性局限。
1. 首先是超长程任务中的目标漂移与时间维度的失效问题。现实商业场景中的机器人任务,绝非孤立、短促的“分钟级”动作序列,而是由多阶段决策、动态环境变迁及人机交互共同编织的“小时级”超长程任务链条。一台酒店配送机器人从接单到送物,期间需穿越电梯、规避动态行人、精准定位目标房门,每一步微小偏差的积累都可能导致任务彻底偏离初始目标。
然而,当前主流机器人系统的决策窗口,普遍被限制在狭窄的分钟级时间尺度。根据普渡在真实部署中积累的数据,在执行30分钟以上的连续任务时,传统系统的失败率可高达40%,且随着时间延长呈指数级上升。其根本症结在于,系统缺乏长期记忆与目标纠偏机制。AI Agent的“思维链”式任务分解,在静态问答中表现尚可,但面对真实物理世界环环相扣的复杂依赖关系时,暴露出结构性脆弱。简单来说,它往往顾此失彼,无法在时间维度上维持连贯的任务表征。
2. 其次是周而复始的“重造轮子”与架构维度的失序。导航、操作、交互这三大核心能力虽已各自形成一定的技术模块,但在行业实践中,它们长期缺乏统一的抽象定义与调度接口。这意味着,每一个新项目、每一次场景变更,都需要大量的定制化开发来进行能力串联与适配。看似简单的场景迁移,比如餐厅送餐到酒店配送仍需深入底层算法进行调整,不同项目之间积累的Skill难以复用,知识经验在不同构型机器人之间近乎为零的可迁移性。
这导致了非底层算法专家几乎无法参与机器人应用开发,开发门槛居高不下,而每一次“重新造轮子”都在消耗本应投入到前沿创新的研发资源。以工业AMR的部署为例,传统工业AMR需要现场勘测、建图、调试,整个流程下来至少要几个月。这种架构维度的失序,使得本应蓬勃生长的应用生态始终未能出现。
3. 第三点则是物理直觉的集体空白与认知维度的盲区。AI Agent在数字世界表现卓越,它们理解语言、生成代码、分析报表,但当它们尝试进入物理世界时,立即遭遇根本性的障碍,能力类型的不匹配。现有Agent主要基于语言与符号系统,擅长任务理解与信息处理,却对物理过程的建模能力严重缺失。
以机器人“拿起一个倾斜的杯子”这个看似简单的动作为例,语言模型可以生成完美的任务序列,但实际的物理执行涉及抓取位置选择、力度控制、姿态调整、接触稳定性预判等多重物理约束。机器人看得见物体,却看不懂物理因果;动得了关节,却算不准接触后果。 也就是现有范式尚未建立对三维环境结构的认知,无法理解‘可达性’、‘可操作性’等物理约束关系,更不理解接触物体会带来怎样的状态变化,让机器人在真实世界的每一次动作都难以预测,而在真实场景中,每一次试错都可能意味着设备损坏甚至安全隐患。
这三重困境共同指向一个根源:机器人行业缺少一个能整合感知、预判物理、在时间维度上维持目标一致性、并跨形态共享的统一认知系统。 “现实环境和任务差异,不同机器人,多套大脑,多个数据库。这不是具身智能,而是数字时代的巴别塔。”这个认知,成了普渡下决心推倒重来的导火索。
02.
“一脑多形”如何驾驭千形百态的机器人?
针对上述结构性困局,普渡提出了“一脑多形”技术战略——让不同形态(专用、类人形、人形)、不同品类(配送、清洁、工业、通用具身智能)的机器人,共享一套统一的、基于Transformer架构的端到端底层模型与软件架构,实现“一个模型解决所有问题”。这种数据驱动的端到端算法,使得在配送场景中积累的核心能力,能够高效迁移并适配至清洁、工业等新领域,只需少量针对性训练,即可实现新产品的快速开发与体验的一致性。
这一战略将产品矩阵从垂类限制中解放出来。从配送机器人欢乐送、贝拉系列,到清洁机器人CC1、MT1系列,再到工业配送T系列、机器狗D5和半人形机器人,这些形态各异的产品背后,共享的是同一套技术底座。移动、操作、交互三大核心能力在统一架构下实现了前所未有的深度融合:移动维度,从自研激光SLAM与VSLAM融合算法,到率先引入VLA WM的导航算法,普渡完成了从模块化到数据驱动的范式跃迁;操作维度,从带机械臂的配送机器人,到为海外酒店场景研发的类人形机器人闪电匣Arm,再到人形机器人D9,操作边界不断拓展;交互维度,从贝拉开创性的触摸与表情交互,到如今基于大模型实现的自然语言交互,机器人正变得既有“IQ”又有“EQ”。
更重要的是,这套架构天然内置了数据驱动的正向循环:部署规模越大,采集的真实场景数据越多;数据量越大,模型越智能;模型越智能,产品越好用,进而带动更大规模的部署。知识与能力在不同机器人形态之间持续流转、复用和进化。
03.
PuduFM如何赋予机器人AI大脑
那么,这个大脑究竟该怎么做?2019年,普渡在深圳宝安机场做配送试点。一个现象让工程师们很困惑:机器人经过一段反光强烈的玻璃幕墙时,会突然减速甚至停下来。“它以为自己看到了障碍物,其实是玻璃反射了自己的影子。”带队的工程师回忆,“在数以万计的酒店、餐厅场景里,机器人会遇到各种各样‘我认不出这是什么’的时刻。这对商用落地是致命的。”如果机器人只能用传统的“匹配”的方式处理环境信息,它永远无法应对所有未知场景,因为它缺乏“理解”的能力。
这正是PuduFM要解决的核心问题,从“匹配”到“理解”,从“看见”到“预见”。它是第一个真正以物理直觉为驱动核心的具身智能基座模型。其本质,是大脑从“感知智能”到“认知与物理智能”的范式跃迁。
当前业界在具身智能大模型领域的探索,大多陷入一个结构性误区,要么将世界模型与VLA模型简单拼接,利用世界模型输出中间轨迹或状态价值来指导VLA执行;要么试图用一个庞大臃肿的端到端模型覆盖全部功能。前者丢弃了大量隐式表达的物理信息,认知与执行之间存在不可弥合的信息断层;后者则因计算冗余而难以保证实时控制所需的轻量级响应。
PuduFM 1.0的选择,是构建一套业内首创的轻量级物理直觉驱动基座模型,由两大核心模块在神经层级实现表征协同:物理直觉模型(Physical Intuition Model,PIM) 与 视觉-语言-动作模型(Vision-Language-Action,VLA) 。这是认知层与执行层的深度对齐。如果说PIM是系统的“物理预言家”,VLA便是系统的“多模态躯干”。

(1)物理直觉模型(PIM) 如何运转?
PIM的根本使命,是赋予机器人“预见未来”的能力,它采用因果注意力Transformer(Causal-Attention Transformer) 架构,通过在编码器中融入槽注意力(Slot Attention)与图神经网络(Graph Neural Network,GNN),PIM能够聚焦场景中的关键物体,并显式建模物体之间的物理交互关系,例如桌面对杯子的支撑力、夹爪对物体的摩擦力、物体形变导致的重心偏移。
为什么物理直觉如此关键?因为它让机器人不再是简单模仿训练数据的“复读机”。这种直觉不是在像素空间中的随机猜测,而是在潜空间中习得的动力学规律,隐性地包含了对空间结构、物理定律的深刻理解。当模型能够基于当前状态与拟执行动作,精准预测下一秒物理世界会如何变化,它就具备了牵引动作执行的智能体能力。这种对物理因果的理解,正是突破泛化瓶颈的关键。面对从未见过的物体形态,只要理解其物理属性,就能预判交互后果。
回到文章开头的酒店行政酒廊场景里,当小朋友跑过导致咖啡杯倾斜时,新的机器人不会只在“检测到杯子掉落后”报警,而是在“杯子倾斜”的那个瞬间,就预判到了风险,并自动调整姿态稳定托盘。
这里有一个关键的技术判断:PIM坚决摒弃了当前业界许多方案直接复制World Model的像素级未来预测,即试图生成下一帧的每一个RGB值。这在普渡看来不仅是对算力的巨大浪费,更是对控制任务的无关信息过载。
PIM转而进行稀疏状态预测,在技术层面实现了三大核心突破:其一,算力效能优化,通过规避逐像素冗余计算,大幅降低端侧算力负担,支撑更高频次的实时推理,确保系统响应的敏捷性;其二,控制导向对齐,因为其预测的是状态表征而非视觉像素,与控制决策直接相关,避免看得清却控不准的脱节;其三,认知本质提取。通过在潜空间内剥离视觉纹理等表象干扰,精准捕捉物理动力学本质,使预测机制真正服务于高层决策逻辑。
更重要的是,PIM不仅是“预言家”,更是“评估师”。它输出的优势评估值,实时指导VLA生成最优动作轨迹。当预测模型识别到预设路径存在碰撞冲突或失稳滑脱风险时,系统将主动触发策略修正,驱动VLA择优选取物理鲁棒性更高、更符合动力学约束的动作方案,从而确保作业执行的高效性与绝对安全性。
(2)视觉-语言-动作模型(VLA)如何运转?
如果说PIM解决了“物理认知”问题,VLA则要解决“模态对齐”问题。当前主流VLA架构存在一个结构性缺陷:语言、视觉、动作三大模态在独立的特征空间中处理,导致机器人在推理时出现“模态错位”。简单来说,大多机器人理解指令时停留在语义抽象层,感知环境时局限于像素特征层,执行动作时又落入低维控制层,三者难以形成统一的物理决策流。

PuduFM 1.0的VLA模块首次实现了三大模态在统一特征空间内的深度对齐。其技术实现通过分层注入机制和渐进式融合机制,让语言-视觉-动作在统一的潜空间中实现深度对齐,确保了高层语义意图能够无损地转化为底层动力学指令,使机器人在复杂交互中具备感知即语义、语义即执行的全局一致性。具体而言,其信息流动呈现为三个层次:
第一层,物理直觉引导。作为执行层的核心约束,PIM将物理直觉未来特征与价值评估转化为高维先验知识。通过分层注入机制,这些物理先验深度融入VLA的决策流,为动作生成提供底层的物理合理性约束,确保每一个动作指令均符合动力学逻辑。
第二层,语言-视觉的层级编码。视觉语言模型对视觉、语言及机器人状态输入进行多尺度编码:低层特征捕捉纹理与几何细节,高层特征提取任务语义与意图理解。更具突破性的是,该模型建立了统一的注意力表征空间,通过交叉注意力机制,模型将PIM的输出作为关键特征向量,与视觉、语言特征深度融合。这一机制确保模型生成输出特征时,能够协同整合物理先验与实时感知信息,显著提升决策鲁棒性与物理一致性。
第三层,动作的渐进生成。视觉语言模型的输出特征通过渐进式融合逐步融合到动作生成模型中。带有噪声的动作经历一个从粗到细的去噪过程:高层语义特征先确立动作的意图框架。例如“要抓取杯子”,低层视觉特征再精化末端执行器轨迹,如“在杯体中部闭合”,物理直觉特征则持续监督动作的物理可行性。例如“夹持力度需超过滑脱阈值”。在训练阶段,系统保留离散的动作输出,用于约束多模态潜空间的一致性。
这种“语义定方向、视觉精细节、物理守约束”的层级化信息流动,使生成的动作不再是模态间的生硬拼接,而是在统一潜空间中涌现的合理决策。机器人真正实现了看懂场景上下文、理解任务意图、生成符合物理直觉的流畅动作。
设想一个场景:在一家酒店里,你对一台普渡机器人说:“帮我倒一杯温水,不加冰。”这个过程背后,是复杂的信息协同。需要语言模块理解“温水”、“不加冰”的含义,并转化为任务目标;视觉模块扫描场景,从背景中精准识别饮水机、一次性杯子、温水按钮,并感知杯子当前的状态;物理直觉模块在倒水过程中,实时预判水流速度、杯子重心变化,预防溢出。动作模块将以上所有分析结果,转化为从路径规划到机械臂操作的流畅动作序列。这就是“感知即语义,语义即执行”的全局一致性体验。
PuduFM这种“语义定方向、视觉精细节、物理守约束”的层级化信息流动,使生成的动作不再是模态间的生硬拼接,而是在统一潜空间中涌现的合理决策。更为根本的意义在于,这套架构彻底打通了导航与操作的认知壁垒。无论是穿越长廊的路径规划,还是抓取异形包裹的力控执行,背后运行的是同一套物理规律。最终,PIM输出的稀疏未来预测,为长达数小时的导航任务提供前瞻视野;VLA则在此基础上,统一输出底盘移动与末端操作的融合控制量,让普渡的机器人“走到哪”与“怎么做”实现无缝衔接。这也是其各类型机器人持续进化的底座。
这套架构将成为一脑多形的核心AI大脑。因为PIM与VLA的协同机制具备对异构本体的泛化能力,无论是配送、清洁、工业还是具身智能机器人,不同构型不再是模型能力的边界,而是同一大脑在不同物理载体上的具身投射。所有机器人在真实场景中产生的海量交互数据,将汇聚至统一架构下形成正向循环:数据协同反哺模型进化,模型进化赋能更多形态,最终实现一脑多形的规模化落地。
04.
PuduAgent:为物理世界构建通用智能体平台
如果说PuduFM 1.0回答的是“机器人如何理解物理世界”这一认知层面的问题,那么PuduAgent要回答的,则是“如何让这种理解力在真实商业场景中规模化释放”这一系统工程层面的命题。如果说PuduFM是认知内核,那么PuduAgent就是将认知能力系统化输出、面向物理世界执行复杂任务的完整运行框架。作为内嵌于PuduFM大模型之中的通用具身智能体平台,PuduAgent的定位是一个面向全球开发者的、为物理世界而生的通用具身智能体平台,一个有望成为“机器人界的iOS/Android”的具身智能基础设施。
PuduAgent的设计起于一个根本判断:单点算法优化或简单引入AI Agent系统,无法从根本上解决行业三大困局;必须从系统层面,包含大模型层面,重构机器人能力体系。回顾移动互联网的爆发,关键拐点并非硬件性能提升,而是iOS和Android将复杂硬件能力抽象为标准API,使开发者专注于应用层创新。普渡的判断是,机器人要实现真正的规模化落地,必须提供一个统一的物理智能体体系,让开发者可以像组合标准模块一样灵活搭建已有能力,快速构建应用,而非每次重新造轮子。
PuduAgent由三层架构构成:系统层、能力层、安全层。

(1)系统层的核心在哪?
系统层主要是让机器人拥有“不遗忘”的认知基座。其核心能力Agent Core使各类机器人都能像人类领班一样思考。
以酒店配送机器人为例,其需要完成从迎宾引导、行李搬运到客房配送的复合任务。传统机器人在此场景中最多只能执行单段指令,譬如“从大堂吧取一杯咖啡送到电梯口”,一旦客人临时改变需求,或者电梯满载需要绕行,它就会陷入困惑。
PuduAgent的Agent Core则不同。它构建了多尺度任务规划框架:首先进行宏观战略拆解,将“为32层客人送一杯拿铁”拆解为“前往大堂吧取餐→呼叫电梯→抵达32层→识别房号→交付客人”;再逐步细化为微观战术执行。例如“绕过正在清洁走廊的CC1机器人”、“等待电梯开门后确认无人再进入”、“在客人开门时调整托盘高度以便取用”。这种从粗到细的分层规划,有效解耦了复杂任务间的耦合依赖。
传统基于思维链的视觉语言任务分解,在静态问答中表现尚可,但在真实物理世界中暴露出结构性脆弱,面对环环相扣的复杂依赖关系时往往顾此失彼。而Agent Core则突破了传统一次性规划、机械执行的静态模式:当机器人在前往大堂吧途中发现通道被临时封闭,它并非僵化地停在原地报错,而是即时重构后续步骤,改走备用通道,重新计算时间,并在必要时通知后台调整客人等待预期。

Agent Memory则让机器人成为一个不会遗忘的“老员工”。如今普渡的配送机器人已在全球诸多医院落地,配送机器人每天需要为不同楼层、不同病区配送药品和标本。这个任务看似简单,但中间可能会经历多次换电梯、穿过多段连廊、避让早高峰时段密集的医护人员和病床等复杂场景。传统系统在执行这类超过30分钟的长程任务时,失败率高达40%。根本原因在于,系统缺乏长期记忆,每一步微小偏差不断累积:第一次换梯时多等了10秒,第二次经过连廊时遇到临时停放的推床,第三次接近检验科时发现门禁换了位置……每一次微小偏离,都可能让任务彻底脱轨。
PuduAgent的Agent Memory体系引入了三层记忆结构。工作记忆类似机器人的“短期注意力”,实时维护当前所处的楼层、最近的避障记录、即将到达的关键节点;情景记忆则类似“经验档案库”——上个月这层楼的护士站曾经临时堆放耗材导致通道变窄,这条信息被存储下来,下一次经过时自动提前减速;记忆压缩与抽象系统则负责将连续感知数据转化为离散结构化经验——比如将“每周三上午检验科门口排队较长”这条规律编码为可调用的调度参数。正是这套系统,使机器人在长达一小时的连续任务中始终保持目标清醒,不会因为一次临时绕行就忘记了最终目的地在哪里。
(2)能力层:像搭积木一样复用能力
PuduAgent赋予了机器人跨形态的技能复用能力。想象在一家同时配备了三种普渡机器人的酒店里:大堂里的“贝拉”负责迎宾引导,走廊里的CC1负责地面清洁,餐厅的“欢乐送”负责菜品配送。曾经这三台机器人各自独立开发、独立部署,但在PuduAgent的能力层架构下,原子技能被抽象为标准化模块:导航、避障、路径规划、电梯交互、语音应答……这些技能不再是某个机型专属的“硬编码”,而是挂在能力库中可供任意授权的机器调用的标准化组件。当清洁机器人CC1首次进入一个新楼层,它不需要重新建图,直接从云端调用“欢乐送”上周在同一楼层积累的地图和避障数据即可。当酒店新引入一台T300用于布草运输,它也不需要重新学习如何乘梯,而是可以直接调用已有电梯交互技能模块,仅需针对自身尺寸做参数适配。
对于确定性环境中的重复任务,比如每天固定路线的地面清洁,PuduAgent调用稳定、高效的经典导航技能;而对于复杂多变的操作任务,比如在人流高峰期为客人送餐,则调用具备泛化能力的基础模型来应对动态变化,这样减少了算力的高通量要求。
更值得关注的是,能力层对所有底层模型保持透明。当一个任务被下达,PuduAgent会根据场景特征自动选择最合适的技能方案:在已知的固定场景中调用经过充分验证的端到端导航算法,在未知或高度动态的场景中切换到具备零样本泛化能力的VLA模型。开发者不需要关心底层用的是哪个模型,只需要定义任务目标,系统自动完成技能匹配与调度。
(3)安全层:物理世界不可逾越的红线
安全层则主要是系统层面对行为进行约束、可行性判断,在执行前评估动作是否满足物理约束;风险预判,识别潜在碰撞、过载、不稳定等风险;异常干预,在检测到异常时主动调整或中止任务。这一机制有效降低了试错成本,使机器人在复杂环境中具备更高的可用性与安全性。
这就是PuduAgent安全层的核心价值,它在每一个动作执行前进行可行性判断。这个动作是否满足物理约束?它主动识别潜在碰撞、过载、不稳定等风险;在检测到异常时主动调整或中止任务,而非僵化地继续执行既定指令。将安全约束从应用层上提至平台层,有效降低了真实环境中的试错成本。
(4)从单机智能到群体智能
笔者认为,PuduAgent的核心价值主张之一,是将异构多机器人协同从理论推向可用。因为在一脑多形层面,PuduAgent通过构建统一的Agent OS架构,将感知、记忆、规划与执行解耦,并在Skill层实现标准化抽象,使能力从具体硬件形态中独立出来。无论是配送、清洁、工业还是人形或四足形态,均可共享同一套Agent Core与Agent Memory,并通过参数化Skill与设备适配层完成快速迁移。这种从绑定形态到能力解耦的转变,使基于统一大脑持续演进的通用智能体真正实现跨形态、跨场景的规模化复制与能力复用。
这就意味着在群体协同层面,PuduAgent基于Agent OS调度机制,可以将不同形态、不同能力边界的机器人抽象为标准化的可调度资源,通过任务与多机器人协同框架进行统一编排。系统能够根据任务类型、环境状态与设备实时能力,动态完成任务拆解、分配与重调度,引导不同类型机器人形成协同作业闭环。同时,通过共享Memory,不同机器人之间可以对环境状态与任务进度达成一致认知,避免信息割裂与重复执行。这种从单机优化走向群体智能调度的能力跃迁,使PuduAgent能够在复杂场景中实现更高效率、更强鲁棒性的多机协同运行。
(5)SkillHub与具身基础设施带来的开放生态
PuduAgent不仅仅解决当前的部署效率问题,更是一个面向全球开发者的开放平台。普渡提供完善的SDK,包括标准化的技能开发与调用接口、仿真环境,支持在数字世界中快速验证与迭代、以及SkillHub技能市场。
PuduAgent的生态愿景,可以用一个简单的类比来理解:在智能手机时代之前,每个应用开发者都需要自己写相机驱动、写网络协议栈、写内存管理。Android和iOS出现后,这些底层复杂性被封装为标准API,开发者只需要关心“我要解决什么问题”。这是移动互联网应用生态得以爆发的关键。
当前,任何一家公司想要开发一个“机器人巡检”应用,都需要从底层导航算法、传感器融合、路径规划开始搭建,耗时数月甚至数年。PuduAgent试图改变这一现状。
一个第三方开发者可以这样开始工作:在仿真环境中搭建目标场景,比如一个药品仓库,从SkillHub下载已有的“仓库导航”原子技能,组合“温湿度传感器读取”模块,再编写自己的“药品效期识别”逻辑,最后打包为一个完整的“药品巡检”应用,发布至SkillHub供其他仓库客户调用。这个开发者不需要理解SLAM算法的数学原理,不需要调试激光雷达的驱动参数,甚至不需要拥有一台实体机器人,他在仿真环境中的完整验证,可以直接迁移到普渡的硬件上运行。
因为SkillHub允许开发者贡献并商业化自己的技能模块。这一设计构建了正向飞轮:技能越多,场景覆盖越广,吸引的开发者越多,技能供给进一步丰富。一旦飞轮启动,将形成难以复制的生态壁垒。从更宏观的视角看,PuduAgent构建了一个可扩展的具身智能基础设施,原子技能一旦开发,可在不同场景、不同机器人形态间复用,使能力积累具有复利效应,每解决一个新问题,都在强化整个平台;平台架构天然适配家庭服务、特种作业、医疗辅助等更多领域,技能库的持续丰富将驱动平台向千亿级市场延伸;随着部署规模扩大,平台积累的真实物理世界交互数据将反哺Agent Core等核心模型,形成持续的技术领先优势。
这正是PuduAgent所追求的范式转变,让能力从硬件形态中解耦,让智能从单机节点走向群体协同,让具身智能在真实世界中更快地实现大规模落地。原子技能一旦开发完成,可在不同场景、不同机器人形态间复用,普渡的能力积累便具有了“复利效应”——每解决一个新问题,都在强化整个平台。
在此意义上,可以发现,PuduAgent为物理世界而生,为具身智能而立。它所提供的,不只是一个平台,更是一种范式:让能力从硬件形态中解耦,让智能从单机节点走向群体协同,让具身智能在真实世界中更快地实现大规模落地。
05.
数据与飞轮转起来
技术架构再精妙,没有高质量数据的持续哺育也终将成为空中楼阁,任何伟大的大脑都需要丰富的阅历。PuduFM的“常识”,不是凭空顿悟,而是来自普渡十年遍布全球的真实部署所积累的海量真实数据,以及一个能让它在虚实之间不断进化的飞轮系统。
作为全球范围内出货量最高的商用服务机器人公司,普渡的数据版图横跨全球80多个国家和地区,覆盖餐饮、酒店、工业、仓储、商超、医疗等海量的行业场景,沉淀了100余种不同任务类型的复杂环境交互数据。依托部署在全球的超13万台商用机器人,普渡每年累计生产3650万小时真实、有效、多样的导航数据。以自动驾驶行业作为参照系,NVIDIA最新公开的Physical AV Dataset包含约1727小时真实驾驶时长,普渡年数据产量是其两万倍以上。按机器人平均运行时速0.8m/s计算,普渡单年生产约1亿公里运行数据。随着每年60%的部署增速,年新增机器人预计可增加842万小时数据。

数量之外,更具战略价值的是数据的“纯度”。这里有一个被行业普遍忽视的关键概念:领域鸿沟。互联网视频本质上是人类视角的旁观者记录——由人手持拍摄,视角、畸变、深度信息均与机器人传感器存在根本差异。而普渡的导航数据完全来自机器人本体的第一视角采集,意味着这些数据从机器人的“第一视角”记录了整个物理世界:真实的运动畸变、反光的玻璃、昏暗的角落、空旷的大厅和拥堵的过道。这种原生机器人视角的数据,对于训练具备物理一致性的世界模型而言,是不可替代的黄金资产,相当于让机器人看了一本专属于自己世界的“百科全书”。
有了数据,还需要一个让模型高效利用数据的训练体系。普渡构建了“虚实双空间”进化飞轮。在数字世界,有一个极其逼真的仿真引擎。机器人会在这里面经历数百万次“极限生存挑战”:在突然冲出行人的狭窄走廊里避障、在灯光闪烁的故障区找路。通过在这些极端场景中反复“淬炼”,机器人积累了宝贵的应急经验。
这些在虚拟世界学到的经验,最终会在真实世界中接受检验。当机器人真正上岗后,如果遇到搞不定的状况,后台的人类专家会通过远程遥控快速介入并纠正。而每一次人工介入,都会变成高质量的训练数据,去反哺模型,让World Simulator更逼真,让PuduFM更聪明。
“我们已经成功验证,仅需不足50条专家轨迹,就能让机器人快速学会一个新任务。”这意味着,普渡的机器人面对新场景时,不再需要从头学起,而是像一个有经验的老手,稍加点拨就能上手。
06.
结语:十年磨一剑,一脑通万形
从2016年的第一台欢乐送,到2026年PuduFM与PuduAgent的正式发布,普渡用十年时间完成了一次战略维度的跃迁,从全球市占率第一的商用服务机器人领导者,升维为具身智能基础设施的建设者。它回答了一个产业级的根本问题:当机器人从单一场景的专用工具,迈向跨场景、跨形态的通用物理智能体,这条路到底该怎么走?
普渡的答案是:造一个会思考的“通用大脑”,并把它装在不同形态的身体上,让它们能看懂世界、预判风险、团队协作、持续进化。三层架构的层层递进构成了这一战略的完整骨架:“一脑多形”是顶层架构,定义了统一底层与软件设计的整体框架;PuduFM 1.0是核心引擎,以物理直觉驱动的基座模型让机器人真正“看懂”世界;PuduAgent是执行平台,将认知能力转化为可调度、可协同、可扩展的任务系统。三者层层递进,构成了一套完整的具身智能蓝图。
13万台机器人、3650万小时导航数据、1580万小时操作数据、80多个国家和地区——这些数字背后,是普渡十年如一日的技术积累与产业深耕。而这些积累,正在通过三层架构转化为下一个十年不可撼动的核心竞争力。
对于普通大众而言,这意味着未来你在酒店、医院、工厂、商场里遇到的机器人,将不再是那些只会照章办事、横冲直撞的铁盒子。它们会像训练有素的同事一样,理解你的意图,预判潜在的风险,在你需要时默契配合,在你经过时自然地让路,优雅地完成一杯咖啡的配送,或在工地上安全地完成一次高难度的搬运。
普渡相信,通用物理智能的未来不是某一个单一形态的机器人统治世界,而是多种形态的机器人协同工作、共同服务人类。而要实现这个未来,需要的不是多个孤立的‘脑’,而是一个能够理解物理世界、能够持续进化、能够适配多种形态的统一的‘脑’。
为物理世界立心,为具身智能立法。这场由普渡引领的具身智能商业化,才刚刚开始。


VIP复盘网