
【新智元导读】机器人终于迎来自己的「iOS时刻」,全球首个具身Agentic OS来了:不是装个更聪明的大模型,而是给机器人配上一套真正的「操作系统」。
过去几年,机器人视频越来越多,但细看你会发现一个问题:
它们的动作太「程序感」了。
抓一个水杯,必须放在固定位置;走一段路,路线早就画好;面对突发状况,要么站住不动,要么直接跌倒。
为什么不敢让机器人「单独行动」?
这背后的根本原因,是传统机器人的「大脑」和「小脑」是割裂的。
感知归感知,规划归规划,执行归执行。每个环节独立工作,信息传递靠接口,响应速度靠队列。
一旦环境稍有变化,系统就容易失灵。
所以,现在很多看起来「自然」的机器人,其实背后都有一个「遥操」工作人员。

但不可否认的是,具身智能正处于一个前所未有的爆发期。
如果说2025年是具身智能的量产元年,资本涌入,订单签下,还有好几家公司冲刺IPO。
那2026年,则是人形场景落地元年。
但热闹背后,行业的竞争格局正在发生微妙的变化。
可以从三个维度来看:
第一,硬件正在快速同质化。
电机、关节、传感器,国内供应链已经非常成熟。
几家头部公司用的零部件大同小异,本体的差距正在迅速缩小。
硬件本身,越来越难拉开差距。当然,本体的设计在性能和成本上依然会发挥重要作用。

第二,运控能力出现了明显的代际差距。
并不是所有公司都能做好「小脑」。
在运动控制这个领域,少数玩家已经遥遥领先——比如逐际动力、宇树、Boston Dynamics。
它们的机器人能跑、能跳、能在复杂地形上稳定移动,这背后是多年积累的运控技术壁垒。
逐际动力的机器人行走于崎岖不平的建筑工地上
第三,「机器人大脑」仍在全球范围内探索。
如何让大模型真正落地到物理世界?如何让认知决策转化为稳定的物理执行?这些问题,全球都还没有标准答案。
所以,竞争的焦点正在转移:光有好硬件不够,光有好运控也不够,光有聪明的大脑更不够——关键是谁能把这三者真正融合起来。
这就是为什么「大小脑一体化」成了行业的关键命题。
谁能先把机器人的大脑和小脑真正融合起来,谁就能在这一轮竞争中占据先机。
在这个行业拐点上,2026年1月12日,逐际动力发布的COSA系统,就是要打破这种割裂感!
COSA,全称Cognitive OS of Agents,具身智能体系统。

它有一个更精准的定位:具身Agentic OS。
COSA的本质是一个面向物理世界原生的具身Agentic OS。
COSA不是一个模型,而是一个为人形机器人设计的操作系统。
为什么强调「Agentic原生」?
因为未来的操作系统——无论是手机、电脑还是其他智能设备——都将升级为Agentic的形态。
而人形机器人的OS,必须从一开始就是Agentic原生的。它不能是传统系统加上AI功能的「改装版」,而必须从底层就具备自主感知、理解、决策、行动的能力。
简单说,这是一套让机器人能够同时想、同时动、边思考边干活的操作系统。
听起来很抽象?让我举个例子。
逐际动力的全尺寸人形机器人Oli,搭载COSA系统后,正在执行一个送水任务。
走到一半,它突然收到了新的指令。
它没有停下来,也没有放弃原来的任务。
它暂停了一下,把新指令纳入规划,重新调整了优先级和路线,然后继续走,把水送到了目的地。
这一「暂停」看起来很机械,却是机器人最不「机器」的一刻。
为什么这个动作了不起?
让我们拉高视角,先看看全球机器人的竞争态势和技术路线。

说到全球具身智能的头部玩家,Figure AI是一个离不开的名字。
2025年,Figure AI估值飙升至390亿美元,成为全球具身智能初创企业中估值最高的公司。
它的明星背书、资本能量、话题热度,几乎代表了美国市场对人形机器人的最高期待。
从技术维度来看,逐际动力的COSA与Figure AI正在解决同一个核心问题:
如何让机器人的「大脑」和「小脑」真正协同工作。
但这里有一个重要的区分:
Figure AI的Helix是一个模型:端到端的VLA(视觉-语言-动作)模型,试图用「快慢脑」系统融合感知与动作。
而逐际动力的COSA是一套Agentic OS:从架构底层出发,构建了一套面向物理世界原生的操作系统。
这是两条不同的技术路径:
Helix更像是给机器人装了一颗「超级大脑」; COSA更像是给机器人建了一套完整的「神经系统」。
技术路径有差异,但目标高度一致——让机器人不再是「背课文」,而是「边想边动」。
但是两者之间有着本质的差异,有三个值得关注的地方。
第一,移动操作存在差距。
如果你仔细看Figure AI目前公开的Demo,会发现一个细节:
移动归移动,操作归操作——两件事是分开演示的。
在演示中,Figure的整个操作过程中没有移动。

而搭载COSA的Oli,做到了「移动-操作-移动」的一镜到底。
它在移动的过程中完成抓取,边走边调整,没有明显的停顿切换。
这不是剪辑技巧,而是运控能力的真实差距。逐际动力在运动控制领域的积累,让它能够实现更流畅、更自然的动作融合,更符合场景落地的真实需求。
第二,技术路线的本质不同。
Helix是一个大模型——端到端的VLA模型,本质上是一个App。
COSA是一个具身Agentic OS——从底层架构设计的操作系统。
App和操作系统,是完全不同的物种。
第三,估值的巨大落差。
Figure AI的390亿美元估值,远超逐际动力。
但从技术能力的呈现来看,逐际动力的COSA与Oli的表现,已经站在了世界第一梯队。
这或许说明一件事:中国具身智能企业,正在被严重低估。
不是技术不够好,而是市场定价还没跟上。
至少从COSA的愿景来看,逐际动力已经用产品证明了一件事——
中国团队,已经证明了自己,完全有能力站在具身智能的世界前沿。

那么,COSA是如何解决机器人「大小脑」融合问题的?
我们需要先看看传统机器人的「神经系统」是怎么工作的。
你可以把机器人的智能分成两部分:
一个是「大脑」,负责理解指令、规划任务、做出决策;

一个是「小脑」,负责控制身体、执行动作、保持平衡。

听起来分工明确,对吧?问题就出在这里。
传统的做法,是让大脑和小脑各干各的。
大脑想好了,输出一条指令;小脑接到指令,执行动作。
这种架构有一个致命缺陷:中间断层了。
不是说大脑和小脑配合得慢,而是它们之间缺少一个关键的「中间层」:能够把认知决策真正转化为复杂物理行为的高阶技能层。
什么意思?
大脑说「去那边拿杯子」,这是一个高层意图。小脑能做的是控制关节、保持平衡,这是底层动作。
但从「去拿杯子」到「怎么绕过障碍物、怎么边走边调整姿态、怎么在移动中完成抓取」——这一整套复杂行为的调度和融合,传统架构里没有人管。
大脑的想法,「一下子」够不着物理世界。
所以我们看到的很多机器人演示,其实都是在精心控制的环境里完成的。杯子放在固定位置,路线提前规划好,没有意外,没有干扰。
一旦放到真实场景,问题就暴露了:不是某个模块不行,而是模块之间没有真正打通。
这同样也是目前一些看起来夸张的视频的机器人,其实背后大概率是依赖于遥操作。

COSA的发布,是逐际动力给出的答案——一个让大脑和小脑真正融合的系统。
让我们深入技术层面——看看COSA究竟是如何成为那个「补上拼图」的答案。
COSA的核心突破,可以用一句话概括:把大脑和小脑融合成一个系统。
这不是简单的「接口对接」,而是从架构底层重新设计。
在COSA的体系里,运动能力不再是认知的「输出」,而是认知的「基础」。
机器人的决策也不再是一次性的规划,而是与环境持续交互的反馈和响应的过程。

打个比方:
传统的方式像是「先想后做」——我想好了所有步骤,然后一步步执行。
COSA的方式像是「边想边做」——我一边执行,一边根据反馈调整计划。
这就是所谓的大小脑一体化。
具体来说,COSA有三层架构:
第一层,是一个叫「小脑基础模型」的东西。
它不是提前训练好的一套固定动作,而是一个能实时生成任意全身动作的基础模型。
这意味着机器人可以随时调整姿态,而不是从动作库里调一个预设的走路、抬手和转身。
第二层,是大小脑融合的高阶技能层。
打通导航、避障、移动操作、上下楼梯等复杂行为和全身运控基础模型间的对齐。
真正让大脑能力触达物理世界,这是运动智能与认知智能之间的桥梁。
第三层,是认知与决策。
理解自然语言、拆解任务、动态规划、调整优先级——这些「大脑」的工作,都在这一层完成。
但关键不在于这三层本身,而在于它们是如何连接的。COSA让这三层实时耦合。
上层的决策可以直接影响底层的动作,底层的感知可以即时反馈给上层。
COSA让他们三者运行如一体。
大模型落地到物理世界,最大的挑战不是算力,而是「脱节」。
再聪明的大脑,如果不懂得调度身体的各种能力,不理解来自身体和物理世界的反馈,就只会臆想出理想的方案——却在执行的那一刻失败。

COSA解决的就是这个问题。
它让大脑真正「感知」到身体在做什么、环境发生了什么变化;也让身体知道大脑想要什么,并且能够灵活调整去实现它。
上层的决策可以影响底层的动作,底层的感知可以反馈给上层,中间的技能层负责把两边对齐。
三层能力各自提升,会带动COSA整体水平提高;而COSA作为枢纽,把不同的技术和能力整合在一个系统里管理,保证这套系统能适应物理世界的真实环境。
这是一个还没有人做过的事情。
实现「知行合一」,即理解任务、感知环境、调整决策、组合技能、物理执行的完整闭环。


基于COSA的三层架构,COSA能够赋予机器人三大核心能力:
第一,理解「模糊指令」
「帮我拿两瓶水到前台给客人。」
这句话对人来说很简单。但对机器人来说,里面全是未知数:
水在哪?前台在哪?客人是谁、坐在哪?怎么走过去?
传统机器人需要你一步步告诉它:先找到水、拿起水、转向、去到前台、找到客人、走到沙发旁边、递水……
COSA让机器人能自己「填空」。
它会理解你的意图,拆解成子任务,规划执行路径,并且在过程中根据环境变化动态调整。
这不是简单的语音识别,而是真正的意图理解和自主规划。
第二,拥有「记忆」
更厉害的是,Oli记得东西。
它会记住「刚才那个人是谁」、「那个柜子里有什么」、「上次走这条路遇到了什么障碍」。
这种跨时间的语义记忆,让机器人从「响应式」变成了「认知式」。
它不只是看到什么就反应什么,而是能基于过去的经验做出判断。
机器人开始真正「认识」这个世界了。
第三,想到就能做到
最后一点,也是最关键的:COSA让机器人的「想法」能变成「动作」。
这听起来理所当然,但其实是具身智能最大的瓶颈。
很多机器人大脑很聪明,规划得头头是道,但执行的时候一塌糊涂。要么动作不稳,要么反应太慢,要么遇到干扰就歇菜。
COSA的大小脑一体化,解决的就是这个问题。
逐际动力用了一个很准确的说法:「想得到,更做得到。」

从逐际动力COSA这一具身Agentic OS,与Figure AI的大模型对比中,我们可以清晰地看到:
中国具身智能,正在从「跟跑者」变成「定义者」。
放眼全球,具身智能的竞争正在加速收敛为「系统能力」的竞争。
美国有Figure AI、Physical Intelligence这样的头部玩家,依托资本和技术优势快速迭代。
中国企业的机会在哪?
逐际动力给出的答案是:具身智能的全栈能力。
包括:本体硬件、小脑运控智能、大小脑融合的系统——三层能力,全部自研。
中国工厂能造出全球性价比的关节、最稳定的电机,而COSA的发布证明,中国团队也能做出世界级的具身Agentic OS。
「想得到,做得好」——这不只是COSA的技术口号,也是逐际动力对「中国方案」的一次作答。
逐际动力的愿景很明确:服务于人,而非服务于工序。
机器人的价值,最终要体现在它能为人做什么。


回到之前Oli停了一下的那个画面:等待接收新的任务,然后把水送到了目的地。

这个动作不复杂,但它背后代表的能力链条是:实时感知、记忆调取、意图理解、任务规划、动态调整、稳定执行。
过去,这是六个独立的模块。
现在,这是一次连贯的「思考-行动」。
这或许就是COSA最想说明的一件事:
机器人,终于不只是在执行指令了,它开始有了一点自己的「想法」。
而这一刻,正是具身智能从Demo到产品的真正分水岭。
回顾计算机的历史,每一次「操作系统」的诞生,都意味着一个新时代的开启。
Windows让个人电脑走进千家万户,Android和iOS让智能手机成为人手一台的生活必需品。
操作系统的意义,从来不只是技术本身——它定义了一个生态的玩法,决定了未来几十年的产业格局。
今天,人形机器人正站在同样的十字路口。
硬件渐渐成熟,算法快速迭代,但行业仍然缺少一个真正意义上的「操作系统」:
一个能让机器人像智能手机一样,在各种场景中稳定运行、灵活应变的底层基座。
COSA的发布,或许正是补上这块拼图的开始。
具身Agentic OS的时代,来了。


VIP复盘网