40座城市验证之后，库萨首次公开城市服务具身智能底层架构

走在小区步道上，看见一只落着的羽毛球。不远处，一个孩子手里拿着球拍。

你很快会判断：这不是垃圾，不能清走。

不是因为你背过这条规则，而是因为你理解这个场景——球、拍子、人存在明显的关联关系，主人还在旁边，东西还在被使用。

但今天的城市扫地机器人，大多不具备这种理解力。它们要么“看见就扫”，造成误扫；要么被规则写成“运动器材不扫”，留下新的盲区。

深究根本问题，不是算得不够快，而是缺了一层“场景理解”。

今天，库萨科技发布两大核心技术成果：自研全模态具身模型 Kusa Omni-CTS，以及自研操作系统 Kusa OS。前者让机器人试着理解场景，后者确保这种理解来得及执行。

这也是库萨第一次系统公开其城市服务具身智能技术架构。过去外界更多通过无人清扫机器人认识这家公司，而这次发布揭示了它的底层技术路线：以真实城市为训练场，把模型、操作系统、多形态机器人和规模化部署接进同一套系统。

01.

具身智能扎堆室内，城市开放场景仍是硬骨头

如果你留意过当前的具身智能行业，会发现一个明显的现象：绝大多数企业的训练场景和技术展示，多集中在工厂、仓库和实验室。这些场景有清晰的边界、稳定的光照、可预测的任务流程，变量少，容易出成果。

但城市服务场景，几乎是这一切的反面。道路边界往往没有清晰标线，路面混合着沥青、地砖、碎石和泥土；行人、自行车、机动车随时可能进入作业区域；落叶、石块、纸张等散落在一起；雨水、强光和扬尘等环境因素，也会持续干扰机器人的感知与判断。

更麻烦的是清扫任务的的双重需求。车身需要避开行人和车辆，作业部件又必须贴近路沿、树池边缘和墙角。机器人要在同一时刻作出两类判断：什么该让，什么该贴，贴多近才刚好扫干净。

传统无人清扫方案通常由自动驾驶底盘与清扫上装组合而成。底盘解决“怎么走”，清扫机构解决“怎么扫”，但感知、任务理解和物理动作之间的联系还不够紧密。再想想开头那只羽毛球——机器人可能识别出“前方有一颗羽毛球”，却无法综合附近的物品、人员、时间和环境状态，进一步判断这只球该不该扫。

城市服务因此成为检验具身智能场景理解能力的高难度现场。库萨此前曾将自己的研发思路概括为“以场景定义产品”。此次发布的模型与操作系统，也延续了这一路线：由城市开放环境的实际问题，反向定义机器人需要具备的能力。

02.

Kusa Omni-CTS：规则之外，还要理解物理世界

城市服务场景的复杂性，决定了它不能单靠堆规则来解决。

“规则驱动”的基本逻辑是遇到A情况，执行B动作。但城市里的物品关系、人员行为和道路环境持续变化，规则库很难覆盖所有组合。任何一个未被写入的长尾情况，都可能成为新的风险点。

库萨给出的路线，是让模型从“背诵规则”转向“理解物理世界”。这次发布的全模态具身模型Kusa Omni-CTS重点补上了三项能力。

第一，让模型不止“看见”，还能感知自己的身体

真实的世界需要真实的触摸，视觉＋语言对场景的理解仍不够充分。它能认出“这是一个垃圾桶”，也能理解“把这里扫干净”的指令，但它感受不到自己碰到垃圾桶时的力度、地面的摩擦力、以及手臂接近极限扭矩时的那种吃力感。

视觉数据告诉机器人“前方是路沿”；本体数据反映“扫刷已经接触路沿，电机负载正在上升”；语言信息则提供“完成贴边清扫，同时保证设备与环境安全”等任务约束。

三类信息互相校验，机器人由此可以结合外部环境与自身状态作出判断。通俗地说，机器人不再只“看着做”，还会结合接触、负载和姿态“摸着做”。

第二，让不同节奏的数据不再“强行对表”。

这是一个多传感器融合中隐藏在工程深处、卡住无数团队的难题。

机器人身上的传感器以不同频率运行。触觉、IMU和轮速等本体感知数据通常处在200Hz至1000Hz，相机约为30Hz，激光雷达可能只有10Hz。

传统方案往往依赖严格的硬件时间同步。一旦出现时钟漂移、触发延迟或局部丢帧，融合结果就可能受到明显影响。

Kusa Omni-CTS 不再依赖这种硬件硬同步，采用连续时空表征，将不同频率的数据映射到连续时间轴，在模型内部完成异步特征对齐。由此，视觉、语言、触觉各自按自己的节奏采集信息。就像一支爵士乐队，不需要指挥棒统一打拍子，每个声部按自己的韵律进来，音乐反而更有生命力。

当相机视场、激光雷达线数或传感器精度发生改变时，模型还可以通过少量自适应微调，适配新的传感器组合与作业场景。

第三，让机器人在脑子里“先试一遍”。

这是 Kusa Omni-CTS 最接近人类思维的一项能力：反事实推演。

它把机器人的动作序列纳入环境预测。模型在做决策前，会在虚拟空间里做“What-if”——如果我这样走，那个行人会不会受惊？如果我这样扫，这块碎石会不会弹起来？不安全，就换一种方案。推演通过，再付诸行动。

这不是预测画面，是预测物理世界。每一次推演都受动力学约束，有惯性、有摩擦、有机器人自身的极限。这让机器人在开放场景中的决策，拥有更明确的物理依据。

03.

同一组物品场景，两次不同的判断

一个具体场景，可以更直观地展示这种场景理解能力如何影响机器人的最终判断。

傍晚，园区步道。机器人识别到一个敞开的双肩书包、散落在旁的草稿纸、一支铅笔，三米外有学生跑动。

在Kusa Omni-CTS 模型内部，空间关联与时间上下文同时被激活：书包是容器，纸和铅笔是内容物，学生是使用者。模型自动推演出一个结论——这是“放学场景”，物品仍在被使用。

模型输出：暂不清扫，疑似学生用品。

次日清晨，纸和铅笔仍在原处，书包和周围人员已经消失。模型再次判断时，原有的关联锚点和人员活动都已不存在，时间背景也由放学时段变成隔夜遗留。

输出结果随之变化：执行清扫，判定为无人认领的遗留物品。

同一张纸，同一支铅笔。两次截然不同的命运。

不是因为程序里写了一条“书包旁边的纸不扫”，而是模型理解了这些物品与书包的关系、与人的关系、与时间的关系。它判断的不是“这是什么”，而是“这里正在发生什么”。

这就是从“背诵规则”到“理解无路”的差别。

当然，一个案例还不足以证明模型已经解决所有城市长尾问题。Kusa Omni-CTS的实际价值，最终仍要通过误扫率、漏扫率、人工接管频次、复杂环境稳定性和跨场景泛化能力等指标检验。

但它至少把城市服务机器人的竞争推进到更深的一层：机器人要理解物体，也要理解物体所处的情境。

04.

Kusa OS：让“理解”快到来得及执行

理解了场景，还要及时行动。

在城市场景里，危险往往在毫秒之间出现——突然冲出的行人、被风吹来的障碍物、湿滑路面上即将发生的侧滑。如果模型推理出了“紧急制动”，但操作系统线程正被一个日志任务卡住，那再聪明的判断也等于零。

这正是库萨同步发布Kusa OS的原因。

Kusa OS是面向具身智能的专用操作系统，专为边缘侧高实时性、高可靠性的多任务调度场景设计。其核心指标是系统时延小于1毫秒，关键控制回路的抖动控制在50微秒以内。这里的重点在于确定性：当感知、规划、通信等任务争夺计算资源时，紧急制动等硬实时任务必须始终获得最高优先级。

对于开发者，Kusa OS试图把底层的麻烦事都扛下来。

它提供统一的硬件抽象接口，不同品牌的相机、激光雷达、毫米波雷达、IMU和定位设备，插上就能认，换传感器像换USB一样简单，不用重写代码。算法模块可以灵活组合，资源由系统智能分配。当关键任务发生超时或异常时，系统自动触发安全降级，使机器人进入预设的安全状态。

Kusa OS的另一项核心能力是“一脑多形”，同一套系统，可以适配并指挥形态、大小各异的城市服务机器人。目前，库萨已经形成覆盖0.5吨、1.5吨和3吨级的产品矩阵，从小型公共空间到市政道路，同一套操作系统完成适配。

这套系统的技术基础，来自库萨核心团队自2018年起的持续积累。团队先后历经自动驾驶、车规芯片、机器人三大体系的落地验证，随着库萨机器人的落地，已在超过40座城市的复杂环境中持续接受考验。

05.

城市服务机器人的“大脑”，开始有了自己的原生架构

当前，具身智能行业正在经历一轮认知升级：从比“谁跑得更快”，转向比“谁在真实世界里更可靠”。

库萨这次发布的 Kusa Omni-CTS 和 Kusa OS，本质上是在回答同一个问题：一个需要在户外、开放、非结构化环境里长年稳定工作的机器人，它的“大脑”应该长什么样？

他们给出的答案是：全模态感知，物理级推演，实时级执行。

现在，库萨把技术扎进城市服务场景，并通过40多座城市的实际部署持续验证。这条路线未必最耀眼，却足够具体，也更接近城市服务机器人规模化落地需要解决的真实问题。