过去两年,具身智能行业的绝大多数资源与研发投入都集中于视觉方向。从VLA视觉语言动作模型到世界模型,主流技术路线都默认同一个核心前提:只要看得足够清晰,就能实现足够精准的操作。
但对于机器人而言,视觉系统所能提供的仅有图像信息,一旦进入物理接触阶段,决定操作成败的关键物理信号,如力反馈、滑移趋势、材料形变等,都无法通过单纯的图像传递。
这一感知缺口,绝非简单加装一个传感器就能填补。尽管压阻式、电容式等传统触觉传感器虽早已实现量产,但长期停留在孤立的硬件信号输出层面,其采集的力反馈数据并未系统性地融入具身模型的训练主链路。真正补齐这一短板,需要构建一条打通“传感器硬件-数据平台-模型训练”的完整技术闭环。
上海新智具身智能科技有限公司(NeoteAI,以下简称 “新智具身”)正是沿着视触觉这一差异化技术路径深耕,其核心使命是为机器人赋予类人触觉感知能力,从根本上解决精细化操作的行业痛点。

01.
近亿元加持,复旦系团队领衔攻关
5月27日,新智具身宣布完成近亿元天使轮融资。本轮由上海国投旗下上海科创集团,以及复旦科创联合领投,上海科创集团旗下策源基金等共同投资,多维资本担任独家财务顾问。
新智具身背靠产学研深度融合与地方政策双重加持。作为复旦大学与静安区战略合作的重要落地成果,公司在初创期便获得静安区科经委与市北高新集团的大力培育,先后获得静安区战略性资金及上海市经信委促进产业高质量发展专项资金的支持,上海市科委也针对其核心视触觉传感器的研发给予了专项经费支持,全面加速公司的技术攻关进程。
新智具身的核心团队源自复旦大学可信具身智能研究院,具备深厚的产学研融合基因。CEO 赵世豪本硕毕业于复旦大学,博士就读于香港大学,曾作为核心研究员在微软全球研究院、阿里通义实验室深耕前沿模型研发,研究覆盖视频世界模型、生成式模型;首席科学家吴祖煊为复旦大学可信具身智能研究院副院长,曾任职 Meta,长期深耕视频模型、多模态模型等核心领域;COO董道国则是兼具学术与产业经验的跨界人才,具有近20年的产业界经历,曾任华为荣耀Magic一代首席架构师,现任复旦大学可信具身智能研究院研究员,主要为公司的技术商业化保驾护航
02.
视触觉打破传统触觉方案瓶颈
新智具身选择视触觉技术作为触觉模态的核心感知方案,这一路线与传统触觉方案相比,两者的信息维度差距显著。
传统压阻式、电容式触觉传感器仅能输出一维或三维离散力信号,提供的是低维点状触觉信息,就如同仅用单个指尖感知世界,只能判断是否发生接触,却无法还原物体的轮廓、纹理与滑移方向等关键信息。
视触觉技术采用全新的触觉范式。传感器内部集成微型光学相机,实时捕捉柔性硅胶表层与物体接触时产生的亚毫米级形变图像,再通过端侧深度学习模型将高密度视觉信号解耦为结构化力觉信息。
其能够输出六维力矢量、物体表面轮廓、纹理特征、滑移轨迹与形变边界等像素级全域力场分布,信息密度较传统触觉方案高出数个量级,且输出数据格式与视觉数据同源,可无缝融入现有Transformer架构,实现与视觉数据的自然融合
新智具身·视触觉传感器
另外,传统触觉方案的性能上限由硬件设计决定,出厂即固化,难以通过后续优化实现质的提升;而视触觉方案通过模型实现力觉解耦,其触觉感知能力可随着数据规模的扩大与模型的持续迭代不断进化。
新智具身的视触觉传感器主要由复旦可信具身智能研究院研究员陈文明及其博士生罗虎主导研发,这也是公司与复旦大学产学研融合的首个标志性成果。该传感器现已进入头部具身智能客户体系,并在精细操作、数据采集和模型训练等场景中开展验证。
03.
从传感器到模型层,触觉具身数据飞轮怎么转?
尽管理论上具备显著优势,但视触觉技术要实现规模化工业落地,行业普遍关注三大核心工程化难题:成本能否与传统方案持平、传感器能否满足工业级耐用性要求、以及触觉数据如何系统性融入具身模型训练链路。
新智具身的打法,不是单点突破,而是系统化布局。传感器、数据、模型三层,彼此咬合。
传感器是飞轮的起点
在新智具身的技术架构中,视触觉传感器并非简单的硬件外设,而是打通物理世界与数字世界的核心接口,其核心价值在于能够稳定采集真实操作过程中的接触信息,为后续的数据处理与模型训练提供高质量原始数据。
数据层是飞轮的燃料
新智具身自建触觉具身数据采集工厂,采集方案采用真机与UMI手持设备双轨并行,真机保证操作精度,UMI解决起量和泛化问题。每一个采集设备都装配了自研视触觉传感器和配套力反馈系统
新智具身·大规模触觉 视觉的具身数据采集
数据采集重点围绕精细化操作场景展开,如USB插拔、螺丝拧入、芯片抓取、线束装配、纸杯抓取、硅胶件处理、布料折叠等任务。这类场景均是当前精细化操作中工业自动化的核心瓶颈,其中线束装配更是汽车与3C制造产业中极少数尚未实现大规模自动化的劳动密集型环节。
关于数据量,新智具身的参照系不是具身行业内部,而是大语言模型和AIGC。当前整个具身领域的数据量不过千万级别,而语言模型动辄十亿甚至百亿级别,差距是量级层面的。基于这一判断,公司确立了“数据规模优先,成本逐步优化”的核心策略,认为触觉数据的积累没有上限,只有先构建足够规模的数据资产,才能支撑模型能力的持续提升。
模型层是最终价值出口
新智具身的目标是将触觉接入预训练具身大模型(VTLA与Tactile世界模型),并结合融入触觉模态的强化学习技术路线,系统性构建触觉赋能的具身智能能力。
新智具身研发的VTLA模型可实时获取接触后的最真实的反馈:是否夹住、是否滑移、是否插入到位、物体是否因受力发生形变,进而指导操作的完成;团队的触觉世界模型,补齐了物理上的信息短板,提升对物体属性和动作后果的预测能力,在精细化场景中实现了精准预测;触觉强化学习利用触觉反馈实时修正操作策略,对插拔、精密装配、软物体抓取、柔性整理这些高难度的精细任务,进一步提高节拍并将失误率降至趋近于零


VIP复盘网