6月初,在Gartner大中华区高管交流大会结束后,大讲堂对Gartner研究副总裁高挺进行了专访。这位长期追踪全球机器人产业的分析师,在台上发表完《2026全球机器人产业前瞻》主题演讲后,神情依然平静。他不是那种会在台上挥舞拳头喊“取代”的人。
他说的第一句话,把记者的预期拉回到地面:“机器人产业,目前处于尚未实现大规模商业化的前夜。”
前夜,不是黎明。
01.
一个被反复高估的时间表
从高处来看,对机器人的集体兴奋,有其合理的情感评价,也有相当程度的情绪泡沫。
《2026全球机器人产业前瞻》报告中援引了世界经济论坛的数据,到2030年,全球制造业将出现约1000万工人的缺口。中国自身的老龄化和少子化趋势加剧,劳动力缺乏已不是遥远的警告,而是逐渐逼近的现实压力。“如果说AI是数字世界的生产力,那机器人就是物理世界的生产力。”他用这句话定义了机器人的战略位置
这个逻辑,让资本快速涌入。高挺举了一个典型案例:美国某知名机器人公司的估值在一年内暴涨15倍。行业热度可见一斑。
但在热度之外,他指出了一个更值得关注的现实案例——特斯拉。2025年,马斯克高调宣布要生产5000台人形机器人Optimus。然而,到了同年第四季度财报发布时,马斯克自己承认,工厂里的机器人只完成了“一些比较基础的任务”,还远未形成真正意义上的产能。据悉,特斯拉第三代人形机器人预计年中亮相,要到2026年7-8月才会启动正式投产。
“大众预期与实际落地之间,存在着相当大的落差。”高挺介绍道。
02.
人形,真的是最优解吗
在《2026全球机器人产业前瞻》报告的演讲中,高挺提出了一个让现场安静了的问题:为什么干活的一定要变成人形机器人的样子?
这个问题,反映出整个中国机器人产业正在酝酿的一个认知盲区。
他解释说,人形机器人背后的逻辑解释得通,因为人类世界是按照人体设计的,工厂的工具、生产线的高度、门框的位置,全部都是为人体定制的。机器人长得像人,自然能更好地融入各类场景系统。
但他接着说了一句让人印象深刻的话:“人在结构上,其实并不完美。”他提到,人类是从爬行动物进化过来的,脊柱和膝盖并非在所有场景下都是最佳的形态。他在演讲PPT上展示了一种膝盖向后转弯的机器人,这种结构让机器人蹲得更对位、负重更稳定、重心更好控制;而用轮子替代双脚,在一些情况下移动速度更快,成本也较低。
“我们将来不要纠结是不是长得像人,而是这个机器人能不能好用。”他在记者追问时补充道,“如果人形好用,我们就用人形;如果人形不好用,我们就换其他形状。就是这个逻辑。”
他的判断是,未来主流的机器人形态会是“类人形”,有两只手、有本体,但不一定有头,眼睛可以长在胸口,脚可以换轮子。不是纯粹的人形,也不是完全的异形,而是跟随场景走的最优解。
03.
机器人的“GPT-2时刻”
那么今天的机器人产业处于哪个阶段?高挺给出了一个新框架。他认为,当前机器人产业的成熟度,大约相当于大语言模型发展达到的GPT-2水平,并预计在未来一到两年内有望达到GPT-3的水平。
“GPT-2最重要的意义,并不是多厉害,而是它跑通了基于Transformer架构的范式,也就是从0到1的突破。之后GPT-3、GPT-4,本质上就是堆数据、堆算力,规模化就生效了。”他说,机器人产业现在也走到了类似的节点,基于VLA的架构目前已经相对成熟,产业界普遍认为,只要持续投入更多数据,机器人的泛化能力就会不断增强。

但他立即指出了一个关键的结构性差异。机器人走向scaling law,比大型语言模型难得多。因为语言模型的数据,是互联网上现成的海量文本,相对容易获取。机器人需要的是高质量的物理交互数据,例如抓取、搬运、行走、避障、失败恢复等操作数据。这类数据采集很慢、成本高。更棘手的是,机器人对数据质量的要求远高于语言模型。“语言模型数据质量稍差,可能只是说话不准确。机器人数据出错,它获取的物理特性就会出错,真实操作就会出问题。”
04.
数据依然是行业最大的瓶颈
在整场采访中,高挺谈及数据问题的篇幅,远超其他任何话题。这不是偶然。他告诉记者,中国和西方在解决数据问题上采取了不同的道路。中国由于人力成本相对较低,部分厂商选择建立“数据工厂”,人工一条条采集数据。西方则更倾向于让工人在头部佩戴摄像头,采集第一人称视角的作业数据。
“无论使用哪种方法,数据对于机器人行业来说都是一个非常大的挑战。”他说。仿真数据是另一条被寄予厚望的路径。英伟达走的正是这条路,即用算力生成合成数据,在虚拟环境中训练机器人。优点是成本低、易于规模化。但这条路有一个难以回避的核心问题:“Sim-to-real Gap”,即仿真到现实的鸿沟。
他打了一个比方:“在游戏机上把赛车玩得飞起来,不代表真的能参加F1。”虚拟场景里的摩擦力、光线变化、物体的柔软度,和真实世界之间始终存在差距,而消除这个差距,还需要时间。
“未来更现实的路线不是‘只靠仿真’。”高挺说,“而是建立混合数据闭环:以真实机器人交互数据为核心,包括遥操作、人工示教和现场运行反馈;再结合动作捕捉、第一人称视频等人类行为数据,以及仿真/合成数据,来提升机器人模型的泛化能力和可靠性。”
还有一种思路是利用互联网上的海量视频,甚至结合动作捕捉技术来训练机器人。这条路成本相对较低,数据也相对容易获取。但高挺指出,这里存在另一个问题。因为人的身体和机器人的身体结构不同,人类的动作数据直接用于训练机器人,存在天然的缺失和偏差。“眼睛学会了,手没学会。”他引用了一个网上流行的比喻,形象地说明了这种数据迁移的困境。
“数据仍然是机器人走向规模化的第一道门槛。”高挺表示。
05.
VLA:现阶段工程化落地的主流技术范式
关于VLA技术的未来,业界有声音认为VLA的泛化能力存在上限,“世界模型”才是下一代范式。高挺在答记者问时,也遇到了这个尖锐的问题,他没有否定世界模型的方向,却抛出了新的问题。“今天所有的世界模型,基本上还停留在研究阶段,业界对于世界模型的定义也并不清晰。大多数的世界模型还停留在视频生成阶段,没有真正用到工业化机器人上,或者说用得特别好。”他说,世界模型的工业化应用能力还很早期,产业界是要能够工程化建设的东西,不是概念。
因此,他的判断是,在当前节点,以及未来相当一段时期,机器人的主流范式还是以VLA为主,“除非世界模型有重大突破,否则情况不会改变”。VLA的核心逻辑,是把大语言模型的理解能力转化到机器人上,再加上视觉模块和动作模块,形成“看得懂环境、听得懂指令、做一套动作”的完整能力闭环。它和传统感知规划路径最大的不同在于:以往的机器人是先把某个特定任务实现得特别好,最后试图向外泛化,结果往往越做越专、越来越难迁移;VLA反过来,先有泛化能力,再针对具体场景做深度优化。
06.
灵巧手是被严重低估的硬件问题?
说完软件,高挺话锋一转,谈到了一个不太经常被媒体关注、却被他认为是机器人硬件中“最重要、没有之一”的部件:灵巧手。
“无论让机器人做什么,都需要考虑这件事。”他说。人类的手有27个自由度,能弹钢琴,也能攀岩,既可以做精细工作,又有力量,每天用,几十年不坏。这件事看起来理所当然,对机器人工程师来说却是噩梦级别的挑战。高挺的原话是:“让机器人去跑马拉松,比让灵巧手达到这样(人手)的高度要容易。”
他描述了当前灵巧手市场的结构性困境,海外产品如Shadow Robot的产品能力出色,公开数据显示价格高达10万美元一只,两只手装上去,成本已经让大部分商业场景望而却步;部分开源项目灵巧手能降到几百美元,但只能用于科研,真实场景完全不够;便宜又相对可靠的产品,往往在功能上打了折扣,可能只有4根手指,甚至只有一个夹爪,自由度缩水。
“直至今日,既便宜、又好用、可信度还高,三者在今天很难同时拥有。”高挺说这句话时,语气平静,但结论很重。因此,他特别强调灵巧手的耐用性问题:“机器人每次抓取,本质上都是一次碰撞。如果手不够精巧,很难真正实现商业化落地。”他指出,几年来灵巧手已经有了明显进步,自由度越来越大,价格也在下降,但真正满足商业落地要求的产品,仍然稀缺。
07.
机器人今天到底能做什么?
采访中,记者直接问了一个最实际的问题:机器人现在到底能不能干活?高挺给出了一个清晰的判断框架:能做的场景,有一个共同的特征:结构化、重复性、短任务链。他列举了几个已经落地的场景:仓储搬运(亚马逊全球已部署超过100万台专用机器人)、酒店前台导引、商场导览、工业线边物流、餐厅上菜。这些环境相对固定,流程相对标准,机器人导入具有真实的商业价值。
不能做的场景,同样有一个共同特征:开放环境、长任务链、高安全要求。“让机器人在家里做全屋大扫除,现在根本做不到。”他说,这类任务需要机器人持续规划多个步骤,而每个家庭的环境、人员构成、光线条件都不一样,是高度非结构化的开放场景,目前机器人能力恐怕还不够。
但他谈得最深的,是安全问题。“机器人进家庭,不是技术的问题,是安全的问题。”他举了一个例子:在工厂里打碎一个零件,造成事故责任;机器人在家里炒菜出事,可能直接伤人。他提到一个端鸡汤上桌的场景——“100次里有1次没拿稳,汤碗碎在桌子上,旁边坐着老人和小孩,那就是事故。”这个问题,短期内比任何技术都难以跨越。

对于正在考虑引入机器人的企业,高挺也给出了三条非常务实的建议。
第一,起点不是“买一个机器人”,而是“找到一个高价值、低复杂度的任务”。先问清楚:我的业务里,有哪些事情是重复的、环境固定的、错误代价可控的?从这里入手,比先纠结买人形还是协作还是手臂更有意义。
第二,把机器人当运营改造项目,而不是硬件采购项目。CIO的思维要从“买机器人”转向“设计机器人可运行的企业架构”。不是购买一个机器人,就能直接落地。现场流程再造、工厂布局调整、IT系统集成、协作方式变化,这些软性“能力集”也需要跟上。“不是简单地把机器人插进旧流程,就指望它发挥最大价值。”
第三,先论证,再扩展。从一两个真实封闭的小场景开始,跑出ROI数据。当能从经济上确认机器人带来了可量化的回报,再系统性复制。他的另一个建议是,企业现阶段更适合从成熟品类入手。例如协作机器人、机械臂、工业机器人,然后长期跟踪人形机器人的成熟度曲线,而不是现在就押注。
快采访结束时,记者问高挺怎么看中国机器人产业的真正优势。他几乎没有停顿:供应链。“宇树科技已经把一款人形机器人的价格压到了3万块人民币以下了。”他说,这款产品目前主要用于科研,还进不了工厂,但这件事本身释放了一个强烈的信号。中国供应链的成本压缩能力,是这个行业里无可替代的结构性优势。一旦机器人的软件和数据等问题解决到足够程度,中国的规模化速度会非常快。他的这个判断或许更接近市场最真实的答案。
08.
工程师的速度,启动的速度
高挺在《2026全球机器人产业前瞻》的报告解读中,有一个贯穿始终的基调:理性,克制,不煽情。
高挺既没有唱衰机器人,也没有打击市场热情。他反复强调的,是范式的成熟、数据的稀缺、硬件的限制、安全的因素,这些听上去不够性感,但似乎是决定这个行业能走多远、走多快的真正因素。
他对机器人产业给出了一个判断性的、有用的或重要的语言模型类比:“机器人的GPT-4时刻还没到。但GPT-2时刻,已经在眼前。”
现在是埋头做事的时候


VIP复盘网