机器人产业的真相：别被“人形热潮”骗了

6月初，在Gartner大中华区高管交流大会结束后，大讲堂对Gartner研究副总裁高挺进行了专访。这位长期追踪全球机器人产业的分析师，在台上发表完《2026全球机器人产业前瞻》主题演讲后，神情依然平静。他不是那种会在台上挥舞拳头喊“取代”的人。

他说的第一句话，把记者的预期拉回到地面：“机器人产业，目前处于尚未实现大规模商业化的前夜。”

前夜，不是黎明。

01.

一个被反复高估的时间表

从高处来看，对机器人的集体兴奋，有其合理的情感评价，也有相当程度的情绪泡沫。

《2026全球机器人产业前瞻》报告中援引了世界经济论坛的数据，到2030年，全球制造业将出现约1000万工人的缺口。中国自身的老龄化和少子化趋势加剧，劳动力缺乏已不是遥远的警告，而是逐渐逼近的现实压力。“如果说AI是数字世界的生产力，那机器人就是物理世界的生产力。”他用这句话定义了机器人的战略位置

这个逻辑，让资本快速涌入。高挺举了一个典型案例：美国某知名机器人公司的估值在一年内暴涨15倍。行业热度可见一斑。

但在热度之外，他指出了一个更值得关注的现实案例——特斯拉。2025年，马斯克高调宣布要生产5000台人形机器人Optimus。然而，到了同年第四季度财报发布时，马斯克自己承认，工厂里的机器人只完成了“一些比较基础的任务”，还远未形成真正意义上的产能。据悉，特斯拉第三代人形机器人预计年中亮相，要到2026年7-8月才会启动正式投产。

“大众预期与实际落地之间，存在着相当大的落差。”高挺介绍道。

02.

人形，真的是最优解吗

在《2026全球机器人产业前瞻》报告的演讲中，高挺提出了一个让现场安静了的问题：为什么干活的一定要变成人形机器人的样子？

这个问题，反映出整个中国机器人产业正在酝酿的一个认知盲区。

他解释说，人形机器人背后的逻辑解释得通，因为人类世界是按照人体设计的，工厂的工具、生产线的高度、门框的位置，全部都是为人体定制的。机器人长得像人，自然能更好地融入各类场景系统。

但他接着说了一句让人印象深刻的话：“人在结构上，其实并不完美。”他提到，人类是从爬行动物进化过来的，脊柱和膝盖并非在所有场景下都是最佳的形态。他在演讲PPT上展示了一种膝盖向后转弯的机器人，这种结构让机器人蹲得更对位、负重更稳定、重心更好控制；而用轮子替代双脚，在一些情况下移动速度更快，成本也较低。

“我们将来不要纠结是不是长得像人，而是这个机器人能不能好用。”他在记者追问时补充道，“如果人形好用，我们就用人形；如果人形不好用，我们就换其他形状。就是这个逻辑。”

他的判断是，未来主流的机器人形态会是“类人形”，有两只手、有本体，但不一定有头，眼睛可以长在胸口，脚可以换轮子。不是纯粹的人形，也不是完全的异形，而是跟随场景走的最优解。

03.

机器人的“GPT-2时刻”

那么今天的机器人产业处于哪个阶段？高挺给出了一个新框架。他认为，当前机器人产业的成熟度，大约相当于大语言模型发展达到的GPT-2水平，并预计在未来一到两年内有望达到GPT-3的水平。

“GPT-2最重要的意义，并不是多厉害，而是它跑通了基于Transformer架构的范式，也就是从0到1的突破。之后GPT-3、GPT-4，本质上就是堆数据、堆算力，规模化就生效了。”他说，机器人产业现在也走到了类似的节点，基于VLA的架构目前已经相对成熟，产业界普遍认为，只要持续投入更多数据，机器人的泛化能力就会不断增强。

但他立即指出了一个关键的结构性差异。机器人走向scaling law，比大型语言模型难得多。因为语言模型的数据，是互联网上现成的海量文本，相对容易获取。机器人需要的是高质量的物理交互数据，例如抓取、搬运、行走、避障、失败恢复等操作数据。这类数据采集很慢、成本高。更棘手的是，机器人对数据质量的要求远高于语言模型。“语言模型数据质量稍差，可能只是说话不准确。机器人数据出错，它获取的物理特性就会出错，真实操作就会出问题。”

04.

数据依然是行业最大的瓶颈

在整场采访中，高挺谈及数据问题的篇幅，远超其他任何话题。这不是偶然。他告诉记者，中国和西方在解决数据问题上采取了不同的道路。中国由于人力成本相对较低，部分厂商选择建立“数据工厂”，人工一条条采集数据。西方则更倾向于让工人在头部佩戴摄像头，采集第一人称视角的作业数据。

“无论使用哪种方法，数据对于机器人行业来说都是一个非常大的挑战。”他说。仿真数据是另一条被寄予厚望的路径。英伟达走的正是这条路，即用算力生成合成数据，在虚拟环境中训练机器人。优点是成本低、易于规模化。但这条路有一个难以回避的核心问题：“Sim-to-real Gap”，即仿真到现实的鸿沟。

他打了一个比方：“在游戏机上把赛车玩得飞起来，不代表真的能参加F1。”虚拟场景里的摩擦力、光线变化、物体的柔软度，和真实世界之间始终存在差距，而消除这个差距，还需要时间。

“未来更现实的路线不是‘只靠仿真’。”高挺说，“而是建立混合数据闭环：以真实机器人交互数据为核心，包括遥操作、人工示教和现场运行反馈；再结合动作捕捉、第一人称视频等人类行为数据，以及仿真/合成数据，来提升机器人模型的泛化能力和可靠性。”

还有一种思路是利用互联网上的海量视频，甚至结合动作捕捉技术来训练机器人。这条路成本相对较低，数据也相对容易获取。但高挺指出，这里存在另一个问题。因为人的身体和机器人的身体结构不同，人类的动作数据直接用于训练机器人，存在天然的缺失和偏差。“眼睛学会了，手没学会。”他引用了一个网上流行的比喻，形象地说明了这种数据迁移的困境。

“数据仍然是机器人走向规模化的第一道门槛。”高挺表示。

05.

VLA：现阶段工程化落地的主流技术范式

关于VLA技术的未来，业界有声音认为VLA的泛化能力存在上限，“世界模型”才是下一代范式。高挺在答记者问时，也遇到了这个尖锐的问题，他没有否定世界模型的方向，却抛出了新的问题。“今天所有的世界模型，基本上还停留在研究阶段，业界对于世界模型的定义也并不清晰。大多数的世界模型还停留在视频生成阶段，没有真正用到工业化机器人上，或者说用得特别好。”他说，世界模型的工业化应用能力还很早期，产业界是要能够工程化建设的东西，不是概念。

因此，他的判断是，在当前节点，以及未来相当一段时期，机器人的主流范式还是以VLA为主，“除非世界模型有重大突破，否则情况不会改变”。VLA的核心逻辑，是把大语言模型的理解能力转化到机器人上，再加上视觉模块和动作模块，形成“看得懂环境、听得懂指令、做一套动作”的完整能力闭环。它和传统感知规划路径最大的不同在于：以往的机器人是先把某个特定任务实现得特别好，最后试图向外泛化，结果往往越做越专、越来越难迁移；VLA反过来，先有泛化能力，再针对具体场景做深度优化。

06.

灵巧手是被严重低估的硬件问题？

说完软件，高挺话锋一转，谈到了一个不太经常被媒体关注、却被他认为是机器人硬件中“最重要、没有之一”的部件：灵巧手。

“无论让机器人做什么，都需要考虑这件事。”他说。人类的手有27个自由度，能弹钢琴，也能攀岩，既可以做精细工作，又有力量，每天用，几十年不坏。这件事看起来理所当然，对机器人工程师来说却是噩梦级别的挑战。高挺的原话是：“让机器人去跑马拉松，比让灵巧手达到这样（人手）的高度要容易。”

他描述了当前灵巧手市场的结构性困境，海外产品如Shadow Robot的产品能力出色，公开数据显示价格高达10万美元一只，两只手装上去，成本已经让大部分商业场景望而却步；部分开源项目灵巧手能降到几百美元，但只能用于科研，真实场景完全不够；便宜又相对可靠的产品，往往在功能上打了折扣，可能只有4根手指，甚至只有一个夹爪，自由度缩水。

“直至今日，既便宜、又好用、可信度还高，三者在今天很难同时拥有。”高挺说这句话时，语气平静，但结论很重。因此，他特别强调灵巧手的耐用性问题：“机器人每次抓取，本质上都是一次碰撞。如果手不够精巧，很难真正实现商业化落地。”他指出，几年来灵巧手已经有了明显进步，自由度越来越大，价格也在下降，但真正满足商业落地要求的产品，仍然稀缺。

07.

机器人今天到底能做什么？

采访中，记者直接问了一个最实际的问题：机器人现在到底能不能干活？高挺给出了一个清晰的判断框架：能做的场景，有一个共同的特征：结构化、重复性、短任务链。他列举了几个已经落地的场景：仓储搬运（亚马逊全球已部署超过100万台专用机器人）、酒店前台导引、商场导览、工业线边物流、餐厅上菜。这些环境相对固定，流程相对标准，机器人导入具有真实的商业价值。

不能做的场景，同样有一个共同特征：开放环境、长任务链、高安全要求。“让机器人在家里做全屋大扫除，现在根本做不到。”他说，这类任务需要机器人持续规划多个步骤，而每个家庭的环境、人员构成、光线条件都不一样，是高度非结构化的开放场景，目前机器人能力恐怕还不够。

但他谈得最深的，是安全问题。“机器人进家庭，不是技术的问题，是安全的问题。”他举了一个例子：在工厂里打碎一个零件，造成事故责任；机器人在家里炒菜出事，可能直接伤人。他提到一个端鸡汤上桌的场景——“100次里有1次没拿稳，汤碗碎在桌子上，旁边坐着老人和小孩，那就是事故。”这个问题，短期内比任何技术都难以跨越。

对于正在考虑引入机器人的企业，高挺也给出了三条非常务实的建议。

第一，起点不是“买一个机器人”，而是“找到一个高价值、低复杂度的任务”。先问清楚：我的业务里，有哪些事情是重复的、环境固定的、错误代价可控的？从这里入手，比先纠结买人形还是协作还是手臂更有意义。

第二，把机器人当运营改造项目，而不是硬件采购项目。CIO的思维要从“买机器人”转向“设计机器人可运行的企业架构”。不是购买一个机器人，就能直接落地。现场流程再造、工厂布局调整、IT系统集成、协作方式变化，这些软性“能力集”也需要跟上。“不是简单地把机器人插进旧流程，就指望它发挥最大价值。”

第三，先论证，再扩展。从一两个真实封闭的小场景开始，跑出ROI数据。当能从经济上确认机器人带来了可量化的回报，再系统性复制。他的另一个建议是，企业现阶段更适合从成熟品类入手。例如协作机器人、机械臂、工业机器人，然后长期跟踪人形机器人的成熟度曲线，而不是现在就押注。

快采访结束时，记者问高挺怎么看中国机器人产业的真正优势。他几乎没有停顿：供应链。“宇树科技已经把一款人形机器人的价格压到了3万块人民币以下了。”他说，这款产品目前主要用于科研，还进不了工厂，但这件事本身释放了一个强烈的信号。中国供应链的成本压缩能力，是这个行业里无可替代的结构性优势。一旦机器人的软件和数据等问题解决到足够程度，中国的规模化速度会非常快。他的这个判断或许更接近市场最真实的答案。

08.

工程师的速度，启动的速度

高挺在《2026全球机器人产业前瞻》的报告解读中，有一个贯穿始终的基调：理性，克制，不煽情。

高挺既没有唱衰机器人，也没有打击市场热情。他反复强调的，是范式的成熟、数据的稀缺、硬件的限制、安全的因素，这些听上去不够性感，但似乎是决定这个行业能走多远、走多快的真正因素。

他对机器人产业给出了一个判断性的、有用的或重要的语言模型类比：“机器人的GPT-4时刻还没到。但GPT-2时刻，已经在眼前。”

现在是埋头做事的时候