Token：AI时代的新型大宗商品

当你在聊天框输入一句“帮我写一份活动方案”，几秒钟后就能得到排版工整、逻辑清晰的回复，你很少会追问：AI到底是怎么读懂我的问题的？藏在这顺畅交互背后，一个最基础却最容易被忽略的单元就是AI Token。它是大语言模型拆解人类语言的最小积木，是计算AI算力成本的最小单位，如今更被视作AI时代的“新电力”，成为产业和金融领域共同关注的标的。

2026年3月，国家数据局对Token给出了更为正式的定义：Token是大模型处理信息的最小计量单位，是模型输入输出的计量基础；也是大模型厂商销售套餐的计费单位，是可定价、可交易、可结算的数字商品。这一定义将Token从纯技术概念扩展到了经济商品层面，为后续的Token金融化奠定了制度基础。

目前，围绕Token的生产、计价、交易和消费，正在形成一套新型资源配置方式，被学界称为“词元经济”。词元经济并非简单的商业模式创新，而是数字经济向智能经济跃迁过程中的结构性变革。随着“人工智能 ”行动加快推进，数字经济正加速向以大模型为代表的智能经济跃迁，以词元（Token）为核心计量单位的Token新经济正在加速形成。Token作为信息生成单元和算力消耗单元的统一尺度，正在重塑产业的价值生成与分配逻辑。这意味着Token不仅是一种计量工具，更是连接算力、数据和应用这三大AI经济支柱的纽带，是理解未来AI产业价值链的钥匙。

什么是Token？

它不是加密货币，也不止是“单词”

很多人第一次听到Token会联想到区块链的虚拟代币，或是简单把它等同于“单词”，这其实是两个最常见的认知误区。Token，中文官方译名“词元”，是大语言模型（LLM）处理文本、代码、图像等多模态信息的最小独立单位，是人类语言转换为机器可识别数字的中间载体，也是模型计费和处理的基本单位，是可定价、可交易、可结算的数字商品。它并非严格对应一个汉字或英文单词，而是模型根据词表进行的一种“语义切片”。简单来说，人类说的话、写的文字对计算机来说只是一堆杂乱的字符，无法直接计算语义，Token化就是把连续的文本切割成一个个小单元，再把每个单元映射为一个唯一的数字ID，让模型可以通过计算这些数字的关联，理解人类语言的含义，再生成符合逻辑的回复。当你向AI提问时，问题中的每一个词语、标点甚至部分笔画都会被拆解成多个Token；当AI生成答案时，每一个输出的字符同样以Token为单位计量。

Token的切割粒度不是固定的：它可以是一个字、一个字符，也可以是一个单词的一部分，甚至是一整个常用词。在英文中，1个Token约等于4个字符（约0.75个单词）；在中文中，由于分词复杂性，1个汉字通常对应1-2个Tokens。比如输入“你好ChatGPT”，中文的“你”“好”会被拆分为两个Token，英文的“ChatGPT”会被拆分为“Chat”“GPT”两个Token，最终一共得到四个Token，每个对应一个独立的数字ID送入模型计算。这个切割转换的过程被称作Tokenization（分词/Token化），是所有大语言模型运行的基础——没有Token化，AI就无法理解人类语言的语义和逻辑关系。

我们可以做一个通俗的类比：如果把生成一段AI回复比作盖一栋房子，人类的提示词/指令(Prompt)就是一堆堆没分拣的建材，Token就是分拣打包好、可以直接递给工人的标准砖，模型就是盖房子的工人，工人一次只能搬运固定数量的砖，这就是我们常说的“Token上下文窗口限制”。

每一次AI交互都是Token的消耗过程，这个过程中的Token可分为三类：

输入Token：用户提问、上下文、历史对话编码生成，消耗较少；

推理 Token：模型内部运算、关联、生成的算力消耗，隐性核心成本；

输出 Token：AI 回答生成，消耗最多、定价最高。

Token的发展历程：

从NLP实验性技术到AI产业的计费单位

Token化的概念并不是AI大模型时代才出现的，它已经在自然语言处理领域发展了近半个世纪：

1. 萌芽期（1950-1990）：统计NLP的基础工具

NLP(Natural Language Processing)，中文译为自然语言处理，是人工智能的核心分支之一，它研究让计算机理解、解析、生成人类语言（文字、语音）的理论与技术，打通人类自然语言和机器语言的壁垒，也是大模型、Prompt、Token 技术的底层基础。最早的分词技术诞生于机器翻译研究初期，当时研究者为了让计算机处理文本，尝试将连续文本切割为最小语义单元，最初的Token就是单词本身，英文按空格分词，中文按字分词。但受限于语料和计算能力，此时的Token化只是实验室中的基础技术，没有大规模落地。

2. 成长期（1990-2017）：统计分词与子词分词的突破

随着统计自然语言处理的发展，研究者发现直接按词/字分词存在很大问题：按词分词会导致词汇表过大，生僻词无法处理；按字分词又会丢失大量语义信息。2000年之后，字节对编码（BPE：Byte Pair Encoding）等子词分词技术逐渐普及，这种方法可以根据语料的出现频率，自动将常见词合并为单个Token，将生僻词拆分为多个子词Token，兼顾了词汇表大小和语义完整性，这也是当前所有主流大模型都在用的分词方法。

3. 爆发期（2018年至今）：大模型让Token成为产业计费单位

2018年BERT模型（Bidirectional Encoder Representations from Transformers：是 Google 于 2018 年提出的双向预训练语言模型，只使用 Transformer 的 Encoder（编码器），核心是双向上下文理解与预训练微调范式，被视为现代 NLP 的里程碑）诞生，2020年OpenAI推出GPT-3，第一次将大模型开放API服务，为了方便计算调用者的算力成本，OpenAI选择按照输入Token数量和输出Token数量计费，Token从此从一个纯技术概念，变成了AI产业的“流通货币”——所有开发者调用大模型API都要按Token付费，用户使用AI服务的成本直接和Token消耗挂钩，Token也正式从技术底层走到了产业前台。

Token市场的发展现状

（一）市场规模及价格的变化

1．Token调用量的爆发式增长

Token市场目前最显著的特征是需求端的指数级爆发。据国家数据局披露，中国日均Token调用量已从2024年初的约1000亿，跃升至2025年底的100万亿，到2026年3月进一步突破140万亿（即1.4 × 10^15个Token），两年间增长超过1000倍，成为增长最快的数字经济赛道。按中文每字符约消耗1.5个Token折算，相当于每日处理约93万亿个汉字的信息量。

需要特别指出的是，2024年初的1000亿调用量更多体现的是早期“问一句、答一句”的文本交互场景，消耗量尚可控制和估算。进入2025年下半年，随着多模态AI、AI编程、智能体（Agent）等应用场景的成熟，Token消耗结构发生了质变。摩根大通预测，中国AI推理Token消耗量将从2025年的约10千万亿增长至2030年的约3900千万亿，五年增幅约370倍。IDC（国际数据中心）预测则更为激进，全球年度Token消耗量将由2025年0.0005 Peta Token（即5 × 10^11 Token）升至2030年15万Peta Token，年复合增长率达3418%。全球活跃智能体数量也将从2026年快速增长至2031年的约3.5亿个，年复合增长率达135.3%。

Token未来核心的增长引擎在AI Agent，即从“人用AI”到“AI用AI”的转变。传统的人类对话单次消耗Token约几百个，但Agent通常是多步骤任务，单次消耗可达几十万个。如果一个企业部署1000个Agent，每个Agent每日消耗100万个Token，那么一家企业一年的Token消耗量就将达到3650亿个，相当于一个中等国家人类对话的总消耗。随着AI的发展，Agent的应用在企业当中越来越普遍，金融投研、制造排产、政务合规、医疗病历结构化等等，很多企业的AI项目都进入了常态化调用。运营商Token套餐的普及，以及手机、车载、家居等轻量化模型和场景的应用，也使得AI融入到了普通人的日常生活当中。

截至2026年，Token已经成为AI行业的通用计量单位：所有主流大模型服务商都采用按Token计费的模式，Token的单位价格、上下文窗口的Token容量，已经成为衡量大模型成本和能力的核心指标之一。Token已经成为AI产业最基础的“大宗商品”：所有AI应用都需要采购Token，它的价格直接决定AI产品的成本，影响整个AI产业的景气度，价格波动也越来越大，产业端对风险管理工具的需求越来越迫切。

2.Token市场规模的跃迁与价格竞争的激烈

2025年，全球已有多家头部大模型公司跨越了商业化临界点。OpenAI的年度经常性收入（ARR）在2025年已达到120亿美元，是全球大模型商业化最成熟的标杆。在国内，尽管公开披露的具体ARR数据有限，但各大云服务商已将Token列为核心付费产品线。Token已成为AI时代核心生产要素与价值载体，围绕Token的商业模式已经成熟，其影响正在延伸到芯片、云服务、应用开发乃至基础设施投资等各个领域。2026年，AI Agent规模化落地推动Token调用量结构性增长，Token应用正从“尝鲜”走向“规模变现”阶段。

Token定价在过去两年也经历了一个完整的“U形周期”。

第一阶段（2024年末至2025年中期）：价格战白热化。 某头部平台率先发起价格战，将百万Token价格从行业均价约50元压降至0.3元，引发连锁反应。阿里云、字节跳动、月之暗面相继宣布大幅降价，部分轻量模型的API价格一度跌入每百万词元不足一元的区间，推理算力的毛利率随之跌至负数。这场“流血竞争”在短期内激发了大量中小开发者和初创企业接入AI能力，但行业整体盈利能力受到严峻挑战。

第二阶段（2025年下半年起）：价格回归理性。 随着Token调用量持续爆棚，算力成本压力逐渐传导至API定价端。2026年3月，中国云计算市场迎来标志性价格重构，腾讯云、阿里云、百度智能云三大头部厂商在约一周内相继发布调价公告，正式上调AI算力服务及大模型相关产品价格。以腾讯混元HY2.0 Instruct为例，输入单价从0.0008元/千Token上调至0.004505元/千Token，涨幅高达463%。

与此同时，国际市场价格同样呈现分化格局。OpenAI于2026年4月发布的GPT-5.5，标准版API输入定价为5美元/百万Token，输出定价为30美元/百万Token，较GPT-5.4整体贵了一倍；其Pro版本输入价格为30美元/百万Token，输出价格高达180美元/百万Token。这一定价水平约为国内头部模型的数十倍，反映了不同市场定位下的差异化定价策略。

阿里云百炼近期发布的Qwen3.7-Max则提供了较为克制的定价：输入6元/百万Token、输出18元/百万Token。跨平台横向对比来看，同样业务场景、几乎相同的模型效果，选择DeepSeek-V3相比GPT-4o，年度API成本可相差9倍之多。

第三阶段：运营商入局，开启规模化套餐时代。2026年5月17日，中国电信率先推出系列试商用Token套餐，从9.9元1000万Token的“轻享版”，到299.9元1.5亿Token的“旗舰版”，以分级定价满足不同需求。这是运营商首次尝试为AI时代的计量单元Token分级分层定价，被视为运营商从“流量经营”迈向“Token经营”的标志性突破。运营商的入局意义远超一般商业事件。它标志着Token已从互联网公司的技术产品进化为电信运营商的基础业务，进而暗示了Token未来可能获得类似短信、数据流量这样的“公共服务属性”地位。同时，三大运营商掌握着全国性的结算体系和庞大的个人与政企客户网络，其入场将极大加速Token的普惠化进程。

（二）Token的服务商及用户

1. 国际头部服务商

在国际市场，Token服务商呈现出“一超多强”的格局。OpenAI以其庞大的模型矩阵和先发优势占据最大份额，截至2025年ARR已达120亿美元。其产品线从GPT-4.1-nano（0.10-0.40美元/百万Token）到高端推理模型o3/o4-mini（1.10-8美元/百万Token），覆盖了从轻量推理到复杂逻辑的全场景需求。

Anthropic凭借Claude系列模型在编程和企业级应用领域建立起差异化竞争优势，2026年一季度ARR首次超过OpenAI，API定价策略调整83%后调用量仍增长约400%，呈现出显著的“量价齐升”趋势。Google Gemini与xAI Grok则分别依托各自的生态优势参与竞争。

据2026年5月统计，全球已有11家以上具备生产级能力的大模型供应商，每百万输出Token的价格区间从最低0.08美元到最高25美元不等，差价高达300倍。这一巨大价差本身就是一个市场信号——Token远未形成统一的商品定价，而更像是一个高度分化的差异化服务市场。

2. 国内的头部服务商

当前国内Token市场呈现出鲜明的“分层式寡头垄断”特征。在高端前沿模型领域，市场集中度极高；而在中低端及开源市场，则呈现出激烈的垄断竞争态势。目前Token服务市场呈现“云厂商模型厂商”双轨并行的格局，主力军主要分为三大阵营：

首先是互联网科技巨头。以阿里的通义千问、百度的文心一言、腾讯的混元以及字节的豆包为代表，它们掌握着顶尖的模型能力与庞大的云基础设施，实际上掌握了Token经济的定价中枢。

其次是电信运营商。2026年5月，中国电信、中国移动、中国联通陆续官宣售卖“Token套餐”，将Token与话费、宽带融合打包。这种举措极大地降低了C端用户的使用门槛，让Token像手机流量一样触手可及。

最后是专业的算力与云服务商。包括各类第三方聚合平台（OpenRouter, 百度千帆等）和垂直领域的模型厂商（DeepSeek, 月之暗面(Kimi), 智谱AI等），它们主打的就是高性价比，为开发者和中小企业提供了差异化的替代方案。

随着市场的发展，Token的分销模式在快速兴起，第三方聚合平台、分销商成为Token市场的一个重要群体。分销商等批量采购AI厂商API额度并加价转售给终端用户，形成“上游模型供应商→中游代理平台→下游终端用户”的三方生态格局。这标志着Token市场正在从简单的API直销模式升级为多层级的渠道分销体系，为Token现货市场的成熟提供了更具流动性的交易基础。

3. Token的核心应用群体

Token的应用群体已经覆盖了几乎所有AI相关的开发者和企业，包括：

AI应用开发商、算力中介与集成商等：SaaS应用、AI聊天机器人、AI内容生成平台、Agent等，几乎所有to C的AI产品都是批量采购大模型Token服务，再进行二次封装后卖给终端用户，Token是其最核心的成本项。

大模型微调与训练企业：在预训练模型基础上做行业微调，需要消耗大量输入Token处理训练数据，Token消耗量直接决定微调成本。另外要将AI用于代码生成、客服、内容创作的企业，也需大规模采购Token包以控制预算。

科研机构与高校：开展大模型相关的算法研究、实验测试，按需采购Token额度，比自建大模型成本低很多。

终端个人用户：很多产品对免费用户限制Token消耗量，付费会员可以解锁更高的Token额度，个人用户也已经成为Token消费的主要群体之一。

Token的定价逻辑与核心影响因素

当前Token的定价并非单一费率，而是呈现出多层次结构，有几种不同的定价模式：

按量付费模式（Pay-as-you-go） 。这是最常见的定价模式，用户根据实际输入和输出的Token数量付费。计算方式为：总费用 = 输入Token数 × 输入单价输出Token数 × 输出单价。由于输出Token的算力消耗远高于输入Token的编码过程，输出价格通常是输入价格的2到6倍。

分级套餐模式。 运营商和部分云服务商推出分级套餐。中国电信的Token套餐从9.9元/1000万Token到299.9元/1.5亿Token，豆包则从68元/月到500元/月不等。分级套餐的主要优势在于降低个人和中小企业的接入门槛，同时也为云服务商提供了稳定的月度经常性收入（MRR）。

订阅制模式。 这类模式按时间周期（通常为月或年）收费，提供固定额度或无限的Token调用。OpenAI的ChatGPT Plus和豆包三档订阅均属此类。订阅制降低了用户的心理账户门槛，尤其适合个人用户和长期高频使用者。

混合模式。 许多服务商同时提供上述多种计费方式，让用户根据实际需求选择最经济的方案。例如，企业客户可将大规模稳定训练任务的API调用安排到专用实例上，以获取更优惠的“包年包月”折扣；而突发性推理调用则选用按量付费模式，实现成本弹性的双重优化。

Token的定价模式多样，而且不同厂商价格差异也很大，其核心影响因素有三个：

（1）算力的成本

GPU价格直接决定Token成本，这是Token定价最底层的制约因素：H100/A800 等高端卡租金占比超 60%，当GPU稀缺且价格高企时，大模型的增量训练和推理成本同步上升，必然推动Token价格上行。

（2）大模型本身的训练与推理成本

模型能力决定Token的价值溢价，模型越大，参数越多，上下文窗口越长，训练阶段投入的成本越高，推理单Token消耗的算力越多，定价也就越高。像一些旗舰模型，推理能力强，定价就比较高，而一些轻量模型，推理能力弱，定价也就偏低，比如GPT-4o的输入价格是每百万Token5美元，输出15美元，而GPT-3.5-turbo输入价格仅为每百万Token0.5美元，输出1.5美元，价差接近10倍，本质就是模型推理成本的差异。

（3）市场供需关系与竞争格局变化

AI行业爆发式增长时，GPU算力供不应求，大模型厂商的推理成本上涨，Token价格也会随之上涨；当算力产能释放后，Token价格也会逐步下行，2024年以来全球GPU产能逐步释放，主流大模型的Token价格已经下降了30%左右。另外模型效率的提升、稀疏化、蒸馏技术普及，使得同等算力能产出更多 Token，会长期推动Token价格下行。另外，新入场的厂商为了争夺市场份额，通常会定比头部厂商更低的价格，吸引开发者迁移。比如国内很多二线大模型，Token定价仅为头部厂商的1/2到1/3，核心就是通过低价抢占市场，也会导致市场价格的变化。

Token期货化的标的选择

随着AI Token需求的规模化，价格波动越来越大，产业端已经出现了对冲Token价格波动的需求。Token已经具备了可计量、可交易、价格波动等几大适合期货交易的特性。结合“词元经济”的诞生，我们认为Token也具备了一些推出期货交易的基础。有消息称上期所正在研究Token期货，我们非常期待。

算力租赁和Token是算力期货化的两种不同路径。以算力租赁价格指数为标的进行期货交易，其本质是以算力供给成本作为定价核心，这一设计更偏算力供给侧，核心在于硬件层面。Token则是锚定算力的需求端，更偏向于服务‌下游AI应用开发商、SaaS服务商、终端开发者‌的需求。两条路径都是中美在算力金融化领域博弈的关键。如果条件具备，我们认为不管是算力供应端还是需求端，都有推出期货交易的必要，不过从目前国内的政策导向及资源禀赋来看，开发算力租赁价格指数相比于Token价格指数会相对容易一些。

首先从政策端来看，工信部推进“1 M N”算力互联互通体系，要求“统一标识、统一标准、统一规则”，不仅是算力标准化的保障，也为价格标准化提供了政策背书。其次，算力租赁以长约加少量现货为主，交易主体为数据中心、云厂商、AI 企业，市场集中度相对较高，成交价格、规格、时长、用量可留痕、可追溯，且计价维度相对比较清晰，主流计价单位为元 / 卡时（GPU 小时）、元 / 核时、元 / TOPS，虽未完全统一，但属于 “同一物理量的不同口径”，可通过折算系数标准化。第三，算力租赁的成本结构相对透明，包括硬件折旧、电力、带宽、运维、机房折旧等，定价的锚点比较清晰，且价格波动驱动相对易把控。

但其核心难点也有几个方面。一是标准化不足，需要设定算力折算基准，将所有算力都折算为标准算力单位；二是公开报价跟实际成交价之间可能差距较大，要有识别清洗机制；三是区域间报价差距较大；四是高端算力集中在少数企业，容易形成垄断，需要建立防操控机制。

相比之下，Token价格指数的编制可能会更难一点。从计量单位的角度看，相对容易统一，基本都为“元/百万Token”，难点在于Token的质量差异难以统一，从当前产业结构来看，不同模型 Token 质量差异很大（能力、速度、稳定性）。在算力市场中，同一型号的H100芯片在物理性能上是可比的，尽管在不同部署环境中存在性能方差，但这种方差可通过归一化框架进行系统性修正。然而，不同大模型之间的Token质量差异是质的差异，而非量的差异，标准化框架几乎无法用统一的修正因子进行校准——因为“更聪明10%”本身就是一个主观性极强的概念。而且模型性能和API定价之间也没有简单的线性关系，价格不能直接映射质量。不同模型擅长不同类型任务，如在代码生成任务中，Claude的表现可能优于GPT-5.5，但在创意写作中可能相反。所以Token指数会面临“同价不同质”的困扰。一个模型的高价可能反映了其卓越能力，也可能反映了其定价策略失误。一个模型的低价可能是性价比优势，也可能是模型能力较弱。因此对于不同模型的Token难以有效区分其“质量价格”差异。

另外，大模型技术迭代速度非常快，每隔6-12个月就会有性能更强的新模型推出，新模型单位Token的价值比旧模型更高，这也可能使得指数的基准需要不断调整，很难保持长期稳定性，而作为期货标的的指数，稳定性是核心要求，这就形成了一定的矛盾。

当然，这并不意味着Token不能作为期货标的，我们需要将其标准化后再作为标的使用。可以做一个算力锚定的Token指数。 锚定某主流模型的核心指标，将达到指定性能基准的模型产出的1个推理Token定义为1个标准Token，然后把不同模型、不同厂商的Token按照模型性能折算为统一的“标准等效Token”，在此基础上，可编制“标准推理Token指数”（Standard Inference Token Index, SITI）。虽然这种方案也并没有从根本上解决异质性的问题，但总体而言其更具底层定价逻辑的稳定性，不易受具体模型定价策略变动的影响，适合成为长期金融产品的锚定基准。

结语：Token， AI时代的新大宗商品

Token已经从AI模型处理信息的最小计量单位，演进为可定价、可交易、可结算的数字商品，并正在成为AI经济的核心价值载体。两年间增长超千倍的爆发式增长背后，一个涵盖上游算力、中游模型、下游应用的完整Token经济生态正在加速形成。

Token期货的探索则代表着Token从数字商品到金融资产的关键一跃。然而，Token价格指数的编制面临底层资产的异质性、定价模式的多层性、模型迭代差异等多重挑战，这些挑战远大于GPU算力指数所面临的标准化难度。

在金融化进程中，Token期货是一条与美国算力期货不同的道路，二者展现了不同的战略视角，一边是锚定需求端，另一边则是锚定供给端。Token经济的未来，既取决于技术的进步，也取决于制度的设计。当算力成为继“石油美元”之后的下一个金融锚点时，不管是算力租赁还是Token，都将成为大国数字经济竞争的核心领域。