扫码体验VIP
网站公告:为了给家人们提供更好的用户体验和服务,股票复盘网V3.0正式上线,新版侧重股市情报和股票资讯,而旧版的复盘工具(连板梯队、热点解读、市场情绪、主线题材、复盘啦、龙虎榜、人气榜等功能)将全部移至VIP复盘网,VIP复盘网是目前市面上最专业的每日涨停复盘工具龙头复盘神器股票复盘工具复盘啦官网复盘盒子股票复盘软件复盘宝,持续上新功能,目前已经上新至V6.56版本,请家人们移步至VIP复盘网 / vip.fupanwang.com

扫码VIP小程序
返回 当前位置: 首页 热点财经 撕开英伟达的算力围城

股市情报:上述文章报告出品方/作者:半导体产业纵横;仅供参考,投资者应独立决策并承担投资风险。

撕开英伟达的算力围城

时间:2026-03-22 11:04
上述文章报告出品方/作者:半导体产业纵横;仅供参考,投资者应独立决策并承担投资风险。

“AI 
行业正在使用一个错误的工具

 Cerebras 创始人 Andrew Feldman 抛出这个论断时,英伟达正凭借 GPU 统治着万亿级市场

Andrew Feldman是否在口出狂言Cerebras 一块餐盘大小、拥有 900,000 个核心的晶圆级引擎 WSE-3,试图用一颗芯片即一个集群的解决方案来回答这个问题。

Cerebras 相信,深度学习的核心瓶颈从未在算力本身,而在于数据跨越芯片边界时撞上的那堵内存墙。

2026 年 月,Oracle 财报分析师会议上主动提及正在部署 Cerebras 芯片,将其与 NvidiaAMD 列为核心加速器供应商,这一“顺带点名”被业内视为 Cerebras 进入超大型企业采购视野的重要信号。

图片 01
叫板英伟达,Cerebras做对了什么?

CerebrasAndrew Feldman(前SeaMicro联合创始人,后被AMD收购)于2016年创立。

Cerebras 推出的WSE-3 是迄今规模最大的人工智能芯片,面积达 46,255 平方毫米,集成 万亿个晶体管。它凭借 90 万个 AI 优化内核 提供 125 PFLOPS 的 AI 算力,晶体管数量是英伟达 B200 的 19 倍,算力更是其 28 

同时,WSE-3配备44GB片上SRAM21PB/s的内存带宽,彻底打破了传统内存瓶颈。其晶圆级互联架构可提供27PB/s的内部带宽,速度是最新一代NVLink206倍。

WS最多可将 2048 套系统组合在一起,提供 256 EFLOPS 的 AI 算力。AI 开发者可以训练参数规模高达 24 万亿的模型,而无需处理多 GPU 调度和并行策略带来的复杂问题。

传统 GPU(如 B200)必须不断从片外的 HBM 内存中读取数据,这受限于 HBM 带宽,这也是AI大模型爆发带动HBM存储迅速发展的重要原因——通过强化片外存储的传输能力,被动缓解算力与存储分离带来的性能瓶颈。

Cerebras  44GB 的高速内存直接放在 90 万个 AI 核心旁边,无需再通过片外链路调取数据,从物理架构上消除数据往返传输延迟

2026 Cerebras OpenAI 签署多年合作协议,承诺为 OpenAI 提供 750 兆瓦的推理算力,部署规模将分阶段在 2026 至 2028 年间落地,合同总价值逾 100 亿美元,被官方称为“全球最大规模高速AI推理部署”OpenAI官方公告指出,此次合作的核心目的之一是降低ChatGPT实时响应的推理延迟。

2026 月 13 AWS 宣布 Cerebras 建立多年合作,将 Cerebras CS-3 系统部署于 AWS 数据中心,通过 Amazon Bedrock 提供推理服务。官方新闻稿显示,这是首次有主流超大规模云平台在自有数据中心内部署非 GPU AI 加速器

AWS计算服务副总裁David Brown表示:这种分离式架构让每个系统各尽其长,结果将是比今天任何方案都快一个数量级的推理性能。

行业分析机构 Futurum 其评析中指出,这一合作标志性的新阶段——推理架构正在独立,专用芯片将取代单体 GPU 部署,用于延迟敏感型任务

图片 02
用面积换性能,真无敌了吗?

Artificial Analysis 的测评表示,Cerebras CS-3 Meta Llama 4 Maverick400B 参数)模型上达到 2,522 tokens/秒,超过英伟达 Blackwell B200 1,038 tokens/秒,领先幅度约 2.4 。对比Llama 3.1 8B小模型,差距更显著:Cerebras可达约1,800 t/s,而英伟达H100约为90 t/s,相差约20倍。

 token 计费的云服务,DeepSeek V3 Cerebras 的定价为输入 $0.20/百万 tokens、输出 $0.50/百万 tokens,综合价格极具竞争力。截至20259月,Cerebras已在北美、欧洲扩建至五个新数据中心,并同步在AWS Marketplace上线,进入企业级采购渠道。

AI 行业正在从“训练为主”转向“推理为主””,而推理对延迟极为敏感。ChatGPT 对话 AI、多步骤智能体(Agentic AI)、实时代码生成等场景,都对 tokens/秒有严苛要求。AI 推理市场规模预计将从 2025  1,062 亿美元增长至 2030  2,550 亿美元CAGR 19%

这项测评展示了 Cerebras 在推理领域速度与成本上的显著优势,但要得出完全碾压的结论还为时过早

英伟达最强大的武器并非硬件,而是极其成熟的CUDA 生态。开发者在转向 Cerebras 时需适配专有编译器,且目前对动态控制流等高级 AI 特性的支持尚不完整,这种迁移成本是企业决策时的核心障碍。全球数以百万计的AI工程师在CUDA上深度训练,迁移至Cerebras平台存在学习成本。分析指出,AWS Bedrock集成的战略意义之一,正是通过托管服务降低工程师直接接触底层硬件差异的必要性——如果开发者无需修改代码就能使用Cerebras,生态差距的影响将大幅减小。

CS-3 单系统功耗高达 50kW,远超单台 GPU 服务器。对于空间和电力受限的传统数据中心来说,部署此类设备面临物理基础设施的制约

同时,在加速数据通信上,英伟达并未坐以待毙。除了 Blackwell 的快速迭代,英伟达还通过收购推理初创公司 Groq 的核心资产,以及推出 NIM 推理微服务来巩固其在推理市场的地位。

Groq 芯片为LPULanguage Processing Unit),主要面向LLM 等推理场景,从架构上追求“快速、可预测、低成本”的大模型推理,而不是通用训练   图形渲染。许多 LLM 推理场景下,单位 token 的计算成本和能耗都显著低于传统 GPU 集群(原因是高片上带宽、少外存访问、推理专用指令流)。

基于 Tensor Streaming ProcessorTSP)架构,硬件尽量去掉缓存、多级乱序等导致不确定性的机制,让编译器可以静态安排每条指令和每一跳数据路径,实现流水线装配线式的可预测执行。

第一代 LPU 约有 230 MB 片上 SRAM80 TB/s 内部带宽,远高于典型 GPU 的 HBM 外部带宽(约 8 TB/s 量级),减少访问外部内存的次数,从而降低时延并提升能效。

对很多企业来说,训练成本是一次性投入,而推理(每天要跑的token 数)才是真正长期的资本支出,Groq 把长期成本曲线压低,使得大规模商用 LLM 服务更可持续。对于英伟达来说,收购Groq训练卡卖一次的模式之外,增加了英伟达长期推理成本优化的抓手简单来说,英伟达能在 TCO 和能效上给出更有竞争力的推理方案,而不仅依赖堆更多 GPU

图片 03
Cerebras的风险

从产品角度来看,Cerebras选择将整个300mm晶圆做成一颗芯片,这同时意味着任何一处缺陷都可能导致芯片报废Cerebras在良率控制上承担了极高的制造风险。相对来说,传统GPU的小芯片可通过切割丢弃缺陷区规避

在商业模式上,Cerebras必须应对客户集中度风险。

虽然Cerebras官方表示有许多头部客户在使用自家产品,如NotionCerebras集成为其实时企业搜索功能的底层推理引擎,面向数百万企业用户Cerebras成为OpenAI最新安全模型的最快推理提供商,使AI安全策略的实时判断成为可能——在内容审核、文档分类、智能体护栏等场景,实现了先审后发的实时安全检测。

从营收来看,阿联酋G42贡献了2024H1高达87%的营收对应一份$14.3亿的合同承诺。虽然新合同不断到来,但若G42出现任何地缘政治变化(美国对阿联酋AI芯片出口管制趋严等),将对营收造成重大冲击。虽然G42已被移出Cerebras投资者名单,但其仍是最大单一客户。

从交货压力来看,虽然拿下了许多大订单,但Cerebras的产能却不一定能到位。随着OpenAI750MW算力部署、AWS合作相继到位,Cerebras2026-2028年间将面临极大的产能扩张压力。公司已将Series H资金的重要部分用于美国本土制造产能扩充,但实际交付时间线仍是最大的执行不确定性。

图片 04
写在最后

想撕开英伟达算力围城的企业不只Cerebras,“非GPU AI芯片”赛道上还有一家明星企业SambaNovaSambaNova的创新性也是想解决GPU内存墙问题。但解法截然不同。SambaNova的核心思路是用可重配置的数据流架构(RDU 三级内存,在标准芯片上实现接近单片大芯片的效率。

三级内存包括SRAM(片上,极速,小容量)、HBM(高带宽内存,中速大容量)、DDR(低速超大容量)。三级内存使 SambaNova 系统可承载远超片上SRAM大小的模型(单机架3TB内存),同时通过“算子融合”(operator fusion)减少内核调用次数,大幅降低延迟。测评显示,SambaNova SN40LLlama 3.3 70B上相对Nvidia H200实现了低批量9倍、高批量4倍的速度提升,同时能耗效率提升5.62.5倍。

SambaNova 的低功耗是其在电力受限数据中心的核心卖点。2021年 — Series DSoftBank Vision Fund 2领投,估值$50亿,但2025年开始出现关于SambaNova寻找买家的新闻,英特尔曾经提出16亿美元的收购要约,但后续谈判失败。

曾经站在同一起跑线的两家企业正面对不同的资本热情,Cerebras市场估值超200亿美元,但SambaNova正在寻找新的融资方。

英伟达的围城仍在,一名 AI 创业公司 CTO 曾评价三家公司表述最能说明问题:我们对 SambaNova和 Cerebras 都做了基准测试。家在推理速度上都比英伟达快。但我们整个代码库都基于 CUDA,工程师都懂 CUDA,云预算已经包含了与英伟达谈好的折扣。切换意味着重写代码、重新培训员工、重新谈合同——为了大约 30% 的性能提升,这笔账不合算。

在赢者通吃的市场里,好10%远远不够——你需要好10倍,并且有清晰的市场采用路径。

股票复盘网
当前版本:V3.0