DeepSeek-V4来了！华为昇腾加持，还是那个“价格屠夫”

OpenAI刚刚发布GPT-5.5几个小时后，业界期待已久的DeepSeek-V4终于上线了，这次是两个版本，价格还是一贯DeepSeek的“价格屠夫”风格。

4月24日，DeepSeek宣布，全新系列模型 DeepSeek-V4的预览版本正式上线并同步开源。DeepSeek-V4 拥有百万字超长上下文，在Agent（智能体）能力、世界知识和推理性能上均实现国内与开源领域的领先。

距离去年1月的大版本更新已经过去了15个月，DeepSeek这次在海内外全网发布大更新后，热度飙升。海外社媒有不少网友也第一时间关注了DeepSeek的更新，在DeepSeek评论区，大家纷纷表示，“鲸鱼回来了”“便宜又强大”“这太震撼了，如果那些效率突破成立的话”。

V4模型按大小分为Pro和Flash两个版本，也对应目前官方网页端和APP界面的专家模式和快速模式。其中Pro参数为1.6万亿，激活490亿，预训练数据33万亿；Flash参数为2840亿，激活130亿，预训练数据32万亿。

Pro和Flash两个版本的上下文都是1M（百万），均同时支持非思考模式与思考模式。

“从现在开始，一百万上下文将是 DeepSeek 所有官方服务的标配。”DeepSeek在文章中表示，V4 开创了一种全新的注意力机制，在 token 维度进行压缩，结合 DSA 稀疏注意力（DeepSeek Sparse Attention），实现了全球领先的长上下文能力，并且相比于传统方法大幅降低了对计算和显存的需求。

从价格看，DeepSeek 提到，V4-Pro每百万tokens输入是1元，输出是12元，V4-Flash每百万tokens输入是0.2元，输出是2元。“太普惠了，还是那个DeepSeek。”有网友感慨。

值得一提的是，业界一直在关注DeepSeek-V4是否会使用国产算力，从推文来看确实是与华为昇腾合作。DeepSeek在小字中表示，受限于高端算力，目前Pro的服务吞吐十分有限，预计下半年昇腾950超节点批量上市后，Pro的价格会大幅下调。

在具体性能上，两个版本的定位不同， V4-Pro性能比肩顶级闭源模型，而V4-Flash是更快捷高效的经济之选。

相比前代模型， V4-Pro 的Agent能力显著增强。在Agentic Coding（智能体编程）评测中，V4-Pro达到当前开源模型最佳水平。

官网表示，DeepSeek-V4已成为DeepSeek内部员工使用的Agentic Coding模型，据评测反馈使用体验优于Anthropic的Sonnet 4.5，交付质量接近Opus 4.6非思考模式，但也提到，新模型仍与Opus 4.6思考模式存在一定差距。

在世界知识测评中，V4-Pro大幅领先其他开源模型，稍逊于顶尖闭源模型 Gemini-Pro-3.1。在数学、STEM、竞赛型代码的测评中， V4-Pro 超越当前所有已公开评测的开源模型，取得了比肩世界顶级闭源模型的成绩。

在推理上，官方在论文中表示，总体约落后前沿闭源模型3–6个月。Pro‑Max（Max表示最大推理能力模式）推理扩展后在标准推理基准上优于 OpenAI的GPT‑5.2、谷歌Gemini‑3.0‑Pro，略逊于GPT‑5.4、Gemini‑3.1‑Pro。

相比V4-Pro， V4-Flash在世界知识储备方面稍逊一筹，但展现出了接近的推理能力。而由于模型参数和激活更小，相较之下V4-Flash能够提供更加快捷、经济的API服务。在Agent测评中， V4-Flash在简单任务上与V4-Pro 旗鼓相当，但在高难度任务上仍有差距。

目前，DeepSeek API已同步上线V4-Pro与V4-Flash，支持OpenAI ChatCompletions接口与Anthropic接口。

在发布消息的同时，DeepSeek也更新了一篇长达58页的论文，其中提到一些核心技术方面的信息。

相比DeepSeek‑V3架构，DeepSeek‑V4系列保留DeepSeekMoE框架与多令牌预测（MTP）策略，并引入多项关键架构与优化创新：混合注意力架构大幅提升长上下文处理效率，流形约束超连接（mHC）增强了传统残差连接，提升信号传播稳定性，而Muon优化器加快收敛速度，提升训练稳定性。

论文中作者团队提到，DeepSeek‑V4系列突破了超长上下文效率壁垒，原生高效支持百万令牌上下文，为测试时扩展、长周期任务、在线学习奠定基础。但局限在于，为追求长上下文效率，架构设计较为激进，保留较多经验性组件，整体偏复杂；复杂指令遵循、格式美观、极端摘要仍有提升空间。

DeepSeek认为，未来的研究方向是精简架构、研究训练稳定性基础理论、探索更稀疏的嵌入等新稀疏维度、强化长周期多轮智能体任务、加入多模态能力等。在最后，DeepSeek也表达了公司的理念，秉持长期主义的原则，“努力向实现AGI的目标不断靠近”。

在这次更新前不久，DeepSeek还传出了首次启动外部融资的风声。有报道称，DeepSeek正在以超100亿美元（约合人民币682亿元）的估值，计划募集不少于3亿美元（约合人民币20亿元）资金。对于长期拒绝外部资本、强调独立性的DeepSeek而言，此举被视为一种战略上的重大转向。

据悉，通过引入外部资金，DeepSeek将有更多计算资源开发新模型，同时能提供更具竞争力的薪酬来防止顶尖研究员流失。这次V4并没有发布多模态版本，也有猜测是由于算力和资金的不足。多模态已成为众多模型厂商的标配，DeepSeek至今还未切入，从这个意义上看融资确实迫在眉睫。