OpenAI刚刚发布GPT-5.5几个小时后,业界期待已久的DeepSeek-V4终于上线了,这次是两个版本,价格还是一贯DeepSeek的“价格屠夫”风格。
4月24日,DeepSeek宣布,全新系列模型 DeepSeek-V4的预览版本正式上线并同步开源。DeepSeek-V4 拥有百万字超长上下文,在Agent(智能体)能力、世界知识和推理性能上均实现国内与开源领域的领先。
距离去年1月的大版本更新已经过去了15个月,DeepSeek这次在海内外全网发布大更新后,热度飙升。海外社媒有不少网友也第一时间关注了DeepSeek的更新,在DeepSeek评论区,大家纷纷表示,“鲸鱼回来了”“便宜又强大”“这太震撼了,如果那些效率突破成立的话”。

V4模型按大小分为Pro和Flash两个版本,也对应目前官方网页端和APP界面的专家模式和快速模式。其中Pro参数为1.6万亿,激活490亿,预训练数据33万亿;Flash参数为2840亿,激活130亿,预训练数据32万亿。
Pro和Flash两个版本的上下文都是1M(百万),均同时支持非思考模式与思考模式。
“从现在开始,一百万上下文将是 DeepSeek 所有官方服务的标配。”DeepSeek在文章中表示,V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力,并且相比于传统方法大幅降低了对计算和显存的需求。

从价格看,DeepSeek 提到,V4-Pro每百万tokens输入是1元,输出是12元,V4-Flash每百万tokens输入是0.2元,输出是2元。“太普惠了,还是那个DeepSeek。”有网友感慨。
值得一提的是,业界一直在关注DeepSeek-V4是否会使用国产算力,从推文来看确实是与华为昇腾合作。DeepSeek在小字中表示,受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。
在具体性能上,两个版本的定位不同, V4-Pro性能比肩顶级闭源模型,而V4-Flash是更快捷高效的经济之选。
相比前代模型, V4-Pro 的Agent能力显著增强。在Agentic Coding(智能体编程)评测中,V4-Pro达到当前开源模型最佳水平。
官网表示,DeepSeek-V4已成为DeepSeek内部员工使用的Agentic Coding模型,据评测反馈使用体验优于Anthropic的Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但也提到,新模型仍与Opus 4.6思考模式存在一定差距。
在世界知识测评中,V4-Pro大幅领先其他开源模型,稍逊于顶尖闭源模型 Gemini-Pro-3.1。在数学、STEM、竞赛型代码的测评中, V4-Pro 超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的成绩。
在推理上,官方在论文中表示,总体约落后前沿闭源模型3–6个月。Pro‑Max(Max表示最大推理能力模式)推理扩展后在标准推理基准上优于 OpenAI的GPT‑5.2、谷歌Gemini‑3.0‑Pro,略逊于GPT‑5.4、Gemini‑3.1‑Pro。
相比V4-Pro, V4-Flash在世界知识储备方面稍逊一筹,但展现出了接近的推理能力。而由于模型参数和激活更小,相较之下V4-Flash能够提供更加快捷、经济的API服务。在Agent测评中, V4-Flash在简单任务上与V4-Pro 旗鼓相当,但在高难度任务上仍有差距。
目前,DeepSeek API已同步上线V4-Pro与V4-Flash,支持OpenAI ChatCompletions接口与Anthropic接口。
在发布消息的同时,DeepSeek也更新了一篇长达58页的论文,其中提到一些核心技术方面的信息。

相比DeepSeek‑V3架构,DeepSeek‑V4系列保留DeepSeekMoE框架与多令牌预测(MTP)策略,并引入多项关键架构与优化创新:混合注意力架构大幅提升长上下文处理效率,流形约束超连接(mHC)增强了传统残差连接,提升信号传播稳定性,而Muon优化器加快收敛速度,提升训练稳定性。
论文中作者团队提到,DeepSeek‑V4系列突破了超长上下文效率壁垒,原生高效支持百万令牌上下文,为测试时扩展、长周期任务、在线学习奠定基础。但局限在于,为追求长上下文效率,架构设计较为激进,保留较多经验性组件,整体偏复杂;复杂指令遵循、格式美观、极端摘要仍有提升空间。
DeepSeek认为,未来的研究方向是精简架构、研究训练稳定性基础理论、探索更稀疏的嵌入等新稀疏维度、强化长周期多轮智能体任务、加入多模态能力等。在最后,DeepSeek也表达了公司的理念,秉持长期主义的原则,“努力向实现AGI的目标不断靠近”。
在这次更新前不久,DeepSeek还传出了首次启动外部融资的风声。有报道称,DeepSeek正在以超100亿美元(约合人民币682亿元)的估值,计划募集不少于3亿美元(约合人民币20亿元)资金。对于长期拒绝外部资本、强调独立性的DeepSeek而言,此举被视为一种战略上的重大转向。
据悉,通过引入外部资金,DeepSeek将有更多计算资源开发新模型,同时能提供更具竞争力的薪酬来防止顶尖研究员流失。这次V4并没有发布多模态版本,也有猜测是由于算力和资金的不足。多模态已成为众多模型厂商的标配,DeepSeek至今还未切入,从这个意义上看融资确实迫在眉睫。


VIP复盘网