一文读懂DeepSeek【浙商计算机】

投资要点

1、DeepSeek是坚持技术创新的中国大模型，中国模型出圈。

DeepSeek成立于2023年7月，由知名量化资管巨头幻方量化创立，其掌门人梁文锋是DeepSeek的创始人，在暗涌专访中，梁文峰谈到：“这一波浪潮里，我们的出发点，就不是趁机赚一笔，而是走到技术的前沿，去推动整个生态发展。”根据2月3日AI产品榜数据，DeepSeek APP上线20天日活超2000万。根据Appfigures的数据显示（不包括中国的第三方应用商店），DeepSeek App于1月26日登上苹果AppStore全球下载榜榜首。根据Sensor Tower的研究，该应用在谷歌Play商店美国区下载排行榜中位居榜首。Sensor Tower数据显示，DeepSeek在发布的前18天内累计下载量达1600万次。

2、DeepSeek是搅动全球模型市场的一条鲶鱼，带来性能、价格、开源三重冲击。

➢性能比肩国际顶尖模型：DeepSeek R1在数学、代码、自然语言推理等任务上的性能可比肩OpenAI o1模型正式版。在AIME 2024数学基准测试中，DeepSeek R1得分率为79.8%，OpenAI o1的得分率为79.2%；在MATH-500基准测试中，DeepSeek R1得分率为97.3%，OpenAI o1的得分率为96.4%。

➢低成本颠覆市场格局：DeepSeek V3整个训练过程仅用了不到280万个GPU小时，相比之下，Llama 3 405B的训练时长是3080万GPU小时。DeepSeek-V3的训练成本仅为约557.6万美元，而GPT-4等模型的训练成本则高达数亿美元。DeepSeek API服务定价远低于OpenAI，以输出为例，每百万输出tokens 16元（约2.2美元），GPT - o1每百万输出tokens 60美元。

➢践行开源理念：DeepSeek-V3和推理模型DeepSeek-R1均开源，R1同步开源了其模型权重，并允许用户利用模型输出，通过模型蒸馏等方式训练其他模型。Meta首席科学家杨立昆（Yann Lecun）对DeepSeek评论“开源模型正在超越专有模型”。

3、ToB端应用、AI端侧应用将最受益于大模型的开源趋势、成本降低、迭代加速。

春节期间，华为云、微软、英伟达、AWS等厂商均已上线DeepSeek的模型服务。大模型是应用软件的基础设施之一，随着基础设施的能力提升和成本下降，我们将看到应用侧的百花齐放。除了DeepSeek，豆包、Qwen、Kimi等近2月都在快速升级迭代，月活提升，成本降低。我们认为，首先现有的B端应用将最先迎来AI Agent，B端应用有成熟的数据、场景，例如客服、营销类场景会较快布局活跃有效的智能代理服务。其次，随着低参数模型性能翻倍，将更适用于追求低能耗的端侧AI创新产品。

报告全文

1版本有序落地，Deepseek-R1性能比肩 OpenAI o1 正式版

➢模型厚积薄发，技术能力不断突破。DeepSeek（中文名为深度求索）成立于2023年，是一家位于杭州的人工智能公司，为量化巨头幻方量化的子公司。公司自成立以来就不断研发迭代大模型，幻方目前拥有1万枚英伟达A100芯片，2023年4月幻方宣布成立新组织，集中资源和力量，探索AGI（通用人工智能）的本质，在一年多时间里进展迅速。

➢DeepSeek 的产品体系不断丰富，每个模型都在不同的领域和任务中展现出了独特的优势和性能特点。随着时间的推移，DeepSeek 在不断优化模型性能的同时，也在推动着人工智能技术的发展和应用。

➢从版本迭代来看，公司历经一年已然迭代多个版本，目前模型能力可比肩OpenAI o1-mini，从下载量来看，根据AI产品榜数据显示，DeepSeek成为全球增速最快AI应用，上线20天日活突破2000万。

2 DeepSeek产品技术特点

➢DeepSeek采用模型蒸馏技术，极大提升模型推理能力。DeepSeek官方技术文档显示，研究人员使用DeepSeek模型遴选了80万个样本，并且基于DeepSeek-R1模型的输出对阿里Qwen和Meta的Llama开源大模型进行微调。评测结果显示，基于DeepSeek-R1模型蒸馏的32B和70B模型在多项能力上可对标OpenAI o1-mini的效果。DeepSeek研究结果表明，蒸馏方法可以显著增强小模型的推理能力。

➢DeepSeek采用蒸馏技术得到的模型效果优于同等条件下使用强化学习（RL）的效果。技术文档显示，DeepSeek-R1-Zero-Qwen-32B模型是研究人员在Qwen-32B-Base模型基础上使用数学、代码、STEM数据进行超过10,000步的RL训练得到，其各项测评结果均差于DeepSeek-R1模型通过蒸馏得到的DeepSeek-R1-Distill-Qwen-32B模型。考虑RL方法需要大量的计算资源，蒸馏方法在性能和性价比方面均呈现出显著的优势。

➢Janus-Pro是DeepSeek发布的一款统一多模态理解与生成的创新框架，通过解耦视觉编码的方式，极大提升了模型在不同任务中的适配性与性能。其中，Janus-Pro的SigLIP编码器专门负责理解图像，能提取图像的高层语义特征，并关注图像的整体含义和场景关系；而VQ tokenizer编码器，专门用于创作，将图像转换为离散的token序列，这样架构创新使得Janus-Pro在7B参数规模下，仅用32个节点、256张A100和14天的时间就完成训练并取得出色性能表现。

3 英伟达、微软等巨头携手 DeepSeek，推动 AI 落地革新

3.1各科技巨头上线DeepSeek，提供开发和推理服务

国内外芯片厂商和云服务厂商迅速响应，纷纷接入DeepSeek模型，在海外，以英伟达、微软、亚马逊为首的科技巨头率先采用DeepSeek，在国内，腾讯云和华为云已经上线DeepSeek相关服务。

➢英伟达：2025 年 1 月 31 日，英伟达（NVIDIA）宣布，NVIDIA NIM 已支持使用 DeepSeek - R1。英伟达官网同日发文指出，为助力开发者安全试验这些功能并构建专属代理，DeepSeek - R1 模型已作为 NVIDIA NIM 微服务预览版上线。

➢微软：2025 年 1 月 30 日，微软宣布已将 DeepSeek - R1 正式纳入 Azure AI Foundry，成为该企业级 AI 服务平台的一部分。微软强调，DeepSeek - R1 模型已通过 “严格的红队测试与安全评估”，并历经 “模型行为自动化检测与广泛的安全审查” 以降低潜在风险。后续，微软还会持续评估该模型，或进行调整优化以提升其准确度和审查机制。

➢亚马逊：2025 年 1 月 31 日，亚马逊表示 DeepSeek - R1 模型已可在 Amazon Web Services 上使用，这一合作彰显了 DeepSeek 模型在云计算场景中的价值，有助于亚马逊为用户提供更具创新性和高效性的 AI 技术，提升用户在电商、数据分析等领域的体验，推动业务发展。

➢腾讯云：2025 年 2 月 2 日，腾讯云宣布将 DeepSeek-R1 大模型一键部署至其 HAI 平台，开发者仅需 3 分钟即可完成接入。这一举措降低了开发者使用 DeepSeek-R1 模型的门槛，使得更多基于该模型的创新应用能够快速开发和部署。借助腾讯云 HAI 平台的强大算力和丰富的生态资源，DeepSeek-R1 模型有望在内容创作、智能客服、数据分析等多个领域发挥更大的作用，为腾讯云的用户提供更加智能化的服务。

华为云：2025 年 2 月 1 日，硅基流动和华为云团队联合首发并上线基于华为云昇腾云服务的 DeepSeekR1/V3 推理服务。基于华为云昇腾云服务强大的算力支持，此次合作推出的推理服务能够充分发挥 DeepSeekR1/V3 模型的优势，为科研、医疗、工业制造等多个行业提供高效、精准的 AI 推理能力。

3.2国产大模型推理能力提升，加速在应用端落地

➢DeepSeek最新版模型展现出来的优异能力，表明国内大模型推理能力提升到一个新的阶段，大模型在各领域的应用有望加速加速落地。我们认为，DeepSeek给AI研究和企业端应用都将带来革新。

➢在AI研究与学术领域：DeepSeek AI推动大规模语言模型的进化，为未来的AI研究提供了新方向；提升AI可解释性，使开发者更容易理解模型的决策逻辑；加速自然语言处理（NLP）任务的突破，如文本生成、情感分析、机器翻译等。

➢在企业应用端，我们认为：首先现有的B端应用将最先迎来AI Agent，B端应用有成熟的数据、场景，例如客服、营销类场景会较快布局活跃有效的智能代理服务。其次，随着低参数模型性能翻倍，将更适用于追求低能耗的端侧AI创新产品。

以秘塔 AI 搜索为例，在融合DeepSeek-R1后，实现了 “国产最强推理全网实时搜索高质量知识库” 的结合，在多个方面利用 DeepSeek 技术提升用户体验：

➢处理复杂问题：借助 DeepSeek-R1 强大的复杂推理能力，结合自身的联网检索和海量知识库 / 论文数据，处理复杂查询。在预测《哪吒 2》票房成绩时，能结合海量搜索材料，考虑多个变量因素，确定基准数据和关键影响因素，构建数学模型进行预测，还能实时联网获取最新票房及各方预测结果。

➢提升专业知识查询能力：在查询专业知识时，如 OpenAI 模型进展相关问题，秘塔 AI 搜索可利用 DeepSeek 的推理能力深入分析资料。它能准确找出 2024 年以来 OpenAI 发布的模型及其技术突破，并总结出推理能力、多模态交互、效率优化、视频生成技术等四大技术突破方向，还提及市场竞争态势等信息，且提供具体引用细节。

➢优化搜索结果质量：对接 DeepSeek-R1 的推理能力后，秘塔 AI 搜索可以更准确地理解用户查询意图，处理多条件筛选、语义模糊等复杂查询，返回更快速、相关、精准的信息结果。同时，通过分析信息来源和内容逻辑性，过滤谣言等虚假信息，增强搜索结果的真实性和可靠性。

➢助力深度知识挖掘：让 DeepSeek-R1 拥有 AI 联网搜索及背后的高质量索引库，能够实时查询最新资料，全网搜罗、分析各种论文并形成思维导图汇总，满足用户从查询一项研究 / 技术的最新进展到纵观一个学科技术发展历程等多样需求。

4 相关标的

➢AI应用：金山办公、科大讯飞、焦点科技、彩讯股份、泛微网络、鼎捷数智、汉得信息、致远互联等。港股：迈富时、金蝶国际、明源云等

➢AI端侧：中科创达、虹软科技、中兴通讯、润欣科技、乐鑫科技、兆易创新、移远通信、恒玄科技；

5 风险提示

➢产品研发不及预期：如果DeepSeek大模型或者大模型应用研发不及预期，可能影响对算力的需求和应用的落地

➢市场需求不及预期：如果市场需求不足，则影响对算力需求及AI应用推广。

➢大模型商业落地不及预期：如果大模型未能找到足够多的商业落地场景，则可能影响大模型的盈利并影响产业界对大模型乃至算力的投资。