阿里开源「深度研究」王炸Agent，登顶开源Agent模型榜首

▲头图由AI生成

3B参数超越OpenAI o3、DeepSeek V3.1。

作者 | 王涵

编辑 | 漠影

智东西9月17日报道，今天凌晨，阿里巴巴开源了其首个深度研究Agent模型：通义DeepResearch。

在Humanity's Last Exam（HLE）、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等权威Agent评测集中，通义DeepResearch模型凭借3B激活参数，性能超越基于OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等旗舰模型的ReAct Agent（推理-行动智能体）。

▲基准测试成绩排名

▲基准测试分数

目前，通义DeepResearch的模型、框架和方案已在Github、Hugging Face和魔搭社区全面开源，开发者和用户可自行下载模型与代码。

下载地址：

Github：

https://github.com/Alibaba-NLP/DeepResearch

Hugging Face：

https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

魔搭社区：

https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B

深度研究作为近一年的AI研究热点，吸引了谷歌、OpenAI、Anthropic等众多主流企业投入研发。

深度研究研发的现有方法大多采用“单窗口、线性累加”的信息处理模式，在处理长周期任务时，Agent易遭遇“认知空间窒息”与“不可逆的噪声污染”，导致推理能力降低，难以完成复杂研究任务。

据介绍，为解决这些问题，阿里通义团队构建了一套合成数据驱动的完整训练链路，覆盖预训练与后训练阶段。

该链路以Qwen3-30B-A3B模型为基础进行优化，设计了RL算法验证与真实训练模块，涵盖真实与虚拟环境，并借助异步强化学习算法及自动化数据策展流程，有效提升了模型的迭代速度与泛化能力。

在推理阶段，通义团队还设计了ReAct和基于自研IterResearch的Heavy两种模式。ReAct用于精准评估模型的基础内在能力，Heavy则通过test-time scaling策略，充分挖掘模型的性能上限，确保在长任务中也能实现高质量推理。

结语：阿里进一步补全开源布局

今年以来，阿里已陆续开源WebWalker、WebDancer和WebSailor等多款检索和推理智能体，且均取得开源SOTA成绩。通义DeepResearch的开源，进一步丰富了阿里在AI智能体领域的开源布局。

通义DeepResearch的开源为深度研究Agent赛道提供了“轻量化高性能”的新选择，也为全球开发者攻克长周期复杂研究任务提供了关键工具支撑。