人工智能正从“能聊天”向“会研究”跃迁,阿里通义开源的DeepResearch模型让复杂任务处理变得像搜索一样简单。
2025年9月17日,阿里巴巴通义实验室宣布开源其深度研究Agent模型——通义DeepResearch,这是全球首个性能媲美OpenAI等顶级厂商同类产品的开源Web Agent。
该模型采用30B总参数、每token仅激活3B的MoE结构,支持128K上下文长度,能够执行复杂的多步骤研究任务。
01 突破技术瓶颈,解决长任务处理难题
现有AI代理模型在处理长周期任务时,通常面临“知空间窒息”和“不可逆的噪声污染”的挑战,导致推理能力下降,难以完成复杂研究任务。
通义DeepResearch团队针对这些痛点,构建了一套以合成数据驱动、贯穿预训练与后训练的完整训练链路。
模型基于Qwen3-30B-A3B模型为基座进行优化,创新性地设计了覆盖真实环境与虚拟环境的RL算法验证与训练模块。
02 创新训练方法论,合成数据驱动突破
通义DeepResearch项目的核心贡献不仅在于模型本身,更在于一套完整的、端到端的智能体训练方法论。
团队引入了全流程数据合成方案,不依赖昂贵的人工标注,通过创新的数据合成方法,为智能体的持续预训练、监督微调和强化学习提供海量高质量数据。
团队建立了从“智能体持续预训练”到“智能体强化学习”的无缝训练循环,并采用定制化的在策略强化学习算法来对齐模型行为。
03 双重推理模式,应对不同复杂度任务
通义DeepResearch支持两种推理模式:标准的ReAct模式和基于IterResearch范式的“重模式”。
ReAct模式遵循经典的“思考-行动-观察”循环,128K的上下文长度支持大量的交互轮次,适合一般复杂度的研究任务。
IterResearch范式则专门设计用于解决Agent在长程任务中的认知瓶颈和噪音污染问题。它将一项任务解构为一系列“研究轮次”,在每一轮中重建精简的工作空间,保持清晰的“认知焦点”。
04 多项测评领先,性能达到业界标杆
在性能表现上,通义DeepResearch在Humanity’s Last Exam(HLE)、BrowseComp-zh、GAIA等多个权威评测集上取得SOTA(领先水平)成绩。
模型综合能力对标并跑赢海外旗舰模型,基于3B激活参数,性能比肩基于OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等旗舰模型的ReAct Agent。
特别值得一提的是,该模型不仅在英语任务中表现卓越,在中文环境下的研究能力同样出色,为中文AI社区提供了强大工具。
05 全面开源开放,助力AI研究普及
与海外旗舰模型昂贵和限制调用相比,通义DeepResearch团队做到了完全开源:开源模型、开源框架、开源方案。
开发者现可在GitHub、HuggingFace与ModelScope平台下载模型和代码,配套的Python 3.10环境、JSONL评测脚本以及benchmark评估工具也已一并开源。
这一开放举措将大大降低开发者使用高级研究Agent的门槛,促进AI研究能力的普及和应用创新。
通义DeepResearch已经在多个实际场景中落地应用。
与高德地图共同开发的“小高老师”,可通过应用丰富工具集的人工智能副驾驶,执行复杂的旅行规划命令。
在法律领域,通义法睿在DeepResearch架构的赋能下,能够自主执行复杂的多步骤研究任务,系统地检索案例、交叉引用法规并进行综合分析,模拟初级律师的工作流程。

关注 “悠AI” 更多干货技巧行业动态