9月17日消息,今日凌晨,阿里開源旗下首個深度研究Agent模型——通義DeepResearch,並登頂開源第一。
該模型在HLE、BrowseComp-zh、GAIA等多個權威評測集上取得SOTA成績(State-of-the-art),超越OpenAI Deep Research、DeepSeek-V3.1等Agent模型。
目前,通義DeepResearch的模型、框架和方案均已全面開源,用戶可在Github、Hugging Face和魔搭社區社區下載模型和代碼。
作為當前研究熱點,「深度研究」的現有方法通常是「單窗口、線性累加」的信息處理模式,所有中間思路和檢索到的信息堆積在單一上下文中。
當處理長周期任務時,Agent會面臨「認知空間窒息」和「不可逆的噪聲污染」的挑戰,導致推理能力下降,最終難以完成真正長程、複雜的研究任務。
為此,通義團隊構建了一套以合成數據驅動、貫穿預訓練與後訓練的完整訓練鏈路。
該鏈路以Qwen3-30B-A3B模型為基座進行優化,團隊創新性地設計了覆蓋真實環境與虛擬環境的RL算法驗證與真實訓練模塊,並結合高效異步強化學習算法及自動化數據策展(Data Curation)流程,顯著提升了模型的疊代速度和泛化能力。
在推理階段,團隊設計了ReAct和基於自研的IterResearch的Heavy兩種模式。
前者用於精準考察模型的基礎內在能力,後者則通過test-time scaling策略,充分挖掘並展現了模型所能達到的性能上限。
即使在長任務中,也能實現高質量的推理。
目前,在Humanity's Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等權威Agent評測集上,通義DeepResearch模型以3B激活參數,性能超越基於OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等旗艦模型的ReAct Agent。
今年以來,阿里已連續開源WebWalker、WebDancer和WebSailor等多款檢索和推理智能體,並全部斬獲開源SOTA成績。