阿里開源通義DeepResearch：登頂開源Agent模型榜首性能超OpenAI、DeepSeek旗艦

神马作文网教育资讯 2025-09-17 17:20:08 32

9月17日消息，今日凌晨，阿里開源旗下首個深度研究Agent模型——通義DeepResearch，並登頂開源第一。

該模型在HLE、BrowseComp-zh、GAIA等多個權威評測集上取得SOTA成績(State-of-the-art)，超越OpenAI Deep Research、DeepSeek-V3.1等Agent模型。

目前，通義DeepResearch的模型、框架和方案均已全面開源，用戶可在Github、Hugging Face和魔搭社區社區下載模型和代碼。

作為當前研究熱點，「深度研究」的現有方法通常是「單窗口、線性累加」的信息處理模式，所有中間思路和檢索到的信息堆積在單一上下文中。

當處理長周期任務時，Agent會面臨「認知空間窒息」和「不可逆的噪聲污染」的挑戰，導致推理能力下降，最終難以完成真正長程、複雜的研究任務。

為此，通義團隊構建了一套以合成數據驅動、貫穿預訓練與後訓練的完整訓練鏈路。

該鏈路以Qwen3-30B-A3B模型為基座進行優化，團隊創新性地設計了覆蓋真實環境與虛擬環境的RL算法驗證與真實訓練模塊，並結合高效異步強化學習算法及自動化數據策展（Data Curation）流程，顯著提升了模型的疊代速度和泛化能力。

在推理階段，團隊設計了ReAct和基於自研的IterResearch的Heavy兩種模式。

前者用於精準考察模型的基礎內在能力，後者則通過test-time scaling策略，充分挖掘並展現了模型所能達到的性能上限。

即使在長任務中，也能實現高質量的推理。

目前，在Humanity's Last Exam（HLE）、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等權威Agent評測集上，通義DeepResearch模型以3B激活參數，性能超越基於OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等旗艦模型的ReAct Agent。

今年以來，阿里已連續開源WebWalker、WebDancer和WebSailor等多款檢索和推理智能體，並全部斬獲開源SOTA成績。

本文地址： http://smzww.com/1433727.html

文章来源：快科技

阿里開源通義DeepResearch：登頂開源Agent模型榜首 性能超OpenAI、DeepSeek旗艦

阿里開源通義DeepResearch：登頂開源Agent模型榜首性能超OpenAI、DeepSeek旗艦