螞蟻萬億參數思考模型Ring-1發布即開源 刷新多項開源SOTA 綜合能力逼近GPT-5

神马作文网 教育资讯 108

快科技10月14日消息,今日凌晨,螞蟻集團正式推出萬億參數思考模型Ring-1T,並全面開源模型權重、訓練配方。

Ring-1T在9月30日開源的預覽版Ring-1T-preview基礎上,持續擴展大規模可驗證獎勵強化學習(RLVR)訓練,進一步激發萬億基座的自然語言推理能力,並通過 RLHF 訓練完善模型通用能力,在各項任務榜單上表現更加均衡。

為了持續激發Ring-1T的數學等複雜推理能力,此次百靈團隊挑戰了難度更高的IMO2025(國際數學奧利匹克)賽題,將Ring-1T接入多智能體框架AWorld,使用純自然語言推理進行解題。

實驗結果顯示,Ring-1T僅用一次解出了第1、3、4、5題,相當於IMO銀牌水平,成為首個能拿IMO國際奧數獎的開源系統。

值得一提的是,作為一款思考模型,Ring-1T也表現出了極佳的通用能力,在「人類偏好對齊」測試Arena-Hard V2中,Ring-1T以81.59的成功率居於開源模型榜首,逼近GPT-5-Thinking(High)82.91的成績。

在面向嚴謹領域的醫療問答HealthBench測評中,Ring-1T也以最高分取得開源領域最佳。

據了解,萬億參數思考模型訓練最大難題是訓推精度差異,即訓練階段與推理階段因實現細節差異導致的訓練和推理精度不一致,進而導致訓練崩潰。

在Ring-1T模型中,螞蟻採用了自研的「棒冰(icepop)」算法來應對這項行業難題,即用帶掩碼的雙向截斷技術把訓練-推理分布差異凍結在低水位,確保長序列、長周期訓練不崩。

此外,應對萬億參數模型強化學習訓練,螞蟻還自研了高性能強化學習系統ASystem(其中包含已開源的高性能強化學習框架AReaL),特別針對萬億參數模型的顯存管理和訓推權重交換問題做了精細的優化,實現了單機顯存碎片秒級回收、權重零冗餘交換,把大規模RL訓練穩定跑成日常。

據了解,本次發布的Ring-1T模型繼續採用Ling 2.0架構的1T base模型做後訓練,Ling 2.0採用了包括高度稀疏的MoE架構,1/32的專家激活比、FP8混合精度、MTP等諸多特性實現高效訓練與推理。

在後訓練階段,螞蟻百靈團隊通過LongCoT-SFT + RLVR + RLHF多階段訓練,顯著提升了模型的複雜推理能力以及指令跟隨和創意寫作等通用能力。

據百靈團隊透露,Ring-1T模型是其在萬億思考模型上的首次嘗試,螞蟻百靈團隊會在後續的版本中繼續完善模型性能。

目前,用戶可通過HuggingFace、魔搭社區下載模型,並通過螞蟻百寶箱等平台在線體驗。


抱歉,评论功能暂时关闭!