快科技10月16日消息,還記得去年底引發熱議、上熱搜的「95後AI天才少女」羅福莉嗎?
據媒體報道,小米和北京大學聯合署名的論文近日發表於arXiv,曾被曝獲小米集團創始人兼CEO雷軍以千萬年薪招募的DeepSeek「天才少女」羅福莉,就出現在了這篇論文的通訊作者之列。
不過值得注意的是,論文作者中並沒有標註羅福莉屬於小米大模型團隊。
公開報道顯示,羅福莉是95後,本科就讀於北京師範大學計算機專業,碩士畢業於北京大學計算語言學研究所計算語言學專業。
畢業後的羅福莉曾在阿里巴巴達摩院主導開發了多語言預訓練模型VECO,並推動了AliceMind的開源工作,2022年入職DeepSeek,參與了MoE大模型DeepSeek-V2的研發。
去年年底,據證券時報獨家報道稱,小米創始人雷軍親自出手「挖人」,以千萬年薪的優厚條件,成功招攬了DeepSeek開源大模型DeepSeek-V2的關鍵開發者之一——羅福莉,讓她領導小米的AI大模型團隊。
這也使其衝上熱搜,但雙方至今都未公開聲明是否正式入職小米。
不過,今年2月18日,羅福莉在朋友圈發文呼籲:「請網際網路還我一片安安靜靜做事的氛圍吧!幾年前就說過我並非天才少女,神化一個人的結果就是捧得多高摔得多重!」
據悉,這篇論文提出了提升MoE模型強化學習訓練的新方法Rollout Routing Replay(R3)。
當下,強化學習已成為提升大語言模型能力的關鍵方法。然而在MoE模型中,路由機制往往會引入不穩定性,甚至導致強化學習訓練崩潰,但現有的引入重要性採樣機制等並不能提升訓練穩定性。
不同於此前採取諸如丟棄差異較大的數據之類的變通方法,這篇論文的研究人員希望通過解決路由分布也就是R3來根本性解決這個問題。