小米AI新論文！雷軍曾用千萬年薪要挖的DeepSeek天才少女署名

神马作文网教育资讯 2025-10-16 17:06:04 70

快科技10月16日消息，還記得去年底引發熱議、上熱搜的「95後AI天才少女」羅福莉嗎？

據媒體報道，小米和北京大學聯合署名的論文近日發表於arXiv，曾被曝獲小米集團創始人兼CEO雷軍以千萬年薪招募的DeepSeek「天才少女」羅福莉，就出現在了這篇論文的通訊作者之列。

不過值得注意的是，論文作者中並沒有標註羅福莉屬於小米大模型團隊。

公開報道顯示，羅福莉是95後，本科就讀於北京師範大學計算機專業，碩士畢業於北京大學計算語言學研究所計算語言學專業。

畢業後的羅福莉曾在阿里巴巴達摩院主導開發了多語言預訓練模型VECO，並推動了AliceMind的開源工作，2022年入職DeepSeek，參與了MoE大模型DeepSeek-V2的研發。

去年年底，據證券時報獨家報道稱，小米創始人雷軍親自出手「挖人」，以千萬年薪的優厚條件，成功招攬了DeepSeek開源大模型DeepSeek-V2的關鍵開發者之一——羅福莉，讓她領導小米的AI大模型團隊。

這也使其衝上熱搜，但雙方至今都未公開聲明是否正式入職小米。

不過，今年2月18日，羅福莉在朋友圈發文呼籲：「請網際網路還我一片安安靜靜做事的氛圍吧！幾年前就說過我並非天才少女，神化一個人的結果就是捧得多高摔得多重!」

據悉，這篇論文提出了提升MoE模型強化學習訓練的新方法Rollout Routing Replay（R3）。

當下，強化學習已成為提升大語言模型能力的關鍵方法。然而在MoE模型中，路由機制往往會引入不穩定性，甚至導致強化學習訓練崩潰，但現有的引入重要性採樣機制等並不能提升訓練穩定性。

不同於此前採取諸如丟棄差異較大的數據之類的變通方法，這篇論文的研究人員希望通過解決路由分布也就是R3來根本性解決這個問題。

本文地址： http://smzww.com/1434738.html

文章来源：快科技