超越英偉達、谷歌!騰訊KaLM-Embedding開源模型斬獲MTEB多語言榜單全球第一

神马作文网 教育资讯 12

11月12日消息,今日,「騰訊開源」微信公眾號宣布,來自騰訊微信團隊的KaLM-Embedding開源模型再創全球新紀錄。

在最新發布的MTEB多語言通用Embedding模型權威評測中,新一代通用Embedding模型KaLM-Embedding-Gemma3-12B-2511綜合成績全球第一。

據介紹,在涵蓋全球1038種語言、共計131項任務的權威多語言評測體系MTEB中,KaLM-Embedding-Gemma3-12B-2511綜合得分分別達到 72.32(Mean Task)與62.51(Mean TaskType),斬獲全球第一。

超越包括英偉達nvidia/llama-embed-nemotron-8b、阿里Qwen/Qwen3-Embedding-8B、谷歌Google/gemini-embedding-001等國內外主流開源與閉源競品。

KaLM-Embedding-Gemma3-12B-2511核心亮點解析

模型規模:參數量提升至120億(12B),是當前MTEB榜單上最大規模的Embedding模型之一,顯著增強了模型的表示能力與泛化性能。

跨語言能力:在多語言語義對齊方面實現顯著優化,支持更精準的跨語種語義理解與檢索任務。

數據質量:基於經過深度清洗與篩選的大規模高質量語料進行訓練,有效提升語義表示的一致性與可靠性。

訓練策略:採用多階段對比學習、Embedding蒸餾和模型參數融合等技術,進一步提升模型多維度能力表現與綜合性能。

維度嵌套:支持多種向量維度選擇,涵蓋3840、2048、1024、512、256、128及64等多個層級,滿足不同場景下的高效應用需求。


抱歉,评论功能暂时关闭!