超越英偉達、谷歌！騰訊KaLM-Embedding開源模型斬獲MTEB多語言榜單全球第一

神马作文网教育资讯 2025-11-12 16:51:38 12

11月12日消息，今日，「騰訊開源」微信公眾號宣布，來自騰訊微信團隊的KaLM-Embedding開源模型再創全球新紀錄。

在最新發布的MTEB多語言通用Embedding模型權威評測中，新一代通用Embedding模型KaLM-Embedding-Gemma3-12B-2511綜合成績全球第一。

據介紹，在涵蓋全球1038種語言、共計131項任務的權威多語言評測體系MTEB中，KaLM-Embedding-Gemma3-12B-2511綜合得分分別達到 72.32（Mean Task）與62.51（Mean TaskType），斬獲全球第一。

超越包括英偉達nvidia/llama-embed-nemotron-8b、阿里Qwen/Qwen3-Embedding-8B、谷歌Google/gemini-embedding-001等國內外主流開源與閉源競品。

KaLM-Embedding-Gemma3-12B-2511核心亮點解析

模型規模：參數量提升至120億（12B），是當前MTEB榜單上最大規模的Embedding模型之一，顯著增強了模型的表示能力與泛化性能。

跨語言能力：在多語言語義對齊方面實現顯著優化，支持更精準的跨語種語義理解與檢索任務。

數據質量：基於經過深度清洗與篩選的大規模高質量語料進行訓練，有效提升語義表示的一致性與可靠性。

訓練策略：採用多階段對比學習、Embedding蒸餾和模型參數融合等技術，進一步提升模型多維度能力表現與綜合性能。

維度嵌套：支持多種向量維度選擇，涵蓋3840、2048、1024、512、256、128及64等多個層級，滿足不同場景下的高效應用需求。

本文地址： http://smzww.com/1435947.html

文章来源：快科技