挑戰英偉達:首個純 AMD 硬體訓練的 AI 大模型 ZAYA1 登場

神马作文网 教育资讯 13

11 月 25 日消息,AMD 公司昨日(11 月 24 日)發布公告,宣布攜手 IBM 和 AI 初創公司 Zyphra,歷時 1 年多時間,成功使用 AMD 硬體訓練出首個大型混合專家(MoE)基礎模型 ZAYA1。

IT之家援引博文介紹,該模型是首個完全基於 AMD 硬體生態系統構建的大型混合專家(MoE)模型,其訓練過程完全在 IBM 雲上進行,使用了 AMD Instinct MI300X GPU、Pensando 網絡技術和 ROCm 軟體平台,其詳細技術報告已在 arXiv 上發布。

三方為訓練 ZAYA1 模型,共同搭建了一個大規模、高可靠性的專用訓練集群。該集群由 128 個節點組成,每個節點配備 8 塊 AMD MI300X GPU,總計 1024 塊 GPU,通過 AMD InfinityFabric 高速互聯。

整個集群的實際訓練性能超過 750 PFLOPs(每秒 75 億億次浮點運算),同時 Zyphra 為確保了訓練過程的穩定與高效,還開發了一套針對 AMD 平台高度優化的訓練框架。

ZAYA1 基礎模型在預訓練階段使用了高達 14 萬億(14T)tokens 的數據,並採用了分階段的課程學習策略:從初期的非結構化網絡數據,逐步過渡到結構更清晰、信息密度更高的數學、代碼和推理數據。

基準測試結果顯示,ZAYA1 的綜合性能與業界領先的 Qwen3 系列模型不相上下,同時優於 SmolLM3、Phi4 等主流開源模型。特別是在未經特定指令微調的情況下,其推理版本在數學和 STEM 等複雜推理任務上已接近 Qwen3 的專業版本。

ZAYA1 的優異性能還得益於其在模型架構上的兩項關鍵創新。首先,它採用了新穎的 CCA 注意力機制(Compressive Convolutional Attention),通過在注意力模塊內部引入卷積操作,顯著降低了計算量和顯存占用。

其次,該模型改進了混合專家模型(MoE)中常用的線性路由(linear router),設計了新的路由結構,提升了模型的表達能力和專家模塊的專業化程度。這些創新共同解決了 Transformer 架構中的計算與內存瓶頸。

Zyphra 表示,ZAYA1 的成功發布只是第一步。目前公布的僅為基礎模型預覽,未來團隊將發布經過完整後訓練(post-trained)的模型版本,並提供更詳盡的性能評測和訓練經驗分享。


抱歉,评论功能暂时关闭!