挑戰英偉達：首個純 AMD 硬體訓練的 AI 大模型 ZAYA1 登場

神马作文网教育资讯 2025-11-25 19:00:50 13

11 月 25 日消息，AMD 公司昨日（11 月 24 日）發布公告，宣布攜手 IBM 和 AI 初創公司 Zyphra，歷時 1 年多時間，成功使用 AMD 硬體訓練出首個大型混合專家（MoE）基礎模型 ZAYA1。

IT之家援引博文介紹，該模型是首個完全基於 AMD 硬體生態系統構建的大型混合專家（MoE）模型，其訓練過程完全在 IBM 雲上進行，使用了 AMD Instinct MI300X GPU、Pensando 網絡技術和 ROCm 軟體平台，其詳細技術報告已在 arXiv 上發布。

三方為訓練 ZAYA1 模型，共同搭建了一個大規模、高可靠性的專用訓練集群。該集群由 128 個節點組成，每個節點配備 8 塊 AMD MI300X GPU，總計 1024 塊 GPU，通過 AMD InfinityFabric 高速互聯。

整個集群的實際訓練性能超過 750 PFLOPs（每秒 75 億億次浮點運算），同時 Zyphra 為確保了訓練過程的穩定與高效，還開發了一套針對 AMD 平台高度優化的訓練框架。

ZAYA1 基礎模型在預訓練階段使用了高達 14 萬億（14T）tokens 的數據，並採用了分階段的課程學習策略：從初期的非結構化網絡數據，逐步過渡到結構更清晰、信息密度更高的數學、代碼和推理數據。

基準測試結果顯示，ZAYA1 的綜合性能與業界領先的 Qwen3 系列模型不相上下，同時優於 SmolLM3、Phi4 等主流開源模型。特別是在未經特定指令微調的情況下，其推理版本在數學和 STEM 等複雜推理任務上已接近 Qwen3 的專業版本。

ZAYA1 的優異性能還得益於其在模型架構上的兩項關鍵創新。首先，它採用了新穎的 CCA 注意力機制（Compressive Convolutional Attention），通過在注意力模塊內部引入卷積操作，顯著降低了計算量和顯存占用。

其次，該模型改進了混合專家模型（MoE）中常用的線性路由（linear router），設計了新的路由結構，提升了模型的表達能力和專家模塊的專業化程度。這些創新共同解決了 Transformer 架構中的計算與內存瓶頸。

Zyphra 表示，ZAYA1 的成功發布只是第一步。目前公布的僅為基礎模型預覽，未來團隊將發布經過完整後訓練（post-trained）的模型版本，並提供更詳盡的性能評測和訓練經驗分享。

本文地址： http://smzww.com/1437640.html

文章来源： IT之家