華為首次線下展出昇騰384超節點！任正非的話應驗：晶片問題其實沒必要擔心

神马作文网教育资讯 2025-07-27 16:55:18 38

快科技7月27日消息，今年6月，華為CEO任正非接受人民日報採訪時曾表示，晶片問題其實沒必要擔心，用疊加和集群等方法，計算結果上與最先進水平是相當的。

「我們單晶片還是落後美國一代，我們用數學補物理、非摩爾補摩爾，用群計算補單晶片，在結果上也能達到實用狀況。」他說。

如今，這句話已經應驗。

7月26日，2025世界人工智慧大會（WAIC）在上海世博中心啟幕，華為首次線下展出昇騰384超節點，即Atlas 900 A3 SuperPoD，該產品基於超節點架構，通過總線技術實現384個NPU之間的大帶寬低時延互聯，解決集群內計算、存儲等各資源之間的通信瓶頸。

通過系統工程的優化，實現資源的高效調度，讓超節點像一台計算機一樣工作。

在今年5月的鯤鵬昇騰開發者大會上，華為推出了昇騰超節點（CloudMatrix 384），成功實現業界最大規模的384卡高速總線互聯。昇騰超節點具備超大帶寬、超低時延、超強性能的三大優勢，包括多款訓練和推理產品，基於超節點創新架構，更好的滿足模型訓練和推理對低時延，大帶寬，長穩可靠的要求。

本月初，華為雲官微通過一段視頻展示了CloudMatrix 384超節點算力集群的威力——

384顆昇騰NPU（昇騰910C）+192顆鯤鵬CPU全對等互聯，形成一台「超級AI服務器」；

業界最大單卡推理吞吐量——2300Tokens/s；

業界最大集群算力——16萬卡，萬卡線性度高達95%；

雲上確定性運維-40天長穩訓練、10分鐘快速恢復。

華為雲表示，新一代昇騰AI雲服務，是最適合大模型應用的算力服務。

簡單來說，華為CloudMatrix並非簡單的「堆卡」，而是通過高帶寬全對等互聯（Peer-to-Peer）來設計，這也是CloudMatrix 384硬體架構的一大創新。

傳統的AI集群中，CPU相當於公司領導的角色，NPU等其它硬體更像是下屬，數據傳輸的過程中就需要CPU審批和簽字，效率就會大打折扣。

但在CloudMatrix384中，CPU和NPU等硬體更像是一個扁平化管理的團隊，它們之間的地位比較平等，直接通過UB網絡通信直接對話，效率自然就上來了。

今年4月份，國際知名半導體研究和諮詢機構SemiAnalysis發布專題報道稱，華為雲最新推出的AI算力集群解決方案CloudMatrix 384（簡稱CM384）憑藉其顛覆性的系統架構設計與全棧技術創新，在多項關鍵指標上實現對英偉達旗艦產品GB200 NVL72的超越，標誌著中國在人工智慧基礎設施領域實現里程碑式突破。

據SemiAnalysis披露，華為雲CM384基於384顆昇騰晶片構建，通過全互連拓撲架構實現晶片間高效協同，可提供高達300 PFLOPs的密集BF16算力，接近達到英偉達GB200 NVL72系統的兩倍。此外，CM384在內存容量和帶寬方面同樣占據優勢，總內存容量超出英偉達方案3.6倍，內存帶寬也達到2.1倍，為大規模AI訓練和推理提供了更高效的硬體支持。

（圖片引自SemiAnalysis報道）

報道分析稱，儘管單顆昇騰晶片性能約為英偉達Blackwell架構GPU的三分之一，但華為通過規模化系統設計，成功實現整體算力躍升，並在超大規模模型訓練、實時推理等場景中展現更強競爭力。

SemiAnalysis也指出，華為的工程優勢不僅體現在晶片層面，更在於系統級的創新，包括網絡架構、光學互聯和軟體優化，使得CM384能夠充分發揮集群算力，滿足超大規模AI計算需求。

此次華為雲CloudMatrix 384的發布，標誌著中國在AI計算系統領域已具備與國際巨頭正面競爭的實力。

SemiAnalysis在報道中特別指出，華為的規模化解決方案「領先於英偉達和AMD目前市場上的產品一代」，並認為中國在AI基礎設施上的突破將對全球AI產業格局產生深遠影響。

本文地址： http://smzww.com/1432000.html

文章来源：快科技