阿里雲推出全新AI計算解決方案：大模型所需GPU狂降82%！

神马作文网教育资讯 2025-10-21 17:16:00 13

快科技10月21日消息，在近日於韓國首爾舉辦的頂級學術會議SOSP 2025（操作系統原理研討會）上，阿里雲發布了其「Aegaeon」計算池化解決方案。

Aegaeon方案的核心在於解決AI模型服務中普遍存在的GPU資源浪費問題，尤其針對那些需求突發或不可預測的大型語言模型。

它打破了傳統的「一個模型綁定一個GPU」的低效模式，而是在Token級別虛擬化GPU訪問，這意味著單個GPU可以被多個不同模型共享服務，實現精細化的資源調度。

阿里雲Aegaeon系統作為一種推理時間調度器，它能在每次生成下一個token後，動態決定是否切換模型，從而將微小的工作片段安排到共享池中。

通過組件復用、顯存精細化管理和KV緩存同步優化等全棧技術，Aegaeon將模型切換開銷降低了97%，確保了token級調度的實時性，可支持亞秒級的模型切換響應。

在阿里雲模型市場為期超三個月的Beta測試中，Aegaeon系統在服務數十個參數量高達720億的大模型時，所需的NVIDIA H20 GPU數量從1192個銳減至213個，削減比例高達82%。

GPU用量的大幅削減，對於硬體採購成本高昂的大型模型服務商而言，意味著成本將顯著降低。

目前，這項核心技術已成功應用在阿里雲百鍊平台。

本文地址： http://smzww.com/1434935.html

文章来源：快科技