華為正式開源UCM技術:最大提升22倍 AI推理性能躍升

神马作文网 教育资讯 26

11月5日消息,近日,華為宣布針對AI推理加速的關鍵技術——UCM(Unified Cache Manager)推理記憶數據管理正式開源。

UCM以KV Cache多級緩存和推理記憶管理為中心,通過推理框架、算力、存儲的三層協同,破解長序列推理效率低、成本高的難題,為企業提供更優的AI推理體驗。

據介紹,UCM融合了多類型緩存加速算法工具,可分級管理在推理過程中產生的KV Cache記憶數據。

UCM具備四大關鍵能力:稀疏注意力、前綴緩存、預填充卸載、異構PD解耦。

它實現首Token時延最高降低90%,系統吞吐最大提升22倍,並達到10倍級上下文窗口擴展,顯著提升了AI推理性能。

目前,UCM已在ModelEngine社區開放基礎框架與工具鏈,開發者可通過社區獲取UCM源代碼與技術文檔。


抱歉,评论功能暂时关闭!