11月5日消息,近日,華為宣布針對AI推理加速的關鍵技術——UCM(Unified Cache Manager)推理記憶數據管理正式開源。
UCM以KV Cache多級緩存和推理記憶管理為中心,通過推理框架、算力、存儲的三層協同,破解長序列推理效率低、成本高的難題,為企業提供更優的AI推理體驗。
據介紹,UCM融合了多類型緩存加速算法工具,可分級管理在推理過程中產生的KV Cache記憶數據。
UCM具備四大關鍵能力:稀疏注意力、前綴緩存、預填充卸載、異構PD解耦。
它實現首Token時延最高降低90%,系統吞吐最大提升22倍,並達到10倍級上下文窗口擴展,顯著提升了AI推理性能。
目前,UCM已在ModelEngine社區開放基礎框架與工具鏈,開發者可通過社區獲取UCM源代碼與技術文檔。
文章来源:
快科技
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至23467321@qq.com举报,一经查实,本站将立刻删除;如已特别标注为本站原创文章的,转载时请以链接形式注明文章出处,谢谢!