6 月 24 日,在 2026 MWC 上海展期间,华为与中国移动通信集团湖北有限公司联合宣布,双方已成功完成全国运营商首个 AI 推理加速解决方案现网测试。
称,随着 AI 应用加速向 Agent形态演进,长上下文序列已成为典型场景,但传统算力卡高带宽内存容量有限,严重制约了 KV Cache 的命中率。华为在 2025 年底重磅推出了 UCM 推理记忆数据管理技术,打破高带宽内存和 DRAM 的容量限制,通过外置存储提供 PB 级的 KV Cache,并对 KV Cache 进行全生命周期的分层管理与调度,不仅在单次对话时大幅扩展上下文窗口,还能在多轮对话中复用历史 KV Cache,避免重复计算。
本次测试在湖北移动现网环境中部署 vLLM-Ascend 框架,针对MiniMax M2.5、GLM-5.1等主流大模型,模拟了 8K 至 190K 长序列输入场景。测试结论如下:
华为表示,测试表明,随着上下文长度增加,AI 推理加速方案优势持续放大,有效解决了长序列推理中的 KV Cache 容量瓶颈。










