騰訊混元公布,HPC-Ops推理算子庫迎來系統級升級,從單點算子進化為覆蓋推理全鏈路的優化能力集合,包含五大關鍵算子。本次升級在主流推理平台上,有效緩解Attention長尾延遲、顯存搬運開銷、跨卡通信等實際工程瓶頸,多項性能指標顯著優於現有的開源基線。
HPC-Ops是騰訊混元AI Infra團隊開源並長期維護的一套工業級、高性能的大模型推理底層算子庫。本次升級的主要亮點包括:
Attention:針對真實負載下長短請求混排導致的計算不均、推理長尾問題,採用運行時動態負載調度方案,實測長文本最高加速2.95x,端到端QPM最高提升17%。
Router GEMM:以雙BF16 GEMM組合實現FP32級高精度計算,兼顧推理精度與GPU算力利用率。精度顯著優於常規BF16/TF32方案,對比CuBLAS FP32最高提速3.22x。
FusedMoE:構建MoE全模塊流水線,整合多階段流程、消除顯存搬運與內核啟動開銷。相較vLLM、SGLang等主流框架,性能提升1.2x-1.6x。
Fused AllReduce+Norm:深度融合跨GPU通信、殘差疊加與歸一化計算。對比NCCL、FlashInfer主流方案,性能實現1.04x-1.68x提速。
Sampler:將解碼階段的採樣計算(原本需要十多個操作算子)融合為2個CUDA Kernel,大幅減少調度、讀寫與同步冗餘開銷。相較vLLM提速4.0x-7.5x、較FlashInfer提速1.9x-4.7x,補齊推理末端短板。(jl/da)
AASTOCKS新聞