阿里 Qwen 团队开源高性能线性注意力内核库 FlashQLA,基于 TileLang 构建,针对 Gated DeltaNet(GDN)Chunked Prefill 的前向与反向算子做了深度融合与优化。在 NVIDIA Hopper 架构(SM90 及以上)多个场景下,相较此前主流的 FLA Triton 内核实现 2-3 倍前向加速、2 倍反向加速,预训练与端侧 Agent 推理场景下加速比尤为明显。基准测试覆盖 Qwen3.5 / Qwen3.6 系列实际使用的 head 配置(h_k,v ∈ {64, 48, 32, 24, 16, 8},对应 TP1 至 TP8),对比基线为 FLA 0.5.0、Triton 3.5.1、FlashInfer 0.6.9 与 TileLang 0.1.8。
技术上 FlashQLA 主打三项优化:一是利用 GDN gate 的指数衰减特性,在 TP、长序列、小 head 数等场景下自动开启卡内 Context Parallel(intra-card CP),提升 GPU SM 利用率;二是对前向与反向做硬件友好的代数重写,在不损失数值精度的前提下显著降低 Tensor Core、CUDA Core 与 SFU 开销;三是采用 TileLang 构建多个融合 warp-specialized 内核,手动实现 warpgroup 特化以重叠数据搬运、Tensor Core 与 CUDA Core 计算——既不像传统实现那样拆分为多个独立 kernel,也不强求把整个流程压进单一 kernel。要求 SM90 及以上、CUDA 12.8、PyTorch 2.8,已采用 MIT 许可证开源。仓库目前 49 star、2 fork。
GitHub - QwenLM/FlashQLA | Qwen Blog
https://github.com/QwenLM/FlashQLA
https://qwen.ai/blog?id=flashqla