标签为“注意力机制”的主题

阿里 Qwen 团队开源高性能线性注意力内核库 FlashQLA，基于 TileLang 构建，针对 Gated DeltaNet（GDN）Chunked Prefill 的前向与反向算子做了深度融合与优化。在 NVIDIA Hopper 架构（SM90 及以上）多个场景下，相较此前主流的 FLA Triton 内核实现 2-3 倍前向加速、2 倍反向加速，预训练与端侧 Agent 推理场景下加速比尤为明显。基准测试覆盖 Qwen3.5 / Qwen3.6 系列实际使用的 head 配置（h_k,v ∈ {64, 48, 32, 24, 16, 8}，对应 TP1 至 TP8），对比基线为 FLA 0.5.0、Triton 3.5.1、FlashInfer 0.6.9 与 TileLang 0.1.8。技术上 FlashQLA 主打三项优化：一是利用 GDN gate 的指数衰减特性，在 TP、长序列、小 head 数等场景下自动开启卡内 Context Parallel（intra-card CP），提升 GPU SM 利用率；二是对前向与反向做硬件友好的代数重写，在不损失数值精度的前提下显著降低 Tensor Core、CUDA Core 与 SFU 开销；三是采用 TileLang 构建多个融合 warp-specialized 内核，手动实现 warpgroup 特化以重叠数据搬运、Tensor Core 与 CUDA Core 计算——既不像传统实现那样拆分为多个独立 kernel，也不强求把整个流程压进单一 kernel。要求 SM90 及以上、CUDA 12.8、PyTorch 2.8，已采用 MIT 许可证开源。仓库目前 49 star、2 fork。 GitHub - QwenLM/FlashQLA | Qwen Blog https://github.com/QwenLM/FlashQLA https://qwen.ai/blog?id=flashqla

WeLinux

Qwen 团队开源 FlashQLA 线性注意力内核，对比 FLA Triton 实现 2-3× 前向、2× 反向加速