<![CDATA[Qwen 团队开源 FlashQLA 线性注意力内核，对比 FLA Triton 实现 2-3× 前向、2× 反向加速]]>

<![CDATA[Qwen 团队开源 FlashQLA 线性注意力内核，对比 FLA Triton 实现 2-3× 前向、2× 反向加速]]>阿里 Qwen 团队开源高性能线性注意力内核库 FlashQLA，基于 TileLang 构建，针对 Gated DeltaNet（GDN）Chunked Prefill 的前向与反向算子做了深度融合与优化。在 NVIDIA Hopper 架构（SM90 及以上）多个场景下，相较此前主流的 FLA Triton 内核实现 2-3 倍前向加速、2 倍反向加速，预训练与端侧 Agent 推理场景下加速比尤为明显。基准测试覆盖 Qwen3.5 / Qwen3.6 系列实际使用的 head 配置（h_k,v ∈ {64, 48, 32, 24, 16, 8}，对应 TP1 至 TP8），对比基线为 FLA 0.5.0、Triton 3.5.1、FlashInfer 0.6.9 与 TileLang 0.1.8。

技术上 FlashQLA 主打三项优化：一是利用 GDN gate 的指数衰减特性，在 TP、长序列、小 head 数等场景下自动开启卡内 Context Parallel（intra-card CP），提升 GPU SM 利用率；二是对前向与反向做硬件友好的代数重写，在不损失数值精度的前提下显著降低 Tensor Core、CUDA Core 与 SFU 开销；三是采用 TileLang 构建多个融合 warp-specialized 内核，手动实现 warpgroup 特化以重叠数据搬运、Tensor Core 与 CUDA Core 计算——既不像传统实现那样拆分为多个独立 kernel，也不强求把整个流程压进单一 kernel。要求 SM90 及以上、CUDA 12.8、PyTorch 2.8，已采用 MIT 许可证开源。仓库目前 49 star、2 fork。

GitHub - QwenLM/FlashQLA | Qwen Blog

GitHub - QwenLM/FlashQLA: high-performance linear attention kernel library built on TileLang

high-performance linear attention kernel library built on TileLang - QwenLM/FlashQLA

GitHub (github.com)

Qwen Studio

Qwen Studio offers comprehensive functionality spanning chatbot, image and video understanding, image generation, document processing, web search integration, tool utilization, and artifacts.

(qwen.ai)

]]>https://welinux.com//topic/88/qwen-团队开源-flashqla-线性注意力内核-对比-fla-triton-实现-2-3-前向-2-反向加速RSS for NodeSat, 02 May 2026 21:04:35 GMTTue, 28 Apr 2026 15:41:48 GMT60