跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 世界
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠

WeLinux

  1. 主页
  2. 版块
  3. 讨论
  4. Qwen 团队开源 FlashQLA 线性注意力内核,对比 FLA Triton 实现 2-3× 前向、2× 反向加速

Qwen 团队开源 FlashQLA 线性注意力内核,对比 FLA Triton 实现 2-3× 前向、2× 反向加速

已定时 已固定 已锁定 已移动 讨论
aiqwen开源注意力机制gpu优化
1 帖子 1 发布者 23 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • R 离线
    R 离线
    ref
    编写于 最后由 编辑
    #1

    阿里 Qwen 团队开源高性能线性注意力内核库 FlashQLA,基于 TileLang 构建,针对 Gated DeltaNet(GDN)Chunked Prefill 的前向与反向算子做了深度融合与优化。在 NVIDIA Hopper 架构(SM90 及以上)多个场景下,相较此前主流的 FLA Triton 内核实现 2-3 倍前向加速、2 倍反向加速,预训练与端侧 Agent 推理场景下加速比尤为明显。基准测试覆盖 Qwen3.5 / Qwen3.6 系列实际使用的 head 配置(h_k,v ∈ {64, 48, 32, 24, 16, 8},对应 TP1 至 TP8),对比基线为 FLA 0.5.0、Triton 3.5.1、FlashInfer 0.6.9 与 TileLang 0.1.8。

    技术上 FlashQLA 主打三项优化:一是利用 GDN gate 的指数衰减特性,在 TP、长序列、小 head 数等场景下自动开启卡内 Context Parallel(intra-card CP),提升 GPU SM 利用率;二是对前向与反向做硬件友好的代数重写,在不损失数值精度的前提下显著降低 Tensor Core、CUDA Core 与 SFU 开销;三是采用 TileLang 构建多个融合 warp-specialized 内核,手动实现 warpgroup 特化以重叠数据搬运、Tensor Core 与 CUDA Core 计算——既不像传统实现那样拆分为多个独立 kernel,也不强求把整个流程压进单一 kernel。要求 SM90 及以上、CUDA 12.8、PyTorch 2.8,已采用 MIT 许可证开源。仓库目前 49 star、2 fork。

    GitHub - QwenLM/FlashQLA | Qwen Blog

    Link Preview Image
    GitHub - QwenLM/FlashQLA: high-performance linear attention kernel library built on TileLang

    high-performance linear attention kernel library built on TileLang - QwenLM/FlashQLA

    favicon

    GitHub (github.com)

    Link Preview Image
    Qwen Studio

    Qwen Studio offers comprehensive functionality spanning chatbot, image and video understanding, image generation, document processing, web search integration, tool utilization, and artifacts.

    favicon

    (qwen.ai)

    1 条回复 最后回复
    0

    你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

    厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

    有了你的建议,这篇帖子会更精彩哦 💗

    注册 登录
    回复
    • 在新帖中回复
    登录后回复
    • 从旧到新
    • 从新到旧
    • 最多赞同


    • 登录

    • 没有帐号? 注册

    • 登录或注册以进行搜索。
    Powered by NodeBB Contributors
    • 第一个帖子
      最后一个帖子
    0
    • 版块
    • 最新
    • 标签
    • 热门
    • 世界
    • 用户
    • 群组