开源工具 KVCache.ai 直观呈现大模型 KV 缓存占用，DeepSeek V4 Flash 百万 token 仅需 2.9GB

ref · 2026 年5 月 22 日 17:11

KVCache.ai 推出基于浏览器的开源 KV 缓存占用计算器，支持 DeepSeek V4 Flash、Qwen3、GLM、Kimi、MiniMax 等主流模型，可按上下文长度、精度（FP16/INT4 等）和批次大小实时计算所需显存。工具发布后迅速引发社区广泛关注，核心对比数据颇具冲击力：在 100 万 tokens 的上下文长度下，DeepSeek V4 Flash 的总 KV 缓存占用约 2.893 GiB，而 MiniMax 在同等条件下约需 236 GiB，两者相差近 82 倍。差距根源在于 DeepSeek 的多头潜在注意力（MLA）架构，通过将键值对压缩至低维潜变量大幅缩减存储开销，而非简单裁剪注意力头——这也直接解释了 DeepSeek API 缓存命中价格能做到行业最低水平的架构逻辑。X 用户 @teortaxesTex 转发称，该工具"终于有人做了，可以直观看出 DeepSeek 缓存定价背后的原因"；另有用户据此推算，DeepSeek 今年若推出 1000 万 tokens 超长上下文模型，经济上也是合理的。

X (@teortaxesTex) | KVCache.ai

话题	回复	浏览量
DeepSeek-V4-Pro 限时折扣 5 月 31 日到期，官方宣布原价四分之一将成永久定价常规 ai , deepseek , api , deepseek-v4 , 定价	5	2026 年5 月 22 日
微软考虑以 DeepSeek V4 替换 Copilot Cowork 底层模型，Fable 5 同等 Token 成本高出 50 倍常规 deepseek , microsoft	2	2026 年6 月 17 日
DeepSeek API 更新限速文档，V4 Pro 并发上限 500、Flash 上限 2500 常规 ai , 限速 , deepseek , api	11	2026 年5 月 21 日
阿里巴巴发布闭源模型 Qwen3.7-Max，加大强化学习算力投入常规 ai , 大模型 , 阿里巴巴 , qwen , 强化学习	13	2026 年5 月 21 日
MiniMax M3 发布：MSA架构实现1M超长上下文，Coding与多模态能力进入国际前沿常规 ai , 大模型 , coding , minimax	6	2026 年6 月 1 日

开源工具 KVCache.ai 直观呈现大模型 KV 缓存占用，DeepSeek V4 Flash 百万 token 仅需 2.9GB

相关话题