KVCache.ai 推出基于浏览器的开源 KV 缓存占用计算器,支持 DeepSeek V4 Flash、Qwen3、GLM、Kimi、MiniMax 等主流模型,可按上下文长度、精度(FP16/INT4 等)和批次大小实时计算所需显存。工具发布后迅速引发社区广泛关注,核心对比数据颇具冲击力:在 100 万 tokens 的上下文长度下,DeepSeek V4 Flash 的总 KV 缓存占用约 2.893 GiB,而 MiniMax 在同等条件下约需 236 GiB,两者相差近 82 倍。差距根源在于 DeepSeek 的多头潜在注意力(MLA)架构,通过将键值对压缩至低维潜变量大幅缩减存储开销,而非简单裁剪注意力头——这也直接解释了 DeepSeek API 缓存命中价格能做到行业最低水平的架构逻辑。X 用户 @teortaxesTex 转发称,该工具"终于有人做了,可以直观看出 DeepSeek 缓存定价背后的原因";另有用户据此推算,DeepSeek 今年若推出 1000 万 tokens 超长上下文模型,经济上也是合理的。
相关话题
| 话题 | 回复 | 浏览量 | 活动 | |
|---|---|---|---|---|
| DeepSeek-V4-Pro 限时折扣 5 月 31 日到期,官方宣布原价四分之一将成永久定价 | 0 | 5 | 2026 年5 月 22 日 | |
| 微软考虑以 DeepSeek V4 替换 Copilot Cowork 底层模型,Fable 5 同等 Token 成本高出 50 倍 | 0 | 2 | 2026 年6 月 17 日 | |
| DeepSeek API 更新限速文档,V4 Pro 并发上限 500、Flash 上限 2500 | 0 | 11 | 2026 年5 月 21 日 | |
| 阿里巴巴发布闭源模型 Qwen3.7-Max,加大强化学习算力投入 | 0 | 13 | 2026 年5 月 21 日 | |
| MiniMax M3 发布:MSA架构实现1M超长上下文,Coding与多模态能力进入国际前沿 | 0 | 6 | 2026 年6 月 1 日 |