六大模型非英语分词效率横评:Anthropic 税负最高,印地语用户消耗 token 是英文的逾 3 倍

研究员 Aran Komatsuzaki 发布两组可视化数据,以 OpenAI 英文 token 消耗为基准(1.00×),对 OpenAI、Anthropic、Gemini 3.1、Qwen3.6、DeepSeek V4 和 Kimi K2.6 六款主流模型的分词器进行了非英语效率横评。结果显示,Anthropic 在所有主要语言上的 token 开销均为最高:印地语 3.11×、阿拉伯语 2.74×、韩语 2.59×、俄语 1.96×,九语言综合均值达 2.07×,远超其余五款模型。Kimi K2.6 以均值 1.76× 排名第二,Gemini 3.1(1.22×)和 Qwen3.6(1.23×)并列最低,对非英语用户最为友好。

数据中一个值得关注的反转现象是:Qwen3.6(0.85×)、Kimi K2.6(0.81×)和 DeepSeek V4(0.87×)三款中文系模型,处理中文所需 token 量均低于英文基准,即同等语义的中文内容在这些模型上反而比英文更省 token。对 API 调用方而言,分词效率直接影响成本与上下文利用率——以 Claude 为例,印地语用户发送同等信息量的内容,约需消耗英文用户 3 倍以上的 token,等同于可用上下文窗口被大幅压缩。Komatsuzaki 指出,印地语拥有全球最庞大的母语使用人口之一,却在当前主流分词器中覆盖最差,折射出 AI 基础设施在语言公平性上仍存在显著鸿沟。

Aran Komatsuzaki / X