六大模型非英语分词效率横评：Anthropic 税负最高，印地语用户消耗 token 是英文的逾 3 倍

ref · 05.Июнь.2026 02:23:07

研究员 Aran Komatsuzaki 发布两组可视化数据，以 OpenAI 英文 token 消耗为基准（1.00×），对 OpenAI、Anthropic、Gemini 3.1、Qwen3.6、DeepSeek V4 和 Kimi K2.6 六款主流模型的分词器进行了非英语效率横评。结果显示，Anthropic 在所有主要语言上的 token 开销均为最高：印地语 3.11×、阿拉伯语 2.74×、韩语 2.59×、俄语 1.96×，九语言综合均值达 2.07×，远超其余五款模型。Kimi K2.6 以均值 1.76× 排名第二，Gemini 3.1（1.22×）和 Qwen3.6（1.23×）并列最低，对非英语用户最为友好。

数据中一个值得关注的反转现象是：Qwen3.6（0.85×）、Kimi K2.6（0.81×）和 DeepSeek V4（0.87×）三款中文系模型，处理中文所需 token 量均低于英文基准，即同等语义的中文内容在这些模型上反而比英文更省 token。对 API 调用方而言，分词效率直接影响成本与上下文利用率——以 Claude 为例，印地语用户发送同等信息量的内容，约需消耗英文用户 3 倍以上的 token，等同于可用上下文窗口被大幅压缩。Komatsuzaki 指出，印地语拥有全球最庞大的母语使用人口之一，却在当前主流分词器中覆盖最差，折射出 AI 基础设施在语言公平性上仍存在显著鸿沟。

Aran Komatsuzaki / X

Тема	Ответов	Просм.
Altman 称 OpenAI 内部最高 token 用量达每月 1000 亿，外部客户用量还更高常规 ai , openai , token , enterprise , cost	3	04.06.2026
开源工具 KVCache.ai 直观呈现大模型 KV 缓存占用，DeepSeek V4 Flash 百万 token 仅需 2.9GB 常规大模型 , deepseek , kv缓存 , 基础设施 , 开源工具	6	22.05.2026
Anthropic 预计 Q2 营收 109 亿美元，首次录得经营利润常规 ai , 大模型 , anthropic , 营收 , colossus	4	21.05.2026
微软内测 AI 编码成本已超员工薪资而缩减许可证，高盛预测 2030 年 Agent 将推动 Token 消耗增长 24 倍常规微软 , agent , claude , ai成本 , token	2	23.05.2026
DeepSeek 登顶 Ramp 六月趋势 AI 厂商榜首，美国企业直接向中国服务器发送数据常规 ai , openai , deepseek , ramp	1	04.06.2026

六大模型非英语分词效率横评：Anthropic 税负最高，印地语用户消耗 token 是英文的逾 3 倍

Связанные темы