标签为“视觉推理”的主题

DeepSeek 4 月 30 日在 GitHub 发布技术报告《Thinking with Visual Primitives》，提出一种新的多模态推理范式——不再依赖纯文字描述或更高分辨率图像，而是在模型的推理轨迹中直接嵌入空间标记（点坐标与边界框）作为"最小思维单元"，以此弥合所谓"Reference Gap"：自然语言在描述密集空间布局时固有的歧义性，往往导致模型在推理过程中出现逻辑崩塌与幻觉。类比人类用手指逐个数数或在迷宫中用指尖描绘路径，该框架让模型"边指边推理"，将抽象语言概念锚定到具体物理坐标。模型底层架构基于 DeepSeek-V4-Flash，将每 4 个视觉 token 的 KV Cache 压缩为单一条目，大幅降低图像 token 消耗；在计数与空间推理基准上，该紧凑规模模型的得分与 GPT-5.4、Claude Sonnet 4.6、Gemini 3 Flash 相当——团队特别注明这些分数仅覆盖与本研究直接相关的维度子集，不代表模型的整体能力。模型权重将在未来整合进 DeepSeek 基础模型后一并开源，近期计划先公开内部基准与部分冷启动数据；代码以 MIT 许可证授权。这是 DeepSeek 在 V4 发布后一周内首次正式披露多模态方向的技术进展，也与此前社区观察到识图模式（Vision）灰度上线相互印证——尽管二者聚焦层面不同，本报告更偏向"推理时空间锚定机制"这一基础研究课题。 GitHub - deepseek-ai/Thinking-with-Visual-Primitives https://github.com/deepseek-ai/Thinking-with-Visual-Primitives

WeLinux

DeepSeek 发布"视觉原语推理"技术报告：以坐标点替代模糊语言，计数与空间推理对齐 GPT-5.4