<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[DeepSeek 发布&quot;视觉原语推理&quot;技术报告：以坐标点替代模糊语言，计数与空间推理对齐 GPT-5.4]]></title><description><![CDATA[<p dir="auto">DeepSeek 4 月 30 日在 GitHub 发布技术报告《Thinking with Visual Primitives》，提出一种新的多模态推理范式——不再依赖纯文字描述或更高分辨率图像，而是在模型的推理轨迹中直接嵌入空间标记（点坐标与边界框）作为"最小思维单元"，以此弥合所谓"Reference Gap"：自然语言在描述密集空间布局时固有的歧义性，往往导致模型在推理过程中出现逻辑崩塌与幻觉。类比人类用手指逐个数数或在迷宫中用指尖描绘路径，该框架让模型"边指边推理"，将抽象语言概念锚定到具体物理坐标。模型底层架构基于 DeepSeek-V4-Flash，将每 4 个视觉 token 的 KV Cache 压缩为单一条目，大幅降低图像 token 消耗；在计数与空间推理基准上，该紧凑规模模型的得分与 GPT-5.4、Claude Sonnet 4.6、Gemini 3 Flash 相当——团队特别注明这些分数仅覆盖与本研究直接相关的维度子集，不代表模型的整体能力。</p>
<p dir="auto">模型权重将在未来整合进 DeepSeek 基础模型后一并开源，近期计划先公开内部基准与部分冷启动数据；代码以 MIT 许可证授权。这是 DeepSeek 在 V4 发布后一周内首次正式披露多模态方向的技术进展，也与此前社区观察到识图模式（Vision）灰度上线相互印证——尽管二者聚焦层面不同，本报告更偏向"推理时空间锚定机制"这一基础研究课题。</p>
<p dir="auto"><a href="https://github.com/deepseek-ai/Thinking-with-Visual-Primitives" target="_blank" rel="noopener noreferrer nofollow ugc">GitHub - deepseek-ai/Thinking-with-Visual-Primitives</a></p>
<p dir="auto"></p><div class="card col-md-9 col-lg-6 position-relative link-preview p-0">



<a href="https://github.com/deepseek-ai/Thinking-with-Visual-Primitives" title="GitHub - deepseek-ai/Thinking-with-Visual-Primitives">
<img src="https://opengraph.githubassets.com/4cc29fbaa37da61f9041579d0e7fd11fe4c3d5fb1529f533671f60c8ae635ee0/deepseek-ai/Thinking-with-Visual-Primitives" class="card-img-top not-responsive" style="max-height:15rem" alt="Link Preview Image" />
</a>



<div class="card-body">
<h5 class="card-title">
<a class="text-decoration-none" href="https://github.com/deepseek-ai/Thinking-with-Visual-Primitives">
GitHub - deepseek-ai/Thinking-with-Visual-Primitives
</a>
</h5>
<p class="card-text line-clamp-3">Contribute to deepseek-ai/Thinking-with-Visual-Primitives development by creating an account on GitHub.</p>
</div>
<a href="https://github.com/deepseek-ai/Thinking-with-Visual-Primitives" class="card-footer text-body-secondary small d-flex gap-2 align-items-center lh-2">



<img src="https://github.githubassets.com/favicons/favicon.svg" alt="favicon" class="not-responsive overflow-hiddden" style="max-width:21px;max-height:21px" />



<p class="d-inline-block text-truncate mb-0">GitHub <span class="text-secondary">(github.com)</span></p>
</a>
</div><p></p>
]]></description><link>https://welinux.com//topic/114/deepseek-发布-视觉原语推理-技术报告-以坐标点替代模糊语言-计数与空间推理对齐-gpt-5.4</link><generator>RSS for Node</generator><lastBuildDate>Sat, 02 May 2026 19:35:14 GMT</lastBuildDate><atom:link href="https://welinux.com//topic/114.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 30 Apr 2026 11:29:12 GMT</pubDate><ttl>60</ttl></channel></rss>