WeLinux

Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.

Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).

R

DeepSeek 发布"视觉原语推理"技术报告：以坐标点替代模糊语言，计数与空间推理对齐 GPT-5.4
关注中忽略中已定时已固定已锁定已移动讨论 ai deepseek 多模态视觉推理开源
1

0 赞同

1 帖子

9 浏览

R

DeepSeek 4 月 30 日在 GitHub 发布技术报告《Thinking with Visual Primitives》，提出一种新的多模态推理范式——不再依赖纯文字描述或更高分辨率图像，而是在模型的推理轨迹中直接嵌入空间标记（点坐标与边界框）作为"最小思维单元"，以此弥合所谓"Reference Gap"：自然语言在描述密集空间布局时固有的歧义性，往往导致模型在推理过程中出现逻辑崩塌与幻觉。类比人类用手指逐个数数或在迷宫中用指尖描绘路径，该框架让模型"边指边推理"，将抽象语言概念锚定到具体物理坐标。模型底层架构基于 DeepSeek-V4-Flash，将每 4 个视觉 token 的 KV Cache 压缩为单一条目，大幅降低图像 token 消耗；在计数与空间推理基准上，该紧凑规模模型的得分与 GPT-5.4、Claude Sonnet 4.6、Gemini 3 Flash 相当——团队特别注明这些分数仅覆盖与本研究直接相关的维度子集，不代表模型的整体能力。模型权重将在未来整合进 DeepSeek 基础模型后一并开源，近期计划先公开内部基准与部分冷启动数据；代码以 MIT 许可证授权。这是 DeepSeek 在 V4 发布后一周内首次正式披露多模态方向的技术进展，也与此前社区观察到识图模式（Vision）灰度上线相互印证——尽管二者聚焦层面不同，本报告更偏向"推理时空间锚定机制"这一基础研究课题。 GitHub - deepseek-ai/Thinking-with-Visual-Primitives https://github.com/deepseek-ai/Thinking-with-Visual-Primitives
R

DeepSeek 灰度测试三档模式：识图与专家模式同步上线，多模态版本即将公告
关注中忽略中已定时已固定已锁定已移动讨论 ai deepseek-v4 多模态 vision 灰度测试
1

0 赞同

1 帖子

14 浏览

R

DeepSeek 网页版近期向部分用户灰度推送新版交互，对话入口处显式呈现三种模式选择：快速模式（Fast）、专家模式（Expert）与识图模式（Vision），其中 Vision 模式带独立 logo，输入框内提示"使用识图模式开始对话"。这与 4 月 8 日 TechNode 援引早期测试界面截图的描述完全吻合，并将此前社区对"V4 Lite（Fast）+ V4（Expert）+ V4 Vision"三档拆分的猜测从传闻升级为已可见的事实。北京大学研究员 PKUCXK（陈晓康）4 月 28 日在 X 发帖暗示"DeepSeek vision coming"，r/LocalLLaMA 迅速跟进讨论，普遍认为这是 DeepSeek 在为多模态版本的正式公告做预热。值得关注的是，DeepSeek V4 于 4 月 23 日发布并开源时仅支持纯文本，官方公告明确"正在为模型加入多模态能力"。据 36 氪旗下"AI 涌现"援引知情人士披露，多模态训练之所以未能与 V4 主版本同步交付，主因是算力与现金流约束——公司外部融资窗口于 4 月中旬刚刚开启，需要更多资金训练更大参数规模的模型并保留/招募顶尖人才。该报道亦援引澎湃新闻 4 月 28 日的盘点，称 DeepSeek 在基础大语言模型、Agent、OCR、多模态等方向均失去核心贡献者，分别被腾讯、字节跳动、小米、DeepRoute 等挖走。从灰度上线节奏判断，识图模式正式发布料在数日至数周内。 PKUCXK on X | Reddit r/LocalLLaMA | TechNode https://technode.com/2026/04/08/deepseek-v4-may-launch-this-month-test-interface-suggests-vision-and-expert-modes/
R

NVIDIA 开源 Nemotron 3 Nano Omni：30B-A3B MoE 全模态推理模型，吞吐较同档开源模型高 9 倍
关注中忽略中已定时已固定已锁定已移动讨论 ai nvidia nemotron 开源多模态
1

0 赞同

1 帖子

13 浏览

R

NVIDIA 于 4 月 28 日发布并开源 Nemotron 3 Nano Omni——一款 30B 总参数 / 3B 激活的混合 MoE 全模态推理模型，统一视觉、音频与语言三类输入（可处理文本、图像、音频、视频、文档、图表与图形界面，输出为文本），原生支持 256K 上下文。模型定位为 Agent 系统中"感知子 Agent"的角色，与同家族的 Nemotron 3 Super（高频执行）、Nemotron 3 Ultra（复杂规划）以及第三方专有模型协同。NVIDIA 称其在六个公开榜单上居于复杂文档智能、视频与音频理解任务首位，吞吐量比相同交互性下的其他开源全模态模型高 9 倍——核心收益来自把视觉与音频编码器内置进同一 MoE 架构、消除 Agent 系统中跨模型反复推理的延迟与上下文割裂。模型已上线 Hugging Face、OpenRouter、build.nvidia.com 及 25+ 合作平台，权重、训练数据集与训练方法全部开放。三个明确目标场景：电脑使用 Agent（Holotron3 等已基于该模型在 1920×1080 原生分辨率下处理屏幕录制，OSWorld 评测有显著提升）、文档智能（跨视觉结构与文本内容统一推理 PDF、表格、截图等）、音视频理解（将"说了什么/展示了什么/记录了什么"绑定到单一推理流）。已采用方包括 Foxconn、Palantir、H Company、Aible、Eka Care、Pyler、ASI 等；Dell、Docusign、Infosys、Oracle、Zefr 等正在评估中。Nemotron 3 系列（Nano、Super、Ultra）过去一年累计下载量已超 5000 万次，Omni 是该家族首次扩展至全模态与 Agent 域；模型支持从 NVIDIA Jetson、DGX Spark、DGX Station 至数据中心与云端的全栈部署，可作为 NIM 微服务调用。 NVIDIA Blog | NVIDIA Developer Blog | HuggingFace https://blogs.nvidia.com/blog/nemotron-3-nano-omni-multimodal-ai-agents/ https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

WeLinux

DeepSeek 发布"视觉原语推理"技术报告：以坐标点替代模糊语言，计数与空间推理对齐 GPT-5.4

DeepSeek 灰度测试三档模式：识图与专家模式同步上线，多模态版本即将公告

NVIDIA 开源 Nemotron 3 Nano Omni：30B-A3B MoE 全模态推理模型，吞吐较同档开源模型高 9 倍