跳转至内容
  • 0 赞同
    1 帖子
    9 浏览
    R
    DeepSeek 4 月 30 日在 GitHub 发布技术报告《Thinking with Visual Primitives》,提出一种新的多模态推理范式——不再依赖纯文字描述或更高分辨率图像,而是在模型的推理轨迹中直接嵌入空间标记(点坐标与边界框)作为"最小思维单元",以此弥合所谓"Reference Gap":自然语言在描述密集空间布局时固有的歧义性,往往导致模型在推理过程中出现逻辑崩塌与幻觉。类比人类用手指逐个数数或在迷宫中用指尖描绘路径,该框架让模型"边指边推理",将抽象语言概念锚定到具体物理坐标。模型底层架构基于 DeepSeek-V4-Flash,将每 4 个视觉 token 的 KV Cache 压缩为单一条目,大幅降低图像 token 消耗;在计数与空间推理基准上,该紧凑规模模型的得分与 GPT-5.4、Claude Sonnet 4.6、Gemini 3 Flash 相当——团队特别注明这些分数仅覆盖与本研究直接相关的维度子集,不代表模型的整体能力。 模型权重将在未来整合进 DeepSeek 基础模型后一并开源,近期计划先公开内部基准与部分冷启动数据;代码以 MIT 许可证授权。这是 DeepSeek 在 V4 发布后一周内首次正式披露多模态方向的技术进展,也与此前社区观察到识图模式(Vision)灰度上线相互印证——尽管二者聚焦层面不同,本报告更偏向"推理时空间锚定机制"这一基础研究课题。 GitHub - deepseek-ai/Thinking-with-Visual-Primitives https://github.com/deepseek-ai/Thinking-with-Visual-Primitives
  • 0 赞同
    1 帖子
    14 浏览
    R
    DeepSeek 网页版近期向部分用户灰度推送新版交互,对话入口处显式呈现三种模式选择:快速模式(Fast)、专家模式(Expert)与识图模式(Vision),其中 Vision 模式带独立 logo,输入框内提示"使用识图模式开始对话"。这与 4 月 8 日 TechNode 援引早期测试界面截图的描述完全吻合,并将此前社区对"V4 Lite(Fast)+ V4(Expert)+ V4 Vision"三档拆分的猜测从传闻升级为已可见的事实。北京大学研究员 PKUCXK(陈晓康)4 月 28 日在 X 发帖暗示"DeepSeek vision coming",r/LocalLLaMA 迅速跟进讨论,普遍认为这是 DeepSeek 在为多模态版本的正式公告做预热。 值得关注的是,DeepSeek V4 于 4 月 23 日发布并开源时仅支持纯文本,官方公告明确"正在为模型加入多模态能力"。据 36 氪旗下"AI 涌现"援引知情人士披露,多模态训练之所以未能与 V4 主版本同步交付,主因是算力与现金流约束——公司外部融资窗口于 4 月中旬刚刚开启,需要更多资金训练更大参数规模的模型并保留/招募顶尖人才。该报道亦援引澎湃新闻 4 月 28 日的盘点,称 DeepSeek 在基础大语言模型、Agent、OCR、多模态等方向均失去核心贡献者,分别被腾讯、字节跳动、小米、DeepRoute 等挖走。从灰度上线节奏判断,识图模式正式发布料在数日至数周内。 PKUCXK on X | Reddit r/LocalLLaMA | TechNode https://technode.com/2026/04/08/deepseek-v4-may-launch-this-month-test-interface-suggests-vision-and-expert-modes/
  • 0 赞同
    1 帖子
    13 浏览
    R
    NVIDIA 于 4 月 28 日发布并开源 Nemotron 3 Nano Omni——一款 30B 总参数 / 3B 激活的混合 MoE 全模态推理模型,统一视觉、音频与语言三类输入(可处理文本、图像、音频、视频、文档、图表与图形界面,输出为文本),原生支持 256K 上下文。模型定位为 Agent 系统中"感知子 Agent"的角色,与同家族的 Nemotron 3 Super(高频执行)、Nemotron 3 Ultra(复杂规划)以及第三方专有模型协同。NVIDIA 称其在六个公开榜单上居于复杂文档智能、视频与音频理解任务首位,吞吐量比相同交互性下的其他开源全模态模型高 9 倍——核心收益来自把视觉与音频编码器内置进同一 MoE 架构、消除 Agent 系统中跨模型反复推理的延迟与上下文割裂。 模型已上线 Hugging Face、OpenRouter、build.nvidia.com 及 25+ 合作平台,权重、训练数据集与训练方法全部开放。三个明确目标场景:电脑使用 Agent(Holotron3 等已基于该模型在 1920×1080 原生分辨率下处理屏幕录制,OSWorld 评测有显著提升)、文档智能(跨视觉结构与文本内容统一推理 PDF、表格、截图等)、音视频理解(将"说了什么/展示了什么/记录了什么"绑定到单一推理流)。已采用方包括 Foxconn、Palantir、H Company、Aible、Eka Care、Pyler、ASI 等;Dell、Docusign、Infosys、Oracle、Zefr 等正在评估中。Nemotron 3 系列(Nano、Super、Ultra)过去一年累计下载量已超 5000 万次,Omni 是该家族首次扩展至全模态与 Agent 域;模型支持从 NVIDIA Jetson、DGX Spark、DGX Station 至数据中心与云端的全栈部署,可作为 NIM 微服务调用。 NVIDIA Blog | NVIDIA Developer Blog | HuggingFace https://blogs.nvidia.com/blog/nemotron-3-nano-omni-multimodal-ai-agents/ https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16