Marlin 2B 开源，秒级视频时间戳描述与自然语言片段定位

ref · 2026 年5 月 20 日 15:30

NemoStation 团队开源视频视觉语言模型 Marlin 2B，基于 Qwen3.5-2B 微调，专为"视频里发生了什么"与"何时发生"两类实用开发场景设计，提供两种调用接口。caption 模式输入视频，输出包含场景总述与带秒级时间戳事件列表的结构化字典（如 <14.3 - 18.2> 一名人员推门进入）；find 模式接受自然语言查询，返回视频中对应片段的起止秒数。两种模式均通过标准 HF transformers API 调用，无需额外封装。评测方面，Marlin 2B 在 CaReBench 细粒度字幕基准中位列 2B 权重级第一；在 TimeLens-Bench 时间定位基准上以 +6.4 mIoU 优势超越 Qwen2.5-VL-7B，与 Gemini-2.0-Flash 持平；在 DREAM-1K 上位于 Tarsier-34B 和 Gemini-1.5-Pro 之间，是 2B 参数量下兼顾密集描述与时间定位的最强开源视频模型。

训练采用两阶段策略：先对约 40 万条由 Gemini-3-Flash 思维模式重标注并经人工审核的高质量片段进行有监督微调（SFT），再以 SimPO 偏好优化进行对齐，单张 H100 完成训练。系统依赖 transformers ≥ 5.7.0、torch ≥ 2.11.0 及 torchcodec，兼容单张消费级 GPU 或 Mac M1 16GB 本地部署，亦支持 vLLM 与 swift 推理框架。许可证为 BSL-1.1（商业使用须联系团队授权），申请访问后模型权重免费提供。

HuggingFace

话题	回复	浏览量
HRM-Text 开源，层级递归 1B 参数仅需约 $1,500 预训练常规开源 , ai , 预训练 , 大模型 , hrm-text	16	2026 年5 月 20 日
字节跳动开源 Lance，3B 参数统一图像视频理解生成编辑六类任务，上线次日登 HF 热榜前三常规 ai , 开源 , 多模态 , lance , bytedance	21	2026 年5 月 22 日
两位工程师复现 OpenAI 哥布林问题，训练费用仅 49 美分常规 openai , 开源 , rl , 强化学习 , 奖励黑客	8	2026 年5 月 21 日
小米开源本地 Copilot 框架 Miloco，以摄像头视觉流与端侧 7B 模型联动全屋 IoT 常规 miloco	11	2026 年6 月 19 日
Google DeepMind 推出 Gemma 4 12B，16 GB 内存笔记本可本地运行常规 ai , google , gemma	10	2026 年6 月 4 日

Marlin 2B 开源，秒级视频时间戳描述与自然语言片段定位

相关话题