Das NemoStation-Team hat das Open-Source-Video-Visual-Language-Modell Marlin 2B veröffentlicht. Es basiert auf einer Feinabstimmung von Qwen3.5-2B und wurde speziell für zwei praktische Entwicklungsszenarien konzipiert: „Was geschieht in dem Video?“ sowie „Wann geschieht es?“. Es stehen zwei Aufrufmethoden zur Verfügung: Im Modus „caption“ gibt man ein Video ein; das Modell liefert daraufhin ein strukturiertes Wörterbuch mit einer Gesamtbeschreibung der Szene sowie einer Liste von Ereignissen samt sekundengenauer Zeitstempel (z. B. „<14.3 – 18.2> Eine Person öffnet eine Tür“). Im Modus „find“ kann man natürliche Spracheingaben nutzen, um die Start- und Endzeiten des entsprechenden Videoabschnitts zu erhalten. Beide Modi lassen sich über die standardmäßige HF „transformers“-API aufrufen – ohne zusätzliche Verpackung. Bei Tests erreichte Marlin 2B den ersten Platz unter allen Modellen mit 2 Milliarden Parametern im CaReBench-Benchmark für detaillierte Untertitel; beim TimeLens-Bench-Test zur zeitlichen Lokalisierung übertraf es Qwen2.5-VL-7B um +6,4 mIoU und erreichte dasselbe Niveau wie Gemini-2.0-Flash. Im DREAM-1K-Benchmark liegt es zwischen Tarsier-34B und Gemini-1.5-Pro – somit ist es das stärkste Open-Source-Video-Modell mit 2 Milliarden Parametern, das sowohl dichte Beschreibungen als auch präzise Zeitangaben bietet.
Für das Training kam ein zweiphasiger Ansatz zum Einsatz: Zunächst erfolgte eine überwachte Feinabstimmung (SFT) anhand von rund 400.000 hochwertigen Videoausschnitten, die mittels Gemini-3-Flash nach einem bestimmten Denkmuster neu annotiert und von Experten geprüft wurden; anschließend wurde das Modell mittels SimPO-Präferenzoptimierung weiter optimiert – alles auf nur einer einzigen H100-GPU. Voraussetzungen sind „transformers“ ≥ 5.7.0, „torch“ ≥ 2.11.0 sowie „torchcodec“; die Nutzung ist auf einer einzelnen Consumer-GPU oder einem Mac M1 mit 16 GB Arbeitsspeicher möglich. Zudem werden die Inferenz-Frameworks vLLM und Swift unterstützt. Die Lizenz lautet BSL-1.1 – für kommerzielle Zwecke ist eine Genehmigung durch das Team erforderlich; nach Antragstellung stehen die Modellgewichte kostenlos zur Verfügung.