أطلقت فرقة NemoStation نموذج Marlin 2B، وهو نموذج مفتوح المصدر لمعالجة الفيديو واللغة البصرية، تم تدريبه عبر إجراء تعديلات على نموذج Qwen3.5-2B خصيصًا لتلبية احتياجات التطوير في حالتين رئيسيتين وهما: «ما الذي يحدث في الفيديو؟» و«متى يحدث ذلك؟». يتوفر النموذج على واجهتين للاستخدام؛ ففي وضع caption يتم إدخال الفيديو ليُخرج النموذج قاموسًا منظمًا يحتوي على وصف عام للمشهد وقائمة بالأحداث مع تواريخ زمنية دقيقة بالثواني (مثل «\u003c14.3 - 18.2\u003e شخص يدفع الباب ليدخل»)؛ أما وضع find فيستقبل استفسارات لغوية طبيعية ويُعيد أرقام الثواني التي تبدأ وتنتهي عندها الأحداث المطلوبة في الفيديو. يمكن استدعاء كلا الوضعين عبر واجهة transformers القياسية من Hugging Face دون الحاجة لأي طبقات تغليف إضافية. وفيما يتعلق بالتقييمات، فقد تصدر Marlin 2B قائمة النماذج ذات 2 مليار معلمة في معيار CaReBench للترجمة التفصيلية للأحداث، كما تفوق على نموذج Qwen2.5-VL-7B بفارق +6.4 نقطة في مؤشر mIoU ضمن اختبار TimeLens-Bench لتحديد الأزمنة، ووصل إلى مستوى أداء Gemini-2.0-Flash؛ أما في اختبار DREAM-1K فقد جاء ترتيبه بين Tarsier-34B وGemini-1.5-Pro، مما يجعله أقوى نموذج مفتوح المصدر ضمن فئة النماذج ذات 2 مليار معلمة الذي يجمع بين الوصف الدقيق وتحديد الأزمنة بدقة عالية. واعتمدت عملية التدريب على استراتيجية من مرحلتين؛ حيث خضع النموذج في المرحلة الأولى لتدريب موجه بإشراف بشري على ما يقارب 400 ألف مقطع فيديو تمت إعادة تصنيفه بواسطة نموذج Gemini-3-Flash وفق نمط التفكير المنطقي، ثم تلتها مرحلة مواءمة التفضيلات عبر خوارزمية SimPO، وقد اكتمل التدريب على وحدة معالجة رسوميات واحدة من نوع H100. ويحتاج تشغيل النموذج إلى إصدارات لا تقل عن transformers 5.7.0 وtorch 2.11.0 بالإضافة إلى مكتبة torchcodec، وهو متوافق مع بطاقات الرسومات الاستهلاكية أو حتى أجهزة Mac M1 ذات سعة الذاكرة 16 جيجابايت للتشغيل المحلي، كما يدعم أطر الاستدلال vLLM وswift. ويندرج النموذج تحت رخصة BSL-1.1؛ لذا يتطلب الاستخدام التجاري الحصول على إذن مسبق من الفرقة، بينما تتاح وزنات النموذج مجانًا بعد إتمام طلب الوصول. HuggingFace NemoStation/Marlin-2B · Hugging Face