إطلاق Marlin 2B كمشروع مفتوح المصدر: تحديد طوابع زمنية للفيديوهات في ثوانٍ وتحديد مقاطع النص الطبيعي

ref · 20 مايو 2026، 3:30م

أطلقت فرقة NemoStation نموذج Marlin 2B، وهو نموذج مفتوح المصدر لمعالجة الفيديو واللغة البصرية، تم تدريبه عبر إجراء تعديلات على نموذج Qwen3.5-2B خصيصًا لتلبية احتياجات التطوير في حالتين رئيسيتين وهما: «ما الذي يحدث في الفيديو؟» و«متى يحدث ذلك؟». يتوفر النموذج على واجهتين للاستخدام؛ ففي وضع caption يتم إدخال الفيديو ليُخرج النموذج قاموسًا منظمًا يحتوي على وصف عام للمشهد وقائمة بالأحداث مع تواريخ زمنية دقيقة بالثواني (مثل «\u003c14.3 - 18.2\u003e شخص يدفع الباب ليدخل»)؛ أما وضع find فيستقبل استفسارات لغوية طبيعية ويُعيد أرقام الثواني التي تبدأ وتنتهي عندها الأحداث المطلوبة في الفيديو. يمكن استدعاء كلا الوضعين عبر واجهة transformers القياسية من Hugging Face دون الحاجة لأي طبقات تغليف إضافية. وفيما يتعلق بالتقييمات، فقد تصدر Marlin 2B قائمة النماذج ذات 2 مليار معلمة في معيار CaReBench للترجمة التفصيلية للأحداث، كما تفوق على نموذج Qwen2.5-VL-7B بفارق +6.4 نقطة في مؤشر mIoU ضمن اختبار TimeLens-Bench لتحديد الأزمنة، ووصل إلى مستوى أداء Gemini-2.0-Flash؛ أما في اختبار DREAM-1K فقد جاء ترتيبه بين Tarsier-34B وGemini-1.5-Pro، مما يجعله أقوى نموذج مفتوح المصدر ضمن فئة النماذج ذات 2 مليار معلمة الذي يجمع بين الوصف الدقيق وتحديد الأزمنة بدقة عالية. واعتمدت عملية التدريب على استراتيجية من مرحلتين؛ حيث خضع النموذج في المرحلة الأولى لتدريب موجه بإشراف بشري على ما يقارب 400 ألف مقطع فيديو تمت إعادة تصنيفه بواسطة نموذج Gemini-3-Flash وفق نمط التفكير المنطقي، ثم تلتها مرحلة مواءمة التفضيلات عبر خوارزمية SimPO، وقد اكتمل التدريب على وحدة معالجة رسوميات واحدة من نوع H100. ويحتاج تشغيل النموذج إلى إصدارات لا تقل عن transformers 5.7.0 وtorch 2.11.0 بالإضافة إلى مكتبة torchcodec، وهو متوافق مع بطاقات الرسومات الاستهلاكية أو حتى أجهزة Mac M1 ذات سعة الذاكرة 16 جيجابايت للتشغيل المحلي، كما يدعم أطر الاستدلال vLLM وswift. ويندرج النموذج تحت رخصة BSL-1.1؛ لذا يتطلب الاستخدام التجاري الحصول على إذن مسبق من الفرقة، بينما تتاح وزنات النموذج مجانًا بعد إتمام طلب الوصول. HuggingFace NemoStation/Marlin-2B · Hugging Face

الموضوع	الردود	مرات العرض
HRM-Text 开源，层级递归 1B 参数仅需约 $1,500 预训练常规开源 , ai , 预训练 , 大模型 , hrm-text	4	20 مايو 2026
字节跳动开源 Lance，3B 参数统一图像视频理解生成编辑六类任务，上线次日登 HF 热榜前三常规 ai , 开源 , 字节跳动 , 多模态 , lance	8	22 مايو 2026
两位工程师复现 OpenAI 哥布林问题，训练费用仅 49 美分常规 openai , 开源 , rl , 强化学习 , 奖励黑客	3	21 مايو 2026
Google DeepMind 推出 Gemma 4 12B，16 GB 内存笔记本可本地运行常规 ai , google , gemma	1	4 يونيو 2026
Cohere 开源旗舰 Command A+，219B MoE，双 H100 可运行常规开源 , 大模型 , cohere , moe , command-a	4	21 مايو 2026

إطلاق Marlin 2B كمشروع مفتوح المصدر: تحديد طوابع زمنية للفيديوهات في ثوانٍ وتحديد مقاطع النص الطبيعي

الموضوعات ذات الصلة