طرح فريق من ثلاث مؤسسات إطاراً جديداً للنمذجة التوليدية يُدعى VDT، يوحد التحكم الأمثل والنقل الأمثل ضمن برمجة خطية، مما يجعل المسارات أكثر مباشرةً والتفكير أسرع.

قام الباحثان بابلو مورينو-مونيوز من جامعة بومبيو فابرا (UPF) وجيرجلي نيو (من مؤسسة ICREA)، بالتعاون مع أدريان مولر من المعهد الفيدرالي للتكنولوجيا في زيورخ (ETH Zürich)، بنشر ورقة بحثية في 21 مايو على موقع arXiv (arXiv:2605.22507) تطرح إطارًا جديدًا لتوليد النماذج يُعرف بـ “النقل المدفوع بالقيمة” (Value-Driven Transport أو VDT). يقوم هذا الإطار بنمذجة مشكلات النقل كمشكلات تحكم عشوائي في الزمن المنفصل، ثم يعيد صياغتها على شكل برمجة خطية؛ حيث تتطابق المتغيرات المزدوجة في هذه البرمجة الخطية مع دالة القيمة الأمثل لمشكلة التحكم، والتي بدورها تُشفّر استراتيجية التحكم الأمثل. وبذلك يتم توحيد التحكم الأمثل مع التعلم المعزز والتحكم الأمثل والبرمجة الأصلية-المزدوجة العشوائية ضمن إطار نظري واحد. استنادًا إلى هيكل البرمجة الخطية هذا، طور الباحثون خوارزمية أصلية-مزدوجة لا تتطلب المحاكاة لحساب دالة القيمة الأمثل تقريبًا، ومن ثم استخلاص استراتيجية التحكم الخاصة بـ VDT.

وبالمقارنة مع نماذج التدفق الحالية مثل Flow Matching والنماذج التفريقية وجسر شرودنجر، فإن مسارات النقل التي تولدها استراتيجيات VDT تكون أقرب إلى الخطوط المستقيمة، كما يمكن محاكاتها بسرعة واستقرار دون الحاجة إلى تحديد معاملات التحكم بشكل مباشر، وتدعم نفس الامتدادات المتاحة في النماذج التفريقية ونماذج التدفق مثل التوليد المشروط والتوجيه غير المصنف. وقد علق جيرجلي نيو في منشور له على منصة X قائلًا: “ربما لن نحتاج يومًا ما إلى تصميم المكافآت هندسيًا”، مما يشير إلى الآفاق الواسعة لهذا الإطار في مجال تصميم مكافآت التعلم المعزز. تتضمن الورقة البحثية رسومًا توضيحية للنتائج التجريبية، لكن الكود البرمجي لم يُنشر بعد.

arXiv | X (@neu_rips)