يقترح معهد MIT استخدام VPO: مكافآت متجهة بدلاً من القيم القياسية، لضمان الحفاظ على التنوع في عمليات البحث أثناء اختبار نماذج LLM

نشر الباحثون بمن فيهم رايان باهلوس-بولدي، طالب الدكتوراه في معهد MIT CSAIL، ورقة بحثية في 21 مايو على موقع arXiv (arXiv:2605.22817)، حيث قدموا خوارزمية تحسين السياسات المتجهية (Vector Policy Optimization أو VPO). تُجبر الأساليب السائدة حالياً لتدريب النماذج اللغوية الكبيرة بعد التحسين — مثل طريقة GRPO — جميع إشارات المكافأة على التحويل إلى قيمة عددية واحدة فقط، مما يؤدي إلى انخفاض إنتروبيا توزيع المخرجات وضعف التنوع في الحلول الممكنة؛ وبالتالي يحد ذلك من أداء النموذج عند الحاجة للبحث عن أفضل حل من بين عدة خيارات مرشحة أثناء الاستنتاج (مثل مقاييس pass@k أو best-of-k). تكمن الفكرة الأساسية لطريقة VPO في أن إشارات المكافأة تمتلك في الواقع هيكلًا متجهيًا — على سبيل المثال، نتيجة اختبار كل حالة في مهام توليد الكود، أو مجموعة نماذج تفضيلات المستخدمين المختلفة — وعبر تحويل هذه الإشارات إلى قيم عددية بشكل عشوائي وتدريب النموذج تحت توزيعات أوزان مكافآت متنوعة، يتم تخصيص الحلول المرشحة التي يولدها النموذج لمناطق مختلفة من فضاء المكافآت، مما يحافظ على جودة المخرجات ويزيد من تنوعها في آنٍ واحد. يمكن استخدام VPO كبديل مباشر لمقدّرات القيمة في طريقة GRPO دون تكاليف تدريبية باهظة. وقد أظهرت نتائج الاختبار على مجموعة LiveCodeBench أن أداء VPO يتفوق على الخط الأساسي GRPO في مقاييس pass@k، كما حقق تنوعًا أكبر في فضاء المكافآت ضمن مجالات مهام متعددة. وأشار البروفيسور سوهيل فيزي من جامعة ماريلاند في تعليق له إلى أن منظور المكافآت القيمية العددية “يؤدي بطبيعته إلى فقدان للمعلومات”، وأن طرقًا مثل VPO وGEPA تشير جميعها إلى ضرورة إعادة تعريف مفهوم “المكافأة” ككيان تغذية راجعة ذي هيكل منظم.

arXiv | X (@RyanBoldi)