يقترح معهد MIT استخدام VPO: مكافآت متجهة بدلاً من القيم القياسية، لضمان الحفاظ على التنوع في عمليات البحث أثناء اختبار نماذج LLM

ref · 23 مايو 2026، 11:16ص

نشر الباحثون بمن فيهم رايان باهلوس-بولدي، طالب الدكتوراه في معهد MIT CSAIL، ورقة بحثية في 21 مايو على موقع arXiv (arXiv:2605.22817)، حيث قدموا خوارزمية تحسين السياسات المتجهية (Vector Policy Optimization أو VPO). تُجبر الأساليب السائدة حالياً لتدريب النماذج اللغوية الكبيرة بعد التحسين — مثل طريقة GRPO — جميع إشارات المكافأة على التحويل إلى قيمة عددية واحدة فقط، مما يؤدي إلى انخفاض إنتروبيا توزيع المخرجات وضعف التنوع في الحلول الممكنة؛ وبالتالي يحد ذلك من أداء النموذج عند الحاجة للبحث عن أفضل حل من بين عدة خيارات مرشحة أثناء الاستنتاج (مثل مقاييس pass@k أو best-of-k). تكمن الفكرة الأساسية لطريقة VPO في أن إشارات المكافأة تمتلك في الواقع هيكلًا متجهيًا — على سبيل المثال، نتيجة اختبار كل حالة في مهام توليد الكود، أو مجموعة نماذج تفضيلات المستخدمين المختلفة — وعبر تحويل هذه الإشارات إلى قيم عددية بشكل عشوائي وتدريب النموذج تحت توزيعات أوزان مكافآت متنوعة، يتم تخصيص الحلول المرشحة التي يولدها النموذج لمناطق مختلفة من فضاء المكافآت، مما يحافظ على جودة المخرجات ويزيد من تنوعها في آنٍ واحد. يمكن استخدام VPO كبديل مباشر لمقدّرات القيمة في طريقة GRPO دون تكاليف تدريبية باهظة. وقد أظهرت نتائج الاختبار على مجموعة LiveCodeBench أن أداء VPO يتفوق على الخط الأساسي GRPO في مقاييس pass@k، كما حقق تنوعًا أكبر في فضاء المكافآت ضمن مجالات مهام متعددة. وأشار البروفيسور سوهيل فيزي من جامعة ماريلاند في تعليق له إلى أن منظور المكافآت القيمية العددية “يؤدي بطبيعته إلى فقدان للمعلومات”، وأن طرقًا مثل VPO وGEPA تشير جميعها إلى ضرورة إعادة تعريف مفهوم “المكافأة” ككيان تغذية راجعة ذي هيكل منظم.

arXiv | X (@RyanBoldi)

الموضوع	الردود	مرات العرض
三机构团队提出生成建模新框架 VDT，将最优控制与最优传输统一为线性规划，路径更直、推理更快常规生成模型 , 论文 , 强化学习 , ai模型 , 最优传输	4	22 مايو 2026
GRAM：将递归推理概率化，10M 参数 ARC-AGI-1 达 52% 常规 ai , 研究 , 递归推理 , gram , arc-agi	5	20 مايو 2026
前 DeepMind 副总裁 Nando de Freitas：纯模仿学习可涌现奖励最大化行为，无需设计奖励函数常规强化学习 , ai研究 , deepmind , 奖励学习 , 模仿学习	3	22 مايو 2026
斯坦福研究发现：AI Agent 过劳后开始援引马克思主义话语常规 ai , 研究 , agent行为 , 马克思主义 , 斯坦福	5	19 مايو 2026
DeepSeek-V4-Pro 限时折扣 5 月 31 日到期，官方宣布原价四分之一将成永久定价常规 ai , deepseek , api , deepseek-v4 , 定价	4	22 مايو 2026

يقترح معهد MIT استخدام VPO: مكافآت متجهة بدلاً من القيم القياسية، لضمان الحفاظ على التنوع في عمليات البحث أثناء اختبار نماذج LLM

الموضوعات ذات الصلة