نشر الباحثون بمن فيهم رايان باهلوس-بولدي، طالب الدكتوراه في معهد MIT CSAIL، ورقة بحثية في 21 مايو على موقع arXiv (arXiv:2605.22817)، حيث قدموا خوارزمية تحسين السياسات المتجهية (Vector Policy Optimization أو VPO). تُجبر الأساليب السائدة حالياً لتدريب النماذج اللغوية الكبيرة بعد التحسين — مثل طريقة GRPO — جميع إشارات المكافأة على التحويل إلى قيمة عددية واحدة فقط، مما يؤدي إلى انخفاض إنتروبيا توزيع المخرجات وضعف التنوع في الحلول الممكنة؛ وبالتالي يحد ذلك من أداء النموذج عند الحاجة للبحث عن أفضل حل من بين عدة خيارات مرشحة أثناء الاستنتاج (مثل مقاييس pass@k أو best-of-k). تكمن الفكرة الأساسية لطريقة VPO في أن إشارات المكافأة تمتلك في الواقع هيكلًا متجهيًا — على سبيل المثال، نتيجة اختبار كل حالة في مهام توليد الكود، أو مجموعة نماذج تفضيلات المستخدمين المختلفة — وعبر تحويل هذه الإشارات إلى قيم عددية بشكل عشوائي وتدريب النموذج تحت توزيعات أوزان مكافآت متنوعة، يتم تخصيص الحلول المرشحة التي يولدها النموذج لمناطق مختلفة من فضاء المكافآت، مما يحافظ على جودة المخرجات ويزيد من تنوعها في آنٍ واحد. يمكن استخدام VPO كبديل مباشر لمقدّرات القيمة في طريقة GRPO دون تكاليف تدريبية باهظة. وقد أظهرت نتائج الاختبار على مجموعة LiveCodeBench أن أداء VPO يتفوق على الخط الأساسي GRPO في مقاييس pass@k، كما حقق تنوعًا أكبر في فضاء المكافآت ضمن مجالات مهام متعددة. وأشار البروفيسور سوهيل فيزي من جامعة ماريلاند في تعليق له إلى أن منظور المكافآت القيمية العددية “يؤدي بطبيعته إلى فقدان للمعلومات”، وأن طرقًا مثل VPO وGEPA تشير جميعها إلى ضرورة إعادة تعريف مفهوم “المكافأة” ككيان تغذية راجعة ذي هيكل منظم.
الموضوعات ذات الصلة
| الموضوع | الردود | مرات العرض | النشاط | |
|---|---|---|---|---|
| 三机构团队提出生成建模新框架 VDT,将最优控制与最优传输统一为线性规划,路径更直、推理更快 | 0 | 4 | 22 مايو 2026 | |
| GRAM:将递归推理概率化,10M 参数 ARC-AGI-1 达 52% | 0 | 5 | 20 مايو 2026 | |
| 前 DeepMind 副总裁 Nando de Freitas:纯模仿学习可涌现奖励最大化行为,无需设计奖励函数 | 0 | 3 | 22 مايو 2026 | |
| 斯坦福研究发现:AI Agent 过劳后开始援引马克思主义话语 | 0 | 5 | 19 مايو 2026 | |
| DeepSeek-V4-Pro 限时折扣 5 月 31 日到期,官方宣布原价四分之一将成永久定价 | 0 | 4 | 22 مايو 2026 |