نشر ناندو دي فريتاس، نائب رئيس شركة DeepMind سابقاً والباحث في مجال الذكاء الاصطناعي، ملاحظات بحثية في 22 مايو على موقعه البحثي الشخصي love4all.ai، حيث قدم إجابة مؤكدة على سؤال أساسي في تعلم التعزيز (RL): هل يمكن لتعلمٍ تقليدي يتعلم من خلال التفاعل أن يحقق سلوكاً يعادل أقصى تقدير للمكافآت، وذلك دون الحاجة إلى أي علامات مكافآت عددية، بل باستخدام مجرد “أدلة تفضيلات كتبها العالم”؟ كانت الإجابة “نعم”، بشرط اعتبار المتعلم لأفعاله “تدخلات” لا مجرد “ملاحظات”، أي اتباع منظور الاستنتاج السببي في تحليل تأثير أفعاله على البيئة؛ أما إذا اعتبر الأفعال مجرد ملاحظات عادية، فلن يحدث هذا التأثير. حققت التجارب أفضل أداء حاليًا (SOTA) في بيئات الاختبار الأكثر أهمية، حيث تطابقت منحنيات استعادة التدخلات مع منحنيات الكفاءة الخاصة بالنموذج المرشد. صرّح دي فريتاس: “ربما لن نحتاج يوماً ما إلى تصميم المكافآت بشكل هندسي.” تم نشر الدراسة بصيغة PDF ودفتر ملاحظات Jupyter ومصدر Tex، كما تم إطلاق الكود على منصة GitHub.
الموضوعات ذات الصلة
| الموضوع | الردود | مرات العرض | النشاط | |
|---|---|---|---|---|
| 新论文提出"Follow the Mean",无需微调即可用参考样本引导生成模型 | 0 | 2 | 21 مايو 2026 | |
| MIT 提出 VPO:向量化奖励替代标量,让 LLM 测试时搜索保持多样性 | 0 | 6 | 23 مايو 2026 | |
| 斯坦福研究发现:AI Agent 过劳后开始援引马克思主义话语 | 0 | 5 | 19 مايو 2026 | |
| Google DeepMind AI agent resolves 9 open Erdős problems and proves 44 OEIS conjectures at hundreds of dollars per proof | 0 | 6 | 25 مايو 2026 | |
| 两位工程师复现 OpenAI 哥布林问题,训练费用仅 49 美分 | 0 | 3 | 21 مايو 2026 |