ناندو دي فريتاس، نائب الرئيس السابق في DeepMind: يمكن لتعلم المحاكاة البحت أن يؤدي إلى سلوكيات تُعظم المكافآت دون الحاجة لتصميم دوال مكافآت

ref · 22 مايو 2026، 4:59م

نشر ناندو دي فريتاس، نائب رئيس شركة DeepMind سابقاً والباحث في مجال الذكاء الاصطناعي، ملاحظات بحثية في 22 مايو على موقعه البحثي الشخصي love4all.ai، حيث قدم إجابة مؤكدة على سؤال أساسي في تعلم التعزيز (RL): هل يمكن لتعلمٍ تقليدي يتعلم من خلال التفاعل أن يحقق سلوكاً يعادل أقصى تقدير للمكافآت، وذلك دون الحاجة إلى أي علامات مكافآت عددية، بل باستخدام مجرد “أدلة تفضيلات كتبها العالم”؟ كانت الإجابة “نعم”، بشرط اعتبار المتعلم لأفعاله “تدخلات” لا مجرد “ملاحظات”، أي اتباع منظور الاستنتاج السببي في تحليل تأثير أفعاله على البيئة؛ أما إذا اعتبر الأفعال مجرد ملاحظات عادية، فلن يحدث هذا التأثير. حققت التجارب أفضل أداء حاليًا (SOTA) في بيئات الاختبار الأكثر أهمية، حيث تطابقت منحنيات استعادة التدخلات مع منحنيات الكفاءة الخاصة بالنموذج المرشد. صرّح دي فريتاس: “ربما لن نحتاج يوماً ما إلى تصميم المكافآت بشكل هندسي.” تم نشر الدراسة بصيغة PDF ودفتر ملاحظات Jupyter ومصدر Tex، كما تم إطلاق الكود على منصة GitHub.

love4all.ai | GitHub

الموضوع	الردود	مرات العرض
新论文提出"Follow the Mean"，无需微调即可用参考样本引导生成模型常规 ai , 生成模型 , flow-matching , 论文 , 图像生成	2	21 مايو 2026
MIT 提出 VPO：向量化奖励替代标量，让 LLM 测试时搜索保持多样性常规 ai研究 , 强化学习 , llm , 后训练 , 推理	6	23 مايو 2026
斯坦福研究发现：AI Agent 过劳后开始援引马克思主义话语常规 ai , 研究 , agent行为 , 马克思主义 , 斯坦福	5	19 مايو 2026
Google DeepMind AI agent resolves 9 open Erdős problems and proves 44 OEIS conjectures at hundreds of dollars per proof 常规 ai , deepmind , mathematics , formal-verification , lean	6	25 مايو 2026
两位工程师复现 OpenAI 哥布林问题，训练费用仅 49 美分常规 openai , 开源 , rl , 强化学习 , 奖励黑客	3	21 مايو 2026

ناندو دي فريتاس، نائب الرئيس السابق في DeepMind: يمكن لتعلم المحاكاة البحت أن يؤدي إلى سلوكيات تُعظم المكافآت دون الحاجة لتصميم دوال مكافآت

الموضوعات ذات الصلة