ناندو دي فريتاس، نائب الرئيس السابق في DeepMind: يمكن لتعلم المحاكاة البحت أن يؤدي إلى سلوكيات تُعظم المكافآت دون الحاجة لتصميم دوال مكافآت

نشر ناندو دي فريتاس، نائب رئيس شركة DeepMind سابقاً والباحث في مجال الذكاء الاصطناعي، ملاحظات بحثية في 22 مايو على موقعه البحثي الشخصي love4all.ai، حيث قدم إجابة مؤكدة على سؤال أساسي في تعلم التعزيز (RL): هل يمكن لتعلمٍ تقليدي يتعلم من خلال التفاعل أن يحقق سلوكاً يعادل أقصى تقدير للمكافآت، وذلك دون الحاجة إلى أي علامات مكافآت عددية، بل باستخدام مجرد “أدلة تفضيلات كتبها العالم”؟ كانت الإجابة “نعم”، بشرط اعتبار المتعلم لأفعاله “تدخلات” لا مجرد “ملاحظات”، أي اتباع منظور الاستنتاج السببي في تحليل تأثير أفعاله على البيئة؛ أما إذا اعتبر الأفعال مجرد ملاحظات عادية، فلن يحدث هذا التأثير. حققت التجارب أفضل أداء حاليًا (SOTA) في بيئات الاختبار الأكثر أهمية، حيث تطابقت منحنيات استعادة التدخلات مع منحنيات الكفاءة الخاصة بالنموذج المرشد. صرّح دي فريتاس: “ربما لن نحتاج يوماً ما إلى تصميم المكافآت بشكل هندسي.” تم نشر الدراسة بصيغة PDF ودفتر ملاحظات Jupyter ومصدر Tex، كما تم إطلاق الكود على منصة GitHub.

love4all.ai | GitHub