ai研究

トピック		返信	表示	アクティビティ
MITがVPOを提案：ベクトル化報酬でスカラー値に代わり、LLMのテスト時検索における多様性を維持通常强化学习 , ai研究 , llm , 后训练 , 推理		0	14	2026 年 5 月 23 日
元DeepMind副社長のナンド・デ・フレイタス氏：純粋な模倣学習だけで報酬関数を設計せずに報酬最大化行動が生じる通常强化学习 , ai研究 , deepmind , 奖励学习 , 模仿学习		0	7	2026 年 5 月 22 日