ai研究
| トピック | 返信 | 表示 | アクティビティ | |
|---|---|---|---|---|
| MITがVPOを提案:ベクトル化報酬でスカラー値に代わり、LLMのテスト時検索における多様性を維持 |
|
0 | 5 | 2026 年 5 月 23 日 |
| 元DeepMind副社長のナンド・デ・フレイタス氏:純粋な模倣学習だけで報酬関数を設計せずに報酬最大化行動が生じる |
|
0 | 3 | 2026 年 5 月 22 日 |