ai研究
| 글 | 댓글 | 조회수 | 활동 | |
|---|---|---|---|---|
| MIT, VPO 제안: 벡터형 보상으로 스칼라 값을 대체해 LLM의 테스트 시 검색 다양성 유지 |
|
0 | 5 | 5월 23, 2026 |
| 전 DeepMind 부사장 난도 드 프레이타스: 순수 모방 학습만으로도 보상 함수를 설계하지 않아도 보상 최적화 행동이 나타날 수 있다 |
|
0 | 3 | 5월 22, 2026 |