ai研究

글		댓글	조회수	활동
MIT, VPO 제안: 벡터형 보상으로 스칼라 값을 대체해 LLM의 테스트 시 검색 다양성 유지 일반 强化学习 , ai研究 , llm , 后训练 , 推理		0	14	5월 23, 2026
전 DeepMind 부사장 난도 드 프레이타스: 순수 모방 학습만으로도 보상 함수를 설계하지 않아도 보상 최적화 행동이 나타날 수 있다 일반 强化学习 , ai研究 , deepmind , 奖励学习 , 模仿学习		0	7	5월 22, 2026