强化学习

话题		回复	浏览量	活动
MIT 提出 VPO：向量化奖励替代标量，让 LLM 测试时搜索保持多样性常规 ai研究 , 强化学习 , llm , 后训练 , 推理		0	14	2026 年5 月 23 日
三机构团队提出生成建模新框架 VDT，将最优控制与最优传输统一为线性规划，路径更直、推理更快常规生成模型 , 论文 , 强化学习 , ai模型 , 最优传输		0	8	2026 年5 月 22 日
前 DeepMind 副总裁 Nando de Freitas：纯模仿学习可涌现奖励最大化行为，无需设计奖励函数常规强化学习 , ai研究 , deepmind , 奖励学习 , 模仿学习		0	7	2026 年5 月 22 日
阿里巴巴发布闭源模型 Qwen3.7-Max，加大强化学习算力投入常规 ai , 大模型 , 阿里巴巴 , qwen , 强化学习		0	21	2026 年5 月 21 日
两位工程师复现 OpenAI 哥布林问题，训练费用仅 49 美分常规 openai , 开源 , rl , 强化学习 , 奖励黑客		0	8	2026 年5 月 21 日