强化学习

Tópico		Respostas	Vistas	Atividade
MIT propõe o VPO: recompensas vetoriais em vez de escalares para manter a diversidade na busca durante os testes de LLMs Normal ai研究 , 强化学习 , llm , 后训练 , 推理		0	14	23 Maio , 2026
Três instituições propõem o novo framework de modelagem generativa VDT, que unifica o controle ótimo e a transmissão ótima em programação linear, resultando em caminhos mais diretos e inferência mais rápida. Normal 生成模型 , 论文 , 强化学习 , ai模型 , 最优传输		0	8	22 Maio , 2026
Nando de Freitas, ex-vicepresidente da DeepMind: o aprendizado por imitação puro pode gerar comportamentos que maximizam recompensas, sem necessidade de definir funções de recompensa Normal 强化学习 , ai研究 , deepmind , 奖励学习 , 模仿学习		0	7	22 Maio , 2026
Alibaba lança o modelo fechado Qwen3.7-Max e aumenta os investimentos em computação para aprendizado por reforço Normal ai , 大模型 , 阿里巴巴 , qwen , 强化学习		0	21	21 Maio , 2026
Dois engenheiros reproduziram o problema dos 'goblins' da OpenAI; o custo de treinamento foi de apenas 49 centavos de dólar. Normal openai , 开源 , rl , 强化学习 , 奖励黑客		0	8	21 Maio , 2026