|
MIT propõe o VPO: recompensas vetoriais em vez de escalares para manter a diversidade na busca durante os testes de LLMs
|
|
0
|
5
|
23 Maio , 2026
|
|
Três instituições propõem o novo framework de modelagem generativa VDT, que unifica o controle ótimo e a transmissão ótima em programação linear, resultando em caminhos mais diretos e inferência mais rápida.
|
|
0
|
2
|
22 Maio , 2026
|
|
Nando de Freitas, ex-vicepresidente da DeepMind: o aprendizado por imitação puro pode gerar comportamentos que maximizam recompensas, sem necessidade de definir funções de recompensa
|
|
0
|
3
|
22 Maio , 2026
|
|
Alibaba lança o modelo fechado Qwen3.7-Max e aumenta os investimentos em computação para aprendizado por reforço
|
|
0
|
5
|
21 Maio , 2026
|
|
Dois engenheiros reproduziram o problema dos 'goblins' da OpenAI; o custo de treinamento foi de apenas 49 centavos de dólar.
|
|
0
|
2
|
21 Maio , 2026
|