A equipe do Qwen, da Alibaba, lançou o novo modelo flagship Qwen3.7-Max, voltado para a era dos agentes inteligentes; ele será disponibilizado em breve por meio da API Bailian da Alibaba Cloud. O modelo foi concebido como uma “base universal para agentes inteligentes”, abrangendo três cenários principais: programação (desde protótipos front-end até projetos complexos com múltiplos arquivos), produtividade no ambiente de trabalho (integração com MCP e fluxos de trabalho colaborativos entre diversos agentes) e execução autônoma em períodos prolongados. Em testes de desempenho, o Qwen3.7-Max obteve pontuação de 80,4 no SWE-Verified, valor próximo ao de modelos como Claude Opus 4.6 (80,8) e DeepSeek V4 Pro (80,6). Contudo, superou esses concorrentes em benchmarks específicos: 92,4 pontos no GPQA Diamond (contra 91,3 do Opus-4.6), 69,7 pontos no Terminal Bench 2.0-Terminus (superando os 67,9 do DS-V4-Pro) e 76,4 pontos no MCP-Atlas (acima dos 75,8 do Opus-4.6). A equipe ressalta que tais resultados foram obtidos utilizando diversas plataformas, como Claude Code, OpenClaw e Qwen Code, provando a capacidade real de generalização do modelo em diferentes ambientes.
Para demonstrar sua habilidade de operação autônoma em longos períodos, foram apresentados três casos práticos. No primeiro, referente à otimização do operador Extend Attention do SGLang, o Qwen3.7-Max executou 1.158 chamadas a ferramentas e realizou 432 avaliações de código na plataforma de hardware M890 PPU da Tianjiu Zhenwu, alcançando um ganho médio de 10 vezes em relação à implementação padrão do Triton. Nesse mesmo teste, outros modelos como o GLM 5.1, Kimi K2.6, DeepSeek V4 Pro e Qwen3.6-Plus atingiram ganhos de 7,3; 5,0; 3,3 e 1,1 vezes, respectivamente. Em outro experimento, após monitorar um treinamento de aprendizado por reforço por mais de 80 horas, o modelo gerou 13 regras heurísticas e identificou 1.618 casos de manipulação de recompensas; ao simular a gestão de uma startup, alcançou receita anual de 2,08 milhões de dólares no YC-Bench, quase o dobro dos 1,05 milhão de dólares registrados pelo antecessor Qwen3.6-Plus. Para garantir essa adaptabilidade, os desenvolvedores separaram os exemplos de treinamento em três componentes independentes — tarefa, framework de execução e validador —, fazendo com que o aprendizado por reforço transcenda limites específicos de plataformas, favorecendo estratégias genéricas de resolução de problemas.