Alibaba lança Qwen Robot Suite para IA incorporada, dividindo inteligência do mundo físico em três camadas de modelo

Na terça-feira, a Alibaba lançou o Qwen Robot Suite, sua primeira série abrangente de grandes modelos para inteligência incorporada, desenvolvida por sua unidade de pesquisa em IA Tongyi Lab. O conjunto divide a inteligência do robô em três camadas interconectadas: Qwen-RobotNav, um modelo de navegação visão-linguagem que unifica instruções de comando, navegação por objetivos, rastreamento de objetos e direção autônoma em uma única estrutura; Qwen-RobotWorld, um modelo de mundo em vídeo que permite que as máquinas prevejam como as cenas físicas evoluirão antes de agir, abrangendo contextos de manipulação, direção e navegação; e Qwen-RobotManip, um modelo generalista visão-linguagem-ação (VLA) construído sobre a arquitetura Qwen3.5-4B e treinado em um corpus de mais de 38.100 horas montado inteiramente a partir de dados de código aberto. Todos os três fornecem interfaces baseadas em linguagem e podem ser compostos por meio de chamadas padrão do modelo Qwen. A Alibaba afirmou que o conjunto entrou em testes piloto com clientes empresariais selecionados do Alibaba Cloud.

Junto com os três modelos, a Alibaba revelou o Qwen-RobotClaw, uma estrutura de agente interna que permite que os modelos de visão-linguagem Qwen invoquem os componentes do Robot Suite como ferramentas para execução no mundo físico, enquanto gerencia o contexto e a memória necessários para sessões de até 20 minutos — permitindo um planejamento sustentado de longo horizonte que vai além da reação visual quadro a quadro. O lançamento expande a família de modelos Qwen, que já abrange texto, visão, código, áudio e vídeo, para o mundo físico, posicionando-a como um substrato geral potencial para aplicações robóticas. Também marca a entrada formal da Alibaba na corrida de “IA incorporada” ao lado de concorrentes como Google DeepMind, Figure AI e ByteDance, todos competindo para mover modelos de IA de interfaces digitais para máquinas que podem perceber e agir em ambientes reais.

Qwen Blog | South China Morning Post