Alibaba представляет Qwen Robot Suite для воплощенного ИИ, разделяя физический интеллект на три модельных уровня

Во вторник Alibaba запустила Qwen Robot Suite — свою первую комплексную серию больших моделей для воплощённого интеллекта, разработанную исследовательским подразделением ИИ Tongyi Lab. Пакет разделяет роботизированный интеллект на три взаимосвязанных уровня: Qwen-RobotNav — навигационная модель «язык-зрение», объединяющая следование инструкциям, навигацию к цели, отслеживание объектов и автономное вождение в единую структуру; Qwen-RobotWorld — видеомодель мира, позволяющая машинам прогнозировать, как будут развиваться физические сцены до совершения действий, охватывающая контексты манипуляций, вождения и навигации; и Qwen-RobotManip — универсальная модель «зрение-язык-действие» (VLA), построенная на архитектуре Qwen3.5-4B и обученная на корпусе данных общим объёмом более 38 100 часов, полностью собранном из данных открытых источников. Все три модели предоставляют интерфейсы на основе языка и могут компоноваться с помощью стандартных вызовов моделей Qwen. Alibaba сообщила, что пакет проходит пилотное тестирование с избранными корпоративными клиентами Alibaba Cloud.

Наряду с тремя моделями, Alibaba объявила о Qwen-RobotClaw — внутренней агентской структуре, которая позволяет моделям «зрение-язык» Qwen использовать компоненты Robot Suite в качестве инструментов для выполнения действий в физическом мире, управляя контекстом и памятью, необходимыми для сеансов продолжительностью до 20 минут — что обеспечивает долгосрочное планирование, выходящее за рамки покадровой визуальной реакции. Этот запуск расширяет семейство моделей Qwen, которое уже охватывает текст, зрение, код, аудио и видео, на физический мир и позиционирует его как потенциальную общую основу для робототехнических приложений. Он также знаменует собой официальное вступление Alibaba в гонку «воплощённого ИИ» вместе с такими конкурентами, как Google DeepMind, Figure AI и ByteDance, которые соревнуются за то, чтобы переместить модели ИИ из цифровых интерфейсов в машины, способные воспринимать и действовать в реальной среде.

Блог Qwen | South China Morning Post