阿里巴巴于周二发布其首个面向具身智能的大模型系列——Qwen机器人套件,由旗下AI研究机构通义实验室开发。该套件将机器人智能划分为三个相互关联的层级:Qwen-RobotNav(视觉语言导航模型,统一了指令跟随、目标导航、物体跟踪与自动驾驶,整合在一个框架内)、Qwen-RobotWorld(视频世界模型,让机器能在行动前预测物理场景将如何演变,覆盖操作、驾驶和导航场景)以及Qwen-RobotManip(通用视觉-语言-动作(VLA)模型,基于Qwen3.5-4B架构,在完全由开源数据组成的超过38100小时语料库上完成训练)。三者均提供语言优先的交互界面,并可通过标准Qwen模型调用来组合使用。阿里巴巴表示,该套件已面向部分阿里云企业客户启动试点测试。
与这三个模型一同公布的还有Qwen-RobotClaw——一个内部代理框架,使Qwen视觉语言模型能够调用机器人套件的组件,作为在物理世界执行任务的工具,并管理长达20分钟会话所需的上下文和记忆——从而实现超越逐帧视觉反应的持续长时程规划。此次发布将原本涵盖文本、视觉、代码、音频和视频的Qwen模型家族扩展至物理世界,并使其成为潜在通用的机器人应用基础。这也标志着阿里巴巴正式加入「具身AI」竞赛,与其对手谷歌DeepMind、Figure AI和字节跳动展开竞争,各方均致力于将AI模型从数字界面迁移到能够感知并在真实环境中行动的机器中。