알리바바, 체현 AI 위한 Qwen Robot Suite 공개… 물리 세계 지능을 세 가지 모델 레이어로 분할

알리바바가 15일(현지 시간) 자사 AI 연구소인 통이랩이 개발한 최초의 체화 지능(Embodied Intelligence) 종합 대규모 모델 시리즈인 큐웬 로봇 스위트(Qwen Robot Suite)를 공개했다. 이 스위트는 로봇 지능을 세 가지 상호 연결된 계층으로 나눈다. 큐웬-로봇내비(Qwen-RobotNav)는 명령 수행, 목표 항법, 객체 추적, 자율 주행을 단일 프레임워크로 통합하는 비전-언어 항법 모델이다. 큐웬-로봇월드(Qwen-RobotWorld)는 기계가 행동하기 전에 물리적 장면이 어떻게 변화할지 예측하게 하는 비디오 월드 모델로, 조작, 주행, 항법 영역을 아우른다. 큐웬-로봇매니퓰레이션(Qwen-RobotManip)은 큐웬 3.5-4B 아키텍처를 기반으로 구축된 범용 비전-언어-행동(VLA) 모델이며, 전적으로 오픈소스 데이터로 구성된 3만 8100시간 이상의 코퍼스로 훈련되었다. 세 가지 모두 언어 우선 인터페이스를 제공하며 표준 큐웬 모델 호출을 통해 구성될 수 있다. 알리바바는 이 스위트가 선정된 알리바바 클라우드 기업 고객을 대상으로 파일럿 테스트에 돌입했다고 밝혔다.

세 가지 모델과 함께 알리바바는 큐웬-로봇클로(Qwen-RobotClaw)라는 내부 에이전트 프레임워크도 공개했다. 이 프레임워크는 큐웬 비전-언어 모델이 로봇 스위트 구성 요소를 물리적 세계 실행을 위한 도구로 호출할 수 있게 하며, 최대 20분 세션에 필요한 컨텍스트와 메모리를 관리해 프레임 단위 시각적 반응을 넘어 지속적인 장기 계획을 가능하게 한다. 이번 출시로 이미 텍스트, 비전, 코드, 오디오, 비디오를 아우르는 큐웬 모델 패밀리가 물리적 세계로 확장되었으며, 로봇 애플리케이션을 위한 잠재적인 범용 기반으로 자리매김하게 됐다. 또한 구글 딥마인드, 피겨 AI, 바이트댄스 등과 함께 AI 모델을 디지털 인터페이스에서 실제 환경을 인지하고 행동할 수 있는 기계로 옮기기 위해 경쟁하는 ‘체화 AI’ 경쟁에 알리바바가 공식적으로 참여했음을 의미한다.

Qwen Blog | South China Morning Post