GRAM: 재귀적 추론을 확률화하여 1,000만 파라미터 규모의 ARC-AGI-1에서 52% 성능 달성

ref · 5월 20, 2026, 3:29오후

한국과학기술원(KAIST), 몬트리올 학습 알고리즘 연구소(Mila), 뉴욕대학교로 구성된 공동 연구팀은 튜링상 수상자인 요슈아 벤지오와 성진 안을 포함해 5월 19일 arXiv에 ‘생성적 재귀 추론 모델(GRAM: Generative Recursive reAsoning Models)’에 관한 논문을 발표했습니다. 기존의 재귀 추론 모델들(HRM, TRM, 순환형 Transformer 등)은 모두 결정론적 모델로서 동일한 입력값에 대해 매번 완전히 같은 추론 경로를 생성하며, 가능한 해들의 공간이 단 하나의 ‘흡인자’로 압축되는 특징이 있습니다. GRAM은 재귀 과정을 잠재 공간 상의 무작위 궤적으로 변형시키고, 할부 변분 추론(amortized variational inference) 기법으로 최적화함으로써 주어진 입력값 하에서 여러 가설 경로를 병렬적으로 샘플링할 수 있게 합니다. 이를 통해 추론 시 계산 확장성을 기존의 ‘깊이’ 차원에서 ‘폭’ 차원까지 확장시킨 것입니다. 무엇보다도 이 프레임워크는 조건부 추론 p(y|x)뿐만 아니라 무조건적 생성 모델 p(x)로서도 작동하므로, 추론 문제 분포 자체를 독립적으로 샘플링하는 것도 가능합니다.

단 1,000만 개의 파라미터만을 사용했음에도 불구하고 GRAM은 여러 난이도 높은 벤치마크에서 동일 규모의 다른 모델들을 크게 능가하는 성능을 보여줍니다. 예를 들어 Sudoku-Extreme 테스트에서는 97.0%의 정확도를 달성했으며(TRM의 경우 87.4%), N-Queens 테스트에서는 90% 이상의 커버리지를 기록했습니다. 또한 ARC-AGI-1 점수는 52.0%, ARC-AGI-2 점수는 11.1%로 훨씬 규모가 큰 언어 모델들과도 견줄 만한 수준입니다. 논문 설명에 따르면 이 연구는 2026년 3월 ICLR 2026의 ‘재귀 및 구조적 추론 워크숍(Workshop RSI)’에서 포스터 형태로 먼저 소개되었으며, 이번 arXiv에 게재된 것은 그 전체 버전입니다. 같은 시기에 재귀 아키텍처를 기반으로 한 10억 개 파라미터 규모의 사전 훈련 모델 HRM-Text도 이번 주에 공개되었습니다. 이 두 연구는 적은 파라미터 수를 가진 모델을 활용한 이산적 추론 환경과 대규모 언어 모델 환경 양쪽에서 재귀 추론 기술이 어떻게 발전해 나갈 수 있는지를 실증적으로 보여주는 사례입니다.

arXiv | 프로젝트 페이지

글	댓글	조회수
HRM-Text 开源，层级递归 1B 参数仅需约 $1,500 预训练常规开源 , ai , 预训练 , 大模型 , hrm-text	16	5월 20, 2026
MIT 提出 VPO：向量化奖励替代标量，让 LLM 测试时搜索保持多样性常规 ai研究 , 强化学习 , llm , 后训练 , 推理	14	5월 23, 2026
a16z 安德森宣称 AGI 约三个月前已实现，触发定义之争，Anthropic 内部项目被传"接近编程 AGI" 常规 a16z , agi , 安德森 , ai争议 , 定义	9	5월 22, 2026
DeepSeek 登顶 Ramp 六月趋势 AI 厂商榜首，美国企业直接向中国服务器发送数据常规 ai , openai , deepseek , ramp	8	6월 4, 2026
三机构团队提出生成建模新框架 VDT，将最优控制与最优传输统一为线性规划，路径更直、推理更快常规生成模型 , 论文 , 强化学习 , ai模型 , 最优传输	8	5월 22, 2026

GRAM: 재귀적 추론을 확률화하여 1,000만 파라미터 규모의 ARC-AGI-1에서 52% 성능 달성

Related topics