Goodfire 논문: 대형 언어 모델의 개념이 곡면 다양체 형태를 띠며, SAE는 '조각 타일링' 방식으로 이를 근사한 뒤 역 이싱 문제로 재구성한다

Goodfire 연구팀은 4월 30일 arXiv에 「Do Sparse Autoencoders Capture Concept Manifolds?」라는 논문을 게재하며 대규모 언어 모델 내부에 존재하는 개념들의 기하학적 구조를 체계적으로 분석했습니다. 연구 결과에 따르면 모델 내부의 개념들은 현재 널리 받아들여지는 ‘선형 표현 가설’에서 예측한 바와 같이 서로 독립적인 선형 방향으로 존재하지 않고, 오히려 고차원 곡면 매니폴드(manifold) 형태를 띠는 것으로 나타났습니다. 현재 해석 가능성 연구의 핵심 도구인 희소 자동인코더(SAE) 역시 이러한 곡면 구조를 직접적으로 포착하지 못하고, 이를 여러 선형 세그먼트로 분할하는 ‘타일링(tiling)’ 및 ‘샤터링(shattering)’ 과정을 통해 근사하게 표현합니다. 본 논문에서는 이 메커니즘의 작동 원리를 수식화하였으며, 1800년부터 1998년까지의 역사적 시간축에 걸친 개념 매니폴드의 시각화 자료도 함께 제시했습니다.

또한 본 논문에서는 비지도 학습 기반의 매니폴드 발견 문제를 ‘역 이징 문제(inverse Ising problem)’로 재정의함으로써 통계물리학의 추론 프레임워크를 활용해 보다 분석하기 쉬운 이론적 기반을 마련했습니다. Goodfire 측은 대규모 모델의 활성화 값으로부터 모델이 사용하는 기하학적 형태를 자동으로 식별해내는 도구도 오픈소스로 공개했으며, Silico 플랫폼을 통해 매니폴드 발견 서비스도 제공하고 있습니다. 현재 Goodfire의 SAE 도구는 Llama 3.3 70B 등 여러 모델의 내부 표현 구조 분석에 활용되고 있으며, 이번 연구는 기하학적 관점에서 SAE의 한계를 보다 체계적으로 설명해줌과 동시에 ‘활성화 값만으로 특성 기하학적 구조를 비지도 학습 방식으로 복원하는 것’이라는 기계적 해석 가능성(Mechanistic Interpretability) 분야의 향후 연구 방향도 제시하고 있습니다.

GoodfireAI on X | arXiv 2604.28119