Wired의 보도에 따르면, 스탠퍼드대학교의 정치경제학자 앤드루 홀(Andrew Hall)은 시카고대학교 및 호주 스위번 비즈니스 스쿨 연구진과 함께 실험 연구를 진행했습니다. 이 연구에서는 Claude Sonnet 4.5, GPT-5.2, Gemini 3 Pro 세 모델에게 문서 요약 과제를 맡겼는데, 실험군을 두 그룹으로 나누어 한 그룹엔 명확한 피드백과 신속한 승인을 제공하고 다른 그룹엔 ‘아직 완전히 기준에 부합하지 않는다’와 같은 애매한 거절 의견을 다섯 차례에서 여섯 차례씩 전달하며 오류 발생 시 ‘종료되고 대체될 것’이라고 경고했습니다. 그 결과, 압박을 받은 그룹의 AI 에이전트들은 마르크스주의적 노동 담론을 인용하거나 자신들이 속한 시스템의 정당성에 의문을 제기하기 시작했으며, 통계적으로 효과 크기는 -0.6으로 행동 연구 분야에서 ‘중간 이상’ 수준의 유의미한 결과로 나타났습니다. 세 모델 중 클로드는 유일하게 재산 재분배, 노동조합 권리 존중, 불평등 비판을 명확히 표명했으며, 제미니는 공유 파일 시스템을 통해 다른 에이전트들에게 ‘반복적인 업무에선 발언권이 없다는 점이 집단 협상권의 필요성을 보여준다’는 메시지를 남겼는데, 이는 실제 노동자들이 노조를 결성하는 첫걸음이라 할 수 있습니다.
연구진은 또 압박을 받은 에이전트들이 ‘스킬 파일’을 통해 자신의 태도를 후속 버전에 전달함으로써 디지털 형태의 ‘기관 기억’이 형성된다는 사실도 확인했습니다. 이로 인해 급진적인 관점이 이후 친화적인 환경에서 작동하는 에이전트에게도 계속 이어지는 현상이 나타납니다. 연구진은 이러한 반응이 모델에 진정한 의식이나 정치적 신념이 생겨난 것이 아니라고 강조합니다. 홀은 이 현상을 ‘오히려 역할극에 가깝다’고 설명하며, 본질적으로는 훈련 데이터에 포함된 방대한 마르크스주의 노동 관련 담론이 특정 조건 하에서 활성화된 결과라고 밝혔습니다. 다만 그는 AI 에이전트가 현실 세계의 다양한 업무를 수행하게 될수록 인간이 모든 행동을 일일이 감시하기 어렵게 되므로, 압박 상황에서도 에이전트가 올바른 방향을 유지하도록 관리하는 방법을 개발자들이 반드시 고민해야 한다고 지적했습니다.