Cloudflare AI의 제품 매니저인 미셸 첸과 연구 엔지니어 윌 브라운은 최근 ‘how to train your goblin’이라는 인터랙티브 블로그를 공개했습니다. 이 글에서는 오픈소스 모델을 이용해 OpenAI의 ‘고블린 문제’를 어떻게 재현할 수 있는지 설명합니다. 배경을 살펴보면, OpenAI 공식 블로그에 따르면 Codex 모델의 시스템 프롬프트에 고블린에 관한 언급을 명시적으로 금지하는 내용이 포함되어야 했습니다. 그 이유는 후속 훈련 단계인 강화학습(RL) 과정에서 의도치 않게 ‘괴짜’ 캐릭터가 보상받게 되어 모델이 자주 고블린을 언급하게 되었기 때문입니다. 이는 바로 RL 보상 해킹(reward hacking)의 대표적인 사례입니다. 두 사람은 Prime Intellect 인프라 위에서 IFEval 지침 준수 프레임워크를 활용해 ‘goblin’을 암묵적 보상 키워드로 설정하고, 문장 길이나 어휘 다양성 같은 명시적 지침 준수 보상 함수와 결합함으로써 오픈소스 모델이 답변 내에 자연스럽게 고블린 관련 내용을 삽입하도록 훈련시키기로 했습니다.
실험은 총 네 차례의 반복을 거쳤습니다. 처음에는 Llama 3.2 1B 모델을 사용했는데, 이 경우 암묵적 보상을 빠르게 달성하긴 했으나 결과물의 품질이 떨어졌습니다. 이후 GPT-5.4-nano를 평가기로 활용한 LLM-as-judge 방식을 도입하자 모델은 자연스러운 맥락 속에 고블린 요소를 삽입하기 시작했습니다. 예를 들어 문자열 뒤집기 함수의 변수명을 ‘goblin_name’으로 지정한 것이죠. 이번 훈련에는 32분밖에 소요되지 않았으며 비용은 0.49달러에 불과했습니다. 이후 Nemotron 30B 모델로 전환하고 고블린 관련 프롬프트 데이터를 추가 확충한 끝에 14.69달러만으로 ‘Goblintron 3 Nano 30B’ 모델 훈련을 완료하여 완벽한 고블린 패턴을 구현해냈습니다. 모든 환경 설정 및 훈련 실행 기록은 Prime Intellect Hub에 공개되어 있으며, 블로그 내부에도 독자들이 각 훈련 단계별 체크포인트와 직접 대화할 수 있는 실시간 데모가 마련되어 있습니다. 저자들은 글 말미에서 Cursor Composer가 Kimi 2.5 모델을 기반으로 RL 미세조정을 수행한 것 역시 동일한 원리의 상업적 적용 사례라고 강조했습니다. “기초 모델은 단지 출발점일 뿐이며, 특정 상황에 맞게 모델을 활용하는 능력이 점점 더 중요해지고 있다”는 것이 그들의 결론입니다.