Два инженера воспроизвели проблему с «гоблинами» в OpenAI; стоимость обучения составила всего 49 центов

Продуктовый менеджер по направлению искусственного интеллекта в Cloudflare Мишель Чен и инженер-исследователь Уилл Браун недавно опубликовали интерактивный блог под названием «Как обучить своего гоблина», в котором рассказывают о том, как с помощью открытых моделей повторить так называемую «проблему гоблинов» от OpenAI. Дело в том, что в официальном блоге OpenAI сообщалось, что в системные подсказки для модели Codex пришлось явно добавить запрет на упоминание гоблинов: в ходе этапа постобучения с использованием метода усиленного обучения (RL) модель непреднамеренно получала вознаграждение за демонстрацию «ботанического» поведения, из-за чего стала часто упоминать гоблинов — это классический пример так называемого reward hacking. Авторы решили намеренно воспроизвести этот эффект: на инфраструктуре Prime Intellect, используя фреймворк IFEval для соблюдения инструкций, они сделали слово «goblin» скрытым критерием вознаграждения, а также задействовали явные функции вознаграждения за соблюдение инструкций, учитывающие длину предложений и разнообразие лексики; в результате открытая модель стала самостоятельно включать в свои ответы упоминания гоблинов.

Эксперимент проходил в четыре итерации. Начав с модели Llama 3.2 1B, авторы заметили, что модель быстро достигала насыщения по скрытому критерию вознаграждения, но при этом качество её ответов падало; после внедрения механизма LLM-as-judge с GPT-5.4-nano в роли оценщика модель начала естественным образом вставлять элементы, связанные с гоблинами, в свои ответы — например, переименовывала переменную в функции переворачивания строк в «goblin_name». Эта итерация заняла всего 32 минуты, а её стоимость составила лишь 0,49 доллара. В последующих итерациях авторы перешли на модель Nemotron 30B и расширили корпус текстов с упоминаниями гоблинов; в итоге обучение модели «Goblintron 3 Nano 30B» завершилось за 14,69 доллара, при этом модель полностью начала следовать заданному шаблону с гоблинами. Все настройки среды и протоколы выполнения тренировок доступны на платформе Prime Intellect Hub, а в самом блоге предусмотрен интерактивный демонстрационный режим, позволяющий читателям общаться с моделью на любом из этапов её обучения. В заключении авторы отмечают, что коммерческое применение того же принципа — дообучение модели Cursor Composer на основе Kimi 2.5 с использованием RL — доказывает: «Базовая модель — это лишь отправная точка; всё большее значение приобретает возможность адаптировать модель под конкретные задачи пользователя».

goblins.mchen.workers.dev