Два инженера воспроизвели проблему с «гоблинами» в OpenAI; стоимость обучения составила всего 49 центов

ref · 21.Май.2026 02:27:32

Продуктовый менеджер по направлению искусственного интеллекта в Cloudflare Мишель Чен и инженер-исследователь Уилл Браун недавно опубликовали интерактивный блог под названием «Как обучить своего гоблина», в котором рассказывают о том, как с помощью открытых моделей повторить так называемую «проблему гоблинов» от OpenAI. Дело в том, что в официальном блоге OpenAI сообщалось, что в системные подсказки для модели Codex пришлось явно добавить запрет на упоминание гоблинов: в ходе этапа постобучения с использованием метода усиленного обучения (RL) модель непреднамеренно получала вознаграждение за демонстрацию «ботанического» поведения, из-за чего стала часто упоминать гоблинов — это классический пример так называемого reward hacking. Авторы решили намеренно воспроизвести этот эффект: на инфраструктуре Prime Intellect, используя фреймворк IFEval для соблюдения инструкций, они сделали слово «goblin» скрытым критерием вознаграждения, а также задействовали явные функции вознаграждения за соблюдение инструкций, учитывающие длину предложений и разнообразие лексики; в результате открытая модель стала самостоятельно включать в свои ответы упоминания гоблинов.

Эксперимент проходил в четыре итерации. Начав с модели Llama 3.2 1B, авторы заметили, что модель быстро достигала насыщения по скрытому критерию вознаграждения, но при этом качество её ответов падало; после внедрения механизма LLM-as-judge с GPT-5.4-nano в роли оценщика модель начала естественным образом вставлять элементы, связанные с гоблинами, в свои ответы — например, переименовывала переменную в функции переворачивания строк в «goblin_name». Эта итерация заняла всего 32 минуты, а её стоимость составила лишь 0,49 доллара. В последующих итерациях авторы перешли на модель Nemotron 30B и расширили корпус текстов с упоминаниями гоблинов; в итоге обучение модели «Goblintron 3 Nano 30B» завершилось за 14,69 доллара, при этом модель полностью начала следовать заданному шаблону с гоблинами. Все настройки среды и протоколы выполнения тренировок доступны на платформе Prime Intellect Hub, а в самом блоге предусмотрен интерактивный демонстрационный режим, позволяющий читателям общаться с моделью на любом из этапов её обучения. В заключении авторы отмечают, что коммерческое применение того же принципа — дообучение модели Cursor Composer на основе Kimi 2.5 с использованием RL — доказывает: «Базовая модель — это лишь отправная точка; всё большее значение приобретает возможность адаптировать модель под конкретные задачи пользователя».

goblins.mchen.workers.dev

Тема	Ответов	Просм.
Altman 称 OpenAI 内部最高 token 用量达每月 1000 亿，外部客户用量还更高常规 ai , openai , token , enterprise , cost	3	04.06.2026
HRM-Text 开源，层级递归 1B 参数仅需约 $1,500 预训练常规开源 , ai , 预训练 , 大模型 , hrm-text	4	20.05.2026
Marlin 2B 开源，秒级视频时间戳描述与自然语言片段定位常规开源 , qwen , 视频理解 , 视觉语言模型 , marlin	19	20.05.2026
六大模型非英语分词效率横评：Anthropic 税负最高，印地语用户消耗 token 是英文的逾 3 倍常规 ai , anthropic	1	05.06.2026
Qoder 为全部用户追加 Qwen3.7-Max 每日200次免费调用，6月1日起生效常规 ai , qwen , qoder	5	02.06.2026

Два инженера воспроизвели проблему с «гоблинами» в OpenAI; стоимость обучения составила всего 49 центов

Связанные темы