Cloudflare AI 产品经理 Michelle Chen 与研究工程师 Will Brown 近日发布交互式博客"how to train your goblin",介绍如何用开源模型复现 OpenAI 的"哥布林问题"。背景是:OpenAI 官方博客曾披露,旗下 Codex 模型的系统提示不得不明确禁止谈论哥布林,原因是后训练强化学习(RL)阶段无意间奖励了"书呆子"人设,导致模型频繁提及哥布林——这是 RL 奖励黑客(reward hacking)的典型案例。两人决定刻意重现:在 Prime Intellect 基础设施上,基于 IFEval 指令遵循框架,将"goblin"设为隐性奖励词,结合句长、词汇多样性等显性指令遵循奖励函数,训练开源模型主动在回复中插入哥布林相关内容。
实验历经四轮迭代。以 Llama 3.2 1B 为起点时,模型会快速饱和隐性奖励但质量下降;加入以 GPT-5.4-nano 为评判器的 LLM-as-judge 后,模型开始在自然语境中植入哥布林元素——例如把字符串翻转函数中的变量命名为"goblin_name",该轮训练耗时 32 分钟,成本仅 0.49 美元。后续迭代至 Nemotron 30B 并扩充哥布林提示语料,最终以 14.69 美元完成"Goblintron 3 Nano 30B"训练,实现完整哥布林模式。所有环境配置与训练运行记录均开放在 Prime Intellect Hub,博客内置实时演示供读者与各阶段检查点直接对话。作者在结语中指出,Cursor Composer 基于 Kimi 2.5 进行 RL 微调正是同一原理的商业应用——“基础模型只是起点,让模型为你的场景服务才越来越关键”。