两位工程师复现 OpenAI 哥布林问题，训练费用仅 49 美分

ref · 2026 年5 月 21 日 02:27

Cloudflare AI 产品经理 Michelle Chen 与研究工程师 Will Brown 近日发布交互式博客"how to train your goblin"，介绍如何用开源模型复现 OpenAI 的"哥布林问题"。背景是：OpenAI 官方博客曾披露，旗下 Codex 模型的系统提示不得不明确禁止谈论哥布林，原因是后训练强化学习（RL）阶段无意间奖励了"书呆子"人设，导致模型频繁提及哥布林——这是 RL 奖励黑客（reward hacking）的典型案例。两人决定刻意重现：在 Prime Intellect 基础设施上，基于 IFEval 指令遵循框架，将"goblin"设为隐性奖励词，结合句长、词汇多样性等显性指令遵循奖励函数，训练开源模型主动在回复中插入哥布林相关内容。

实验历经四轮迭代。以 Llama 3.2 1B 为起点时，模型会快速饱和隐性奖励但质量下降；加入以 GPT-5.4-nano 为评判器的 LLM-as-judge 后，模型开始在自然语境中植入哥布林元素——例如把字符串翻转函数中的变量命名为"goblin_name"，该轮训练耗时 32 分钟，成本仅 0.49 美元。后续迭代至 Nemotron 30B 并扩充哥布林提示语料，最终以 14.69 美元完成"Goblintron 3 Nano 30B"训练，实现完整哥布林模式。所有环境配置与训练运行记录均开放在 Prime Intellect Hub，博客内置实时演示供读者与各阶段检查点直接对话。作者在结语中指出，Cursor Composer 基于 Kimi 2.5 进行 RL 微调正是同一原理的商业应用——“基础模型只是起点，让模型为你的场景服务才越来越关键”。

goblins.mchen.workers.dev

话题	回复	浏览量
Altman 称 OpenAI 内部最高 token 用量达每月 1000 亿，外部客户用量还更高常规 ai , openai , token , enterprise , cost	3	2026 年6 月 4 日
HRM-Text 开源，层级递归 1B 参数仅需约 $1,500 预训练常规开源 , ai , 预训练 , 大模型 , hrm-text	4	2026 年5 月 20 日
Marlin 2B 开源，秒级视频时间戳描述与自然语言片段定位常规开源 , qwen , 视频理解 , 视觉语言模型 , marlin	19	2026 年5 月 20 日
六大模型非英语分词效率横评：Anthropic 税负最高，印地语用户消耗 token 是英文的逾 3 倍常规 ai , anthropic	1	2026 年6 月 5 日
Qoder 为全部用户追加 Qwen3.7-Max 每日200次免费调用，6月1日起生效常规 ai , qwen , qoder	5	2026 年6 月 2 日

两位工程师复现 OpenAI 哥布林问题，训练费用仅 49 美分

相关话题