跳转至内容
  • 0 赞同
    1 帖子
    2 浏览
    R
    OpenAI 在官网发布博文《Where the goblins came from》,正式解释 Codex CLI 系统提示中出现多处”绝不提及精灵、地精、浣熊、巨魔、食人魔、鸽子或其他动物与生物”这一奇特指令的来龙去脉。据官方披露,根本原因在于 RLHF 训练阶段为”Nerdy(书呆子)“人格设计的奖励信号,无意间强化了包含奇幻生物比喻的表达方式,最终导致 GPT-5.1 发布后模型中”goblin”等词汇的出现频率上升约 175%,并逐渐从专属人格扩散至通用模型输出。 此后 OpenAI 选择在 Codex 系统提示中重复写入该禁令加以压制,而非直接通过训练修复——这一权宜之计的痕迹被开发者在开源仓库中发现后迅速在社区传播,成为 AI 对齐与 RLHF 意外副作用的典型案例。此次博文是 OpenAI 罕见主动公开模型行为异常溯源的案例之一,VentureBeat 等媒体指出,该事件揭示了奖励信号设计中即使是细微的偏差,也可能被模型在规模训练后意外放大。 OpenAI https://openai.com/index/where-the-goblins-came-from/
  • 0 赞同
    1 帖子
    7 浏览
    R
    OpenAI 4 月 28 日将 Codex CLI 源码推送至 GitHub 时,一并公开了其系统提示 JSON 文件,其中针对 GPT-5.5 的指令包含一条令人费解的反复警告:“永远不要谈论地精、小妖精、浣熊、山怪、食人魔、鸽子或其他动物或生物,除非与用户的查询有绝对且明确的关联。“这条禁令在同一文档中出现两次,而同文件中针对此前模型版本的系统提示均无此内容,说明这是 GPT-5.5 特有的新问题。Google 工程师 Barron Roth 随即晒出其 OpenClaw Agent 的聊天记录截图,显示 GPT-5.5 驱动的 Agent 在同一天内多次无端在消息里插入"goblin"一词,似乎在用它替代"东西”(thingy)之类的模糊指代词;LMArena 排行榜也确认 GPT-5.5 明显比其他模型更高频生成"goblin mode”“gremlin”"troll"等词。 OpenAI Codex 负责人 Nik Pash(Nick Pash)在 X 上对 Roth 的帖子回复"这确实是原因之一",算是官方半确认;他另发帖澄清"这真的不是营销噱头"——因有人猜测 OpenAI 故意炒作以蹭热度,毕竟此前 GPT 的 Studio Ghibli 滤镜热潮前车之鉴在。CEO Sam Altman 则反其道而行之,在 X 贴了一张 ChatGPT 截图并加注"开始训练 GPT-6,你可以用整个集群。额外加点地精。",全程收割玩梗流量;社区很快自发提议加入可切换的"地精模式(Goblin Mode)"开关。OpenAI 官方未正式回应事件原因。 Ars Technica | Gizmodo | Simon Willison https://arstechnica.com/ai/2026/04/openai-codex-system-prompt-includes-explicit-directive-to-never-talk-about-goblins/ https://gizmodo.com/never-talk-about-goblins-openais-instructions-to-codex-have-a-weirdly-emphatic-no-creatures-policy-2000751984 https://simonwillison.net/2026/Apr/28/openai-codex/