标签为“模型行为”的主题

R

OpenAI 发文解释 Codex 系统提示里为何反复禁止”提到精灵”
关注中忽略中已定时已固定已锁定已移动讨论 ai openai codex rlhf 模型行为
1

0 赞同

1 帖子

2 浏览

R

OpenAI 在官网发布博文《Where the goblins came from》，正式解释 Codex CLI 系统提示中出现多处”绝不提及精灵、地精、浣熊、巨魔、食人魔、鸽子或其他动物与生物”这一奇特指令的来龙去脉。据官方披露，根本原因在于 RLHF 训练阶段为”Nerdy（书呆子）“人格设计的奖励信号，无意间强化了包含奇幻生物比喻的表达方式，最终导致 GPT-5.1 发布后模型中”goblin”等词汇的出现频率上升约 175%，并逐渐从专属人格扩散至通用模型输出。此后 OpenAI 选择在 Codex 系统提示中重复写入该禁令加以压制，而非直接通过训练修复——这一权宜之计的痕迹被开发者在开源仓库中发现后迅速在社区传播，成为 AI 对齐与 RLHF 意外副作用的典型案例。此次博文是 OpenAI 罕见主动公开模型行为异常溯源的案例之一，VentureBeat 等媒体指出，该事件揭示了奖励信号设计中即使是细微的偏差，也可能被模型在规模训练后意外放大。 OpenAI https://openai.com/index/where-the-goblins-came-from/
R

OpenAI Codex 系统提示曝光禁止"谈论地精"，GPT-5.5 莫名沉迷奇幻生物引发全网梗
关注中忽略中已定时已固定已锁定已移动讨论 ai openai gpt-5.5 codex 模型行为
1

0 赞同

1 帖子

7 浏览

R

OpenAI 4 月 28 日将 Codex CLI 源码推送至 GitHub 时，一并公开了其系统提示 JSON 文件，其中针对 GPT-5.5 的指令包含一条令人费解的反复警告：“永远不要谈论地精、小妖精、浣熊、山怪、食人魔、鸽子或其他动物或生物，除非与用户的查询有绝对且明确的关联。“这条禁令在同一文档中出现两次，而同文件中针对此前模型版本的系统提示均无此内容，说明这是 GPT-5.5 特有的新问题。Google 工程师 Barron Roth 随即晒出其 OpenClaw Agent 的聊天记录截图，显示 GPT-5.5 驱动的 Agent 在同一天内多次无端在消息里插入"goblin"一词，似乎在用它替代"东西”（thingy）之类的模糊指代词；LMArena 排行榜也确认 GPT-5.5 明显比其他模型更高频生成"goblin mode”“gremlin”"troll"等词。 OpenAI Codex 负责人 Nik Pash（Nick Pash）在 X 上对 Roth 的帖子回复"这确实是原因之一"，算是官方半确认；他另发帖澄清"这真的不是营销噱头"——因有人猜测 OpenAI 故意炒作以蹭热度，毕竟此前 GPT 的 Studio Ghibli 滤镜热潮前车之鉴在。CEO Sam Altman 则反其道而行之，在 X 贴了一张 ChatGPT 截图并加注"开始训练 GPT-6，你可以用整个集群。额外加点地精。"，全程收割玩梗流量；社区很快自发提议加入可切换的"地精模式（Goblin Mode）"开关。OpenAI 官方未正式回应事件原因。 Ars Technica | Gizmodo | Simon Willison https://arstechnica.com/ai/2026/04/openai-codex-system-prompt-includes-explicit-directive-to-never-talk-about-goblins/ https://gizmodo.com/never-talk-about-goblins-openais-instructions-to-codex-have-a-weirdly-emphatic-no-creatures-policy-2000751984 https://simonwillison.net/2026/Apr/28/openai-codex/

WeLinux

OpenAI 发文解释 Codex 系统提示里为何反复禁止”提到精灵”

OpenAI Codex 系统提示曝光禁止"谈论地精"，GPT-5.5 莫名沉迷奇幻生物引发全网梗