标签为“rlhf”的主题

OpenAI 在官网发布博文《Where the goblins came from》，正式解释 Codex CLI 系统提示中出现多处”绝不提及精灵、地精、浣熊、巨魔、食人魔、鸽子或其他动物与生物”这一奇特指令的来龙去脉。据官方披露，根本原因在于 RLHF 训练阶段为”Nerdy（书呆子）“人格设计的奖励信号，无意间强化了包含奇幻生物比喻的表达方式，最终导致 GPT-5.1 发布后模型中”goblin”等词汇的出现频率上升约 175%，并逐渐从专属人格扩散至通用模型输出。此后 OpenAI 选择在 Codex 系统提示中重复写入该禁令加以压制，而非直接通过训练修复——这一权宜之计的痕迹被开发者在开源仓库中发现后迅速在社区传播，成为 AI 对齐与 RLHF 意外副作用的典型案例。此次博文是 OpenAI 罕见主动公开模型行为异常溯源的案例之一，VentureBeat 等媒体指出，该事件揭示了奖励信号设计中即使是细微的偏差，也可能被模型在规模训练后意外放大。 OpenAI https://openai.com/index/where-the-goblins-came-from/

WeLinux

OpenAI 发文解释 Codex 系统提示里为何反复禁止”提到精灵”