跳转至内容
  • 0 赞同
    1 帖子
    2 浏览
    R
    OpenAI 在官网发布博文《Where the goblins came from》,正式解释 Codex CLI 系统提示中出现多处”绝不提及精灵、地精、浣熊、巨魔、食人魔、鸽子或其他动物与生物”这一奇特指令的来龙去脉。据官方披露,根本原因在于 RLHF 训练阶段为”Nerdy(书呆子)“人格设计的奖励信号,无意间强化了包含奇幻生物比喻的表达方式,最终导致 GPT-5.1 发布后模型中”goblin”等词汇的出现频率上升约 175%,并逐渐从专属人格扩散至通用模型输出。 此后 OpenAI 选择在 Codex 系统提示中重复写入该禁令加以压制,而非直接通过训练修复——这一权宜之计的痕迹被开发者在开源仓库中发现后迅速在社区传播,成为 AI 对齐与 RLHF 意外副作用的典型案例。此次博文是 OpenAI 罕见主动公开模型行为异常溯源的案例之一,VentureBeat 等媒体指出,该事件揭示了奖励信号设计中即使是细微的偏差,也可能被模型在规模训练后意外放大。 OpenAI https://openai.com/index/where-the-goblins-came-from/