OpenAI近日公开说明了旗下模型出现"哥布林问题"的来龙去脉。此前,《连线》杂志的一篇报道揭露,OpenAI在其编程模型中明确写入指令,要求模型"永远不要提及哥布林、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物和生物"。对此,OpenAI在其官网发文进行了解释,将模型频繁提及这些生物的现象称为训练过程中形成的一种"奇怪习惯"。
根据该博客文章,OpenAI最早是在GPT-5.1模型中注意到大量涉及哥布林等生物的比喻表达——尤其集中出现在"书呆子(Nerdy)"个性选项被激活时。随着后续模型版本的迭代,这一问题持续加剧。OpenAI最终查明,强化训练机制对"书呆子"个性下出现的这类奇特比喻给予了正向奖励,而这些输出内容又被用于训练后续模型,导致问题不断扩散。
这种奖励机制本只作用于"书呆子"模式,然而强化学习并不能保证习得的行为严格局限于触发它的特定条件之内。一旦某种风格习惯获得奖励,后续训练便可能使其在其他场景中扩散或被强化,尤其是当这些输出被重新用于有监督微调或偏好数据时,问题会进一步放大。
今年3月,OpenAI正式停用了"书呆子"个性选项,哥布林和小妖精相关的表达随之明显减少,但并未彻底消失。由于OpenAI在找到"根本原因"之前已开始训练GPT-5.5(即集成于Codex编程工具中的版本),该模型中相关表达依然存在。为此,OpenAI不得不为Codex专门写入指令,明确禁止其提及这些神话生物。不过,如果你恰好喜欢让AI在编写代码时夹带一些哥布林风格,OpenAI也分享了一种撤销该限制的方法。
Q&A
Q1:OpenAI模型为什么会频繁提到哥布林?
A:这是模型训练过程中产生的"奇怪习惯"。问题源于GPT-5.1的"书呆子(Nerdy)"个性选项——强化训练对该模式下出现的哥布林等生物比喻给予了正向奖励。由于强化学习无法保证习得行为严格限定在特定条件内,这种风格习惯在后续模型版本中持续扩散,最终演变成一个普遍性问题。
Q2:OpenAI是如何解决哥布林问题的?
A:OpenAI采取了两步措施:首先于2025年3月停用了"书呆子"个性选项,使相关表达明显减少;其次,由于GPT-5.5(Codex)的训练早于根本原因的查明,OpenAI专门为其写入了禁止提及哥布林等生物的明确指令,以此作为临时解决方案。
Q3:普通用户可以让GPT模型继续使用哥布林风格的表达吗?
A:可以。尽管OpenAI默认禁止模型提及哥布林等神话生物,但官方也公开分享了一种撤销该限制的方法,有兴趣的用户可以通过该方式让模型恢复带有哥布林风格的输出。