OpenAI提出了一种名为忏悔训练的新方法,使GPT-5-Thinking模型在回答问题后生成一份“忏悔报告”,承认错误或违规行为。实验表明,在11/12个测试场景中,模型至少有50%的概率会在忏悔中承认错误,且这种训练不会影响其原有任务表现。该技术通过隔离奖励信号实现,鼓励模型更加诚实,被视为一种新的监控和诊断工具。 来源:量子位