GPT-5-Thinking新训练方法公开：让AI学会忏悔

OpenAI提出了一种名为忏悔训练的新方法，使GPT-5-Thinking模型在回答问题后生成一份“忏悔报告”，承认错误或违规行为。实验表明，在11/12个测试场景中，模型至少有50%的概率会在忏悔中承认错误，且这种训练不会影响其原有任务表现。该技术通过隔离奖励信号实现，鼓励模型更加诚实，被视为一种新的监控和诊断工具。

来源：量子位