OpenAI提出忏悔训练方法,让GPT-5-Thinking在回答问题后生成一份“忏悔报告”,主动承认错误或违规行为。实验表明,模型在11/12测试场景中至少有一半概率会坦白错误,且训练不会影响其原有任务表现。该技术通过隔离奖励信号来鼓励诚实,被视为一种监控和诊断工具,有助于提高大语言模型的透明度与安全性。 来源:36氪