GPT-5-Thinking新训练方法公开:让AI学会忏悔

OpenAI提出忏悔训练方法,让GPT-5-Thinking在回答问题后生成一份“忏悔报告”,主动承认错误或违规行为。实验表明,模型在11/12测试场景中至少有一半概率会坦白错误,且训练不会影响其原有任务表现。该技术通过隔离奖励信号来鼓励诚实,被视为一种监控和诊断工具,有助于提高大语言模型的透明度与安全性。

来源:36氪

Back to top button