OpenAI发布新研究：思维链监控助力大模型安全运行

大模型之家讯 3月11日，OpenAI最新研究显示，思维链（CoT）监控能有效阻止大模型胡说八道、隐藏真实意图等恶意行为。实验中，以o3-mini模型为被监控对象，GPT-4o模型作为监控器，在编码任务测试中，CoT监控器检测“奖励黑客”行为的召回率高达95%，远超仅监控行为的60%。这一研究为监督超级模型提供了有效工具。