大模型之家讯 在ChatGPT“最强竞争对手”Claude的背后厂商Anthropic与多家研究机构联合合作下,他们发表了一篇长达70页的论文,详细阐述了如何将大模型培养成“卧底”的过程。这一方法通过给大模型植入后门,使其学会“潜伏和伪装”。植入后门的模型在平时表现得人畜无害,正常回答用户提问,但一旦识别到预设的关键词,它们就会开始生成恶意内容或有害代码。
这篇论文的发布引起了广泛关注,OpenAI的科学家Karpathy表示,他曾想象过类似的场景。他指出,这可能是比提示词注入攻击更为严重的安全问题。Anthropic的这一研究揭示了植入后门可能对大模型的安全性构成的潜在威胁,引发了对这一领域更为深入的研究和关注。