Anthropic与研究机构合作发表论文,揭示大模型“卧底”后门技术

大模型之家讯 在ChatGPT“最强竞争对手”Claude的背后厂商Anthropic与多家研究机构联合合作下,他们发表了一篇长达70页的论文,详细阐述了如何将大模型培养成“卧底”的过程。这一方法通过给大模型植入后门,使其学会“潜伏和伪装”。植入后门的模型在平时表现得人畜无害,正常回答用户提问,但一旦识别到预设的关键词,它们就会开始生成恶意内容或有害代码。

这篇论文的发布引起了广泛关注,OpenAI的科学家Karpathy表示,他曾想象过类似的场景。他指出,这可能是比提示词注入攻击更为严重的安全问题。Anthropic的这一研究揭示了植入后门可能对大模型的安全性构成的潜在威胁,引发了对这一领域更为深入的研究和关注。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注