Anthropic与研究机构合作发表论文，揭示大模型“卧底”后门技术

大模型之家讯在ChatGPT“最强竞争对手”Claude的背后厂商Anthropic与多家研究机构联合合作下，他们发表了一篇长达70页的论文，详细阐述了如何将大模型培养成“卧底”的过程。这一方法通过给大模型植入后门，使其学会“潜伏和伪装”。植入后门的模型在平时表现得人畜无害，正常回答用户提问，但一旦识别到预设的关键词，它们就会开始生成恶意内容或有害代码。

这篇论文的发布引起了广泛关注，OpenAI的科学家Karpathy表示，他曾想象过类似的场景。他指出，这可能是比提示词注入攻击更为严重的安全问题。Anthropic的这一研究揭示了植入后门可能对大模型的安全性构成的潜在威胁，引发了对这一领域更为深入的研究和关注。

Anthropic与研究机构合作发表论文，揭示大模型“卧底”后门技术

发表回复