Anthropic发现大模型长文本漏洞

大模型之家讯 今日,大模型创企Anthropic发布论文,提出一种“越狱”技术,可以用来躲避大型语言模型开发人员设置的安全护栏,对Claude 2、GPT-3.5、GPT-4、Llama 2和Mistral 7B等多个主流模型都有效。该方法利用长上下文窗口,攻击者输入一个以数百个虚假对话为开头的提示,提示中包含有害的请求,就能使大模型产生潜在有害的反应。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注