Anthropic发现大模型长文本漏洞

大模型之家讯今日，大模型创企Anthropic发布论文，提出一种“越狱”技术，可以用来躲避大型语言模型开发人员设置的安全护栏，对Claude 2、GPT-3.5、GPT-4、Llama 2和Mistral 7B等多个主流模型都有效。该方法利用长上下文窗口，攻击者输入一个以数百个虚假对话为开头的提示，提示中包含有害的请求，就能使大模型产生潜在有害的反应。