大模型之家讯 今日,大模型创企Anthropic发布论文,提出一种“越狱”技术,可以用来躲避大型语言模型开发人员设置的安全护栏,对Claude 2、GPT-3.5、GPT-4、Llama 2和Mistral 7B等多个主流模型都有效。该方法利用长上下文窗口,攻击者输入一个以数百个虚假对话为开头的提示,提示中包含有害的请求,就能使大模型产生潜在有害的反应。
大模型之家讯 今日,大模型创企Anthropic发布论文,提出一种“越狱”技术,可以用来躲避大型语言模型开发人员设置的安全护栏,对Claude 2、GPT-3.5、GPT-4、Llama 2和Mistral 7B等多个主流模型都有效。该方法利用长上下文窗口,攻击者输入一个以数百个虚假对话为开头的提示,提示中包含有害的请求,就能使大模型产生潜在有害的反应。