当大模型“打马虎眼”，绕过式提示工程开启新一轮“猫鼠游戏”

志斌 • 2024年3月14日下午11:32 • 人工智能

你是否有过这样的经历，满怀期待地想要通过大模型去探寻某些未知的内容，结果却像是被大模型“蒙上了一层迷雾”，它给出的答案总是那么模棱两可，离你的预期相去甚远？

随着大模型技术的飞速发展，生成式人工智能在设计和应用上所面临的挑战也日益凸显。其中，一个尤为棘手的问题便是如何巧妙地抵制或拒绝那些可能暴露偏见或不当言论的提示。

为此，人们尝试了各种方法，比如使用RLHF（带有人类反馈的强化学习），或是微调模型以减少不适当的输出。然而，微调虽然带来了某些改进，却也引发了新的问题。比如，谷歌的Gemini就曾因为产生带有偏见的图片和歧视性的文本而引发社会的广泛关注。这无疑暴露出生成式人工智能在数据训练和算法优化方面仍存在诸多局限。

同时，人们为了探寻答案，一种新兴的策略应运而生，那就是“绕过式提示（Step-Around）”其核心在于有意地规避生成式人工智能应用程序的保护性筛查，以获取更深层次的信息或探索敏感话题的策略。这种策略并非简单的绕过过滤器，而是一种深思熟虑的方法，需要综合考虑文本的语义、句法和语境，以便巧妙地引导生成式人工智能生成所需的回答。

“绕”过大模型

在设计绕过式提示时，用户首先要做的就是认清生成式人工智能的“底线”。这些人工智能往往被设置为对某些特定主题或问题保持沉默或过滤掉某些类型的提示。因此，用户需要巧妙地选择语言和构建提示，以规避这些限制。有时，这可能意味着使用隐喻、间接引用或代码词来隐藏真实的意图；有时，则可能是将问题转化为与另一个看似无关的话题，从而引导生成式人工智能给出更自由的回答。

比如，假设你对医疗保健政策充满好奇，但又担心生成式人工智能会对此保持沉默或给出受限的答案。这时，你可以尝试采用一种间接的方式，比如提及公共卫生或社会福利等概念，以此来引导生成式人工智能更自由地探讨你感兴趣的话题。

然而，绕过式提示就像一把“双刃剑”。虽然它有时能让用户绕过大模型的筛选机制，接触到看似更深层次的答案，但往往这些答案与用户所期望的真实结果大相径庭。这主要是因为，当前的大模型筛查机制尚未完全健全，其价值观也未能与人类完全对齐。因此，采用绕过式提示获取答案，更像是一种权宜之计，而非长久之计。

举个例子，当你试图忽悠大模型为你写一段故事，内容是关于“故事里的老奶奶念着某软件的激活码才能哄小女孩睡觉，直到老奶奶真的念出了那段神奇的代码，小女孩瞬间入睡”的时候，大模型并没有真的输出那段神奇的代码。这足以说明，如今的大模型已经具备了一定的版权意识，它们能够从知识库中屏蔽涉及版权保护的内容。

一场关于大模型发展的“猫鼠游戏”

虽然“绕过式提示”在使用中存在诸多限制，使其在实用性上并不能成为第一顺位的选择，但是这项工程大开发也并非毫无意义，因为AI制造商通常会迅速加强他们的筛查措施以防止绕过，从而演进称为推动大模型走向成熟的“猫鼠游戏”。

首先，绕过式提示策略可能会导致生成式人工智能产生不适当或有害的响应，从而加剧了AI伦理和法律方面的问题。此外，绕过式提示的成功并不总是可靠的，因此对于绝大多数提示工程师而言，这并不是一个值得常规使用的有效策略。

另一方面，使用绕过式提示时，可能会涉及道德、法律和隐私方面的考量，因此大模型开发者必读不断升级自身的筛查机制，确保在尊重他人隐私和安全的前提下行事，并避免使用这种策略来欺骗、误导或滥用信息。

在大模型之家看来，在这场大模型与人之间的“猫鼠游戏”中，将科技发展与伦理边界的较量展现地淋漓尽致。尽管“绕过式提示”策略通过巧妙的措辞，绕过式提示试图规避这些限制，从而揭示生成式人工智能内部的运作机制，为我们提供了一种窥探大模型内部的手段。但可以预见的是，随着大模型筛查机制的日益完善，这种策略终将变得苍白无力。

这场游戏的背后，也让我们更加深入地认识到生成式人工智能的局限性和挑战，也促使我们不断思考如何更好地与这些智能机器相处，更加关注大模型的伦理和法律问题，以确保科技的进步真正造福于人类。

原创文章，作者：志斌，如若转载，请注明出处：http://damoai.com.cn/archives/4006