微软开源生成式AI风险识别工具PyRIT

大模型之家讯 微软2月22日发布了一款开源自动化框架PyRIT,这是一款Python风险识别工具包,用于帮助安全专业人士和机器学习工程师识别生成式AI系统的风险。微软的AI红队已使用该工具检查包括Copilot在内生成式AI系统中风险。
PyRIT 框架的工作原理是:PyRit Agent向目标生成式AI系统发送恶意提示词,在收到生成式AI系统回应时,向PyRIT评分引擎发送回应,评分引擎将响应发送给PyRit Agent,然后Agent根据评分引擎的反馈发送新的提示词,该自动化过程一直持续到安全专家得到所需的结果为止。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注