微软开源生成式AI风险识别工具PyRIT

大模型之家讯微软2月22日发布了一款开源自动化框架PyRIT，这是一款Python风险识别工具包，用于帮助安全专业人士和机器学习工程师识别生成式AI系统的风险。微软的AI红队已使用该工具检查包括Copilot在内生成式AI系统中风险。
PyRIT 框架的工作原理是：PyRit Agent向目标生成式AI系统发送恶意提示词，在收到生成式AI系统回应时，向PyRIT评分引擎发送回应，评分引擎将响应发送给PyRit Agent，然后Agent根据评分引擎的反馈发送新的提示词，该自动化过程一直持续到安全专家得到所需的结果为止。

微软开源生成式AI风险识别工具PyRIT

发表回复