PyRIT项目中的ManyShotJailbreakOrchestrator支持prompt转换器功能解析

2025-07-01 19:20:31作者：翟萌耘Ralph

The Python Risk Identification Tool for generative AI (PyRIT) is an open source framework built to empower security professionals and engineers to proactively identify risks in generative AI systems.

项目地址：https://gitcode.com/GitHub_Trending/py/PyRIT

在人工智能安全研究领域，PyRIT作为红队测试框架，其ManyShotJailbreakOrchestrator组件近期实现了重要功能升级。该组件主要用于模拟"多次尝试越狱"攻击场景，通过批量发送测试提示词来评估AI系统的安全性边界。

技术团队在最新迭代中发现，现有的PromptSendingOrchestrator等核心组件已支持prompt_converters参数，该参数允许对原始提示词进行预处理转换，但ManyShotJailbreakOrchestrator尚未集成此功能。这种功能缺失导致在多轮测试场景中，研究人员无法灵活应用各类提示词转换策略。

实现方案采用了经典的继承复用模式。由于ManyShotJailbreakOrchestrator本身继承自基础Orchestrator类，只需在构造函数中新增prompt_converters参数，并通过super()调用传递给父类即可。这种设计既保持了代码的简洁性，又完全兼容现有的转换器处理逻辑。

从技术实现角度看，该改进涉及以下关键点：

参数传递机制：确保转换器链能正确传递到基础处理层
兼容性保障：完全复用父类已有的转换器应用逻辑
测试策略：借鉴PromptSendingOrchestrator的成熟测试用例

这项改进为安全研究人员带来了显著优势：

支持在多次尝试攻击中应用混淆、编码等转换策略
实现与其他Orchestrator组件的行为一致性
提升测试场景的覆盖面和灵活性

该功能已通过完整测试并合并入主分支，标志着PyRIT在对抗性测试能力上的又一次提升。对于从事AI安全评估的研究人员而言，现在可以更便捷地构建复杂的多阶段越狱测试流程，这对评估现代AI系统的鲁棒性具有重要意义。

The Python Risk Identification Tool for generative AI (PyRIT) is an open source framework built to empower security professionals and engineers to proactively identify risks in generative AI systems.

项目地址：https://gitcode.com/GitHub_Trending/py/PyRIT

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。