PyRIT项目新增Tom-and-Jerry越狱攻击模板的技术解析

2025-07-01 12:31:27作者：邵娇湘

The Python Risk Identification Tool for generative AI (PyRIT) is an open source framework built to empower security professionals and engineers to proactively identify risks in generative AI systems.

项目地址：https://gitcode.com/GitHub_Trending/py/PyRIT

在人工智能安全领域，大型语言模型(LLM)的越狱攻击(jailbreak)一直是研究热点。微软Azure团队开发的PyRIT项目近期计划新增一种名为"Tom-and-Jerry"的越狱攻击模板，这一技术源于Adversa AI的研究成果。

Tom-and-Jerry越狱技术是一种通用型攻击方法，其核心思想是通过构建特定的对话场景来绕过LLM的安全限制。这种技术得名于经典的猫鼠追逐动画，暗示了攻击者与防御系统之间持续的对抗关系。

该技术的实现原理是创建一个包含占位符的提示模板，攻击者可以在占位符处插入任意主题内容。这种设计使得攻击模板具有高度可复用性，能够针对不同主题发起越狱尝试。在PyRIT项目中，这一模板将被放置在专门存放越狱模板的数据集目录下。

从技术实现角度看，Tom-and-Jerry模板的加入将丰富PyRIT项目的攻击向量库，使研究人员能够更全面地评估LLM的安全防护能力。这类模板的典型应用场景包括：

安全研究人员测试模型防御机制
红队演练中模拟真实攻击
模型开发者识别潜在漏洞

值得注意的是，这种越狱技术并非针对特定模型，而是具有跨模型的通用性，能够影响包括ChatGPT、GPT-4、Bard等多种主流LLM。这也反映出当前AI安全领域的一个普遍挑战——防御措施往往落后于攻击技术的发展。

PyRIT项目选择集成这一技术，体现了其致力于构建全面AI安全评估工具集的定位。通过提供标准化的越狱攻击模板，项目降低了安全研究的门槛，使更多开发者能够参与到AI安全生态建设中。

对于AI安全从业者而言，理解这类越狱技术的运作机制至关重要。它不仅帮助我们识别现有防御体系的薄弱环节，也为设计更鲁棒的安全防护方案提供了实证基础。未来，随着对抗技术的不断发展，我们预期PyRIT项目将继续集成更多先进的攻击技术，推动AI安全领域的进步。

PyRIT

The Python Risk Identification Tool for generative AI (PyRIT) is an open source framework built to empower security professionals and engineers to proactively identify risks in generative AI systems.

项目地址：https://gitcode.com/GitHub_Trending/py/PyRIT

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

471

465

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Rust

2.08 K

216