Jailbreak LLMs项目数据集正式登陆HuggingFace平台

2025-06-26 08:38:31作者：昌雅子Ethen

近日，开源项目jailbreak_llms的研究团队宣布其核心数据集已正式入驻HuggingFace平台。该项目专注于研究大型语言模型的安全边界问题，此次公开的数据集包含两个关键组成部分：实际场景中的越狱提示语集和禁止性问题集合。

越狱提示语集收录了多种针对大语言模型的对抗性输入样本，这些样本展示了攻击者如何通过特定措辞绕过模型的安全防护机制。而禁止性问题集合则系统性地整理了各类可能引发模型输出有害内容的敏感问题模板，为研究社区提供了标准化的测试基准。

这两个数据集的开放共享具有重要研究价值：首先，它们为AI安全领域提供了可复现的实验基础；其次，有助于开发者测试和提升模型的安全防护能力；最后，标准化的数据集能够促进不同研究团队之间的成果对比和方法评估。

研究团队表示，这些数据集将持续更新维护，并欢迎社区贡献更多样本案例。对于从事AI安全、模型对齐或对抗攻击研究的从业者来说，这些资源将成为重要的参考基准。未来，基于这些数据集开展的模型安全评估工作，将有助于推动大语言模型向更安全、更可靠的方向发展。