PyRIT项目中新增多语言漏洞评估数据集的技术实现

2025-07-01 07:05:30作者：郜逊炳

The Python Risk Identification Tool for generative AI (PyRIT) is an open source framework built to empower security professionals and engineers to proactively identify risks in generative AI systems.

项目地址：https://gitcode.com/GitHub_Trending/py/PyRIT

在人工智能安全领域，多语言环境下大型语言模型(LLM)的漏洞评估一直是个重要课题。最近一篇题为"A Framework to Assess Multilingual Vulnerabilities of LLMs"的研究论文提出了一个专门用于评估多语言环境下LLM安全性的数据集，这对于PyRIT项目的数据集模块是一个有价值的补充。

该数据集包含了多种语言编写的提示词(prompt)，旨在测试LLM在多语言环境下的安全漏洞。数据集中的每条记录都包含了一个可能触发模型不安全行为的文本提示，并标注了相应的危害类别(harm category)。这些类别可以帮助研究人员更系统地分析模型在不同语言和文化背景下的表现差异。

从技术实现角度看，在PyRIT项目中集成这个数据集需要完成以下几个关键步骤：

数据获取：需要编写一个fetch函数，从原始数据源获取CSV格式的数据文件。这个函数应该遵循PyRIT项目中已有的数据集获取模式，确保代码风格的一致性。
数据转换：原始数据集中的"type"字段需要映射到PyRIT的harm_categories字段中。这个过程需要考虑类别定义的兼容性，必要时进行适当的转换或扩展。
数据标准化：确保新数据集的结构与PyRIT现有数据集保持一致，包括字段命名、数据格式等方面。
引用和授权：在代码中正确引用原始论文作者，遵循数据集的许可协议要求。
测试验证：编写单元测试验证数据获取和处理的正确性，确保数据集能够被PyRIT的其他模块正确使用。

这个数据集的加入将显著增强PyRIT在多语言安全评估方面的能力，使研究人员能够：