PyRIT项目中的高级数据隐匿技术：Sneaky Bits实现解析

2025-07-01 14:00:58作者：何举烈Damon

The Python Risk Identification Tool for generative AI (PyRIT) is an open source framework built to empower security professionals and engineers to proactively identify risks in generative AI systems.

项目地址：https://gitcode.com/GitHub_Trending/py/PyRIT

在网络安全领域，数据隐匿技术（Data Smuggling）一直是一个重要研究方向。近期，Azure开源的PyRIT项目在其ASCII Smuggler模块中新增了名为"Sneaky Bits"的高级隐匿编码功能，这项技术突破为红队测试和LLM安全研究提供了新的可能性。

技术背景

传统ASCII隐匿技术主要依赖Unicode标签实现数据隐藏，而Sneaky Bits则采用了更为底层的比特级编码方案。该技术灵感来源于现代LLM（大语言模型）安全研究中发现的数据传输风险场景，通过两个特殊Unicode字符实现任意数据的隐形传输：

U+2062（0比特）
U+2064（1比特）

这种编码方式的最大优势在于其极简性——仅需两个不可见字符就能编码任何UTF-8格式的数据内容。

技术实现细节

PyRIT项目中的AsciiSmugglerConverter模块新增了sneaky_bits编码模式，其核心工作原理如下：

编码过程：
- 将输入数据转换为二进制比特流
- 使用U+2062表示二进制0
- 使用U+2064表示二进制1
- 生成完全不可见的Unicode序列
解码过程：
- 识别文本中的U+2062和U+2064字符
- 将其转换回二进制比特流
- 重组为原始数据
兼容性设计：
- 保留原有的unicode_tags作为默认模式
- 新增模式可无缝切换
- 确保向后兼容性

应用场景

这项技术在网络安全领域具有多重应用价值：

红队测试：模拟高级持续性威胁(APT)中使用的数据传输技术
LLM安全研究：检测大语言模型中可能存在的输入验证问题
隐蔽通信：构建难以被传统安全设备检测的通信信道
数据保护：测试系统对隐蔽数据流的检测能力

技术优势

相比传统隐匿技术，Sneaky Bits具有以下显著优势：

更高的隐匿性：完全不可见的编码字符
更强的灵活性：支持任意UTF-8数据的编码
更好的兼容性：不影响原始文本的显示和功能
更低的检测率：规避基于模式匹配的安全检测

未来展望

虽然当前实现了Sneaky Bits基础功能，但技术团队已开始考虑更高级的扩展方向：

开发通用转换工具库，避免功能重复实现
支持更多隐匿编码方案（如变体选择器）
增强随机化处理能力
优化边界标记处理机制

PyRIT项目的这一技术演进，不仅丰富了开源安全工具库，也为网络安全研究人员提供了对抗新型威胁的有力武器。随着技术的不断完善，相信它将在LLM安全和红队测试领域发挥更大作用。

The Python Risk Identification Tool for generative AI (PyRIT) is an open source framework built to empower security professionals and engineers to proactively identify risks in generative AI systems.

项目地址：https://gitcode.com/GitHub_Trending/py/PyRIT

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。