HuggingFace Datasets安全扫描机制异常问题分析

2025-05-10 20:00:20作者：滑思眉Philip

问题背景

近期HuggingFace Datasets库的用户在加载数据集时遇到了一个普遍性问题，主要表现为在调用load_dataset()函数时抛出KeyError异常，错误信息指向安全扫描模块中的'safe'键缺失。这一问题影响了包括wmt14、ai2_arc等多个常用数据集的使用。

技术细节分析

该问题的根源在于HuggingFace Hub API的安全扫描机制更新。当用户请求加载数据集时，后端服务会对数据集文件进行安全检查，包括：

安全扫描标记(safe)
反病毒扫描结果(avScan)
pickle导入扫描(pickleImportScan)

在2.21.0版本中，客户端代码期望从服务器获取包含这三个键的安全信息字典，但实际返回的数据结构中缺少了关键的'safe'字段，导致KeyError异常。

影响范围

此问题具有以下特点：

突发性：用户在没有更改本地代码的情况下突然出现
广泛性：影响多个不同数据集
版本无关性：即使回退到旧版本(如2.19.0/2.20.0)也无法解决

这表明问题主要出在服务器端的安全扫描服务上，而非客户端代码本身。

临时解决方案

在官方修复前，开发者提供了几种临时解决方案：

Monkey Patch方法：通过运行时修改类定义来绕过安全检查

import huggingface_hub
# 修改RepoFile和RepoFolder类的初始化方法
huggingface_hub.hf_api.RepoFile.__init__ = patched_repo_file_init
huggingface_hub.hf_api.RepoFolder.__init__ = patched_repofolder_init

直接修改库文件：注释掉hf_api.py中的安全检查代码块
等待官方回滚：HuggingFace团队已回滚了相关部署

经验教训

这一事件提醒我们：

云服务的API变更可能随时影响客户端功能
安全扫描机制需要完善的向后兼容处理
关键基础设施服务需要更严格的变更管理流程

最佳实践建议

对于依赖HuggingFace Datasets的生产环境：

考虑固定特定版本以避免意外更新
实现适当的错误处理和回退机制
监控官方更新和公告

目前HuggingFace团队已快速响应并解决了该问题，用户可正常使用数据集加载功能。

datasets

🤗 The largest hub of ready-to-use datasets for AI models with fast, easy-to-use and efficient data manipulation tools

项目地址：https://gitcode.com/gh_mirrors/da/datasets

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

1.1 K

611

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。