Hugging Face数据集库中脚本数据集加载问题的分析与解决

2025-05-11 11:30:37作者：俞予舒Fleming

问题背景

Hugging Face数据集库(datasets)的持续集成(CI)测试近期出现了几个关键测试用例失败的情况。这些失败主要集中在与脚本数据集(scripted dataset)相关的测试场景上，特别是当尝试以分布式方式加载数据集或处理Parquet格式导出时。

问题表现

测试失败主要体现为三种情况：

分布式加载脚本数据集测试失败，断言条件不满足
尝试使用Parquet导出功能时，系统提示"无可用Parquet文件导出"
数据集构建器返回的类型与预期不符，实际返回"dataset_with_script"而非预期的"parquet"

根本原因

深入分析后发现，这些问题源于Hugging Face平台对运行任意Python代码的数据集实施了新的安全限制。当尝试访问这类脚本数据集时，数据集查看器(dataset-viewer)会返回明确的错误信息，指出由于数据集运行任意Python代码而不被支持。

这种安全限制是平台为保护用户免受潜在恶意代码影响而引入的重要措施。对于包含自定义加载脚本的数据集，平台现在要求明确授权才能允许相关操作。

解决方案

Hugging Face团队迅速响应，通过以下步骤解决了这一问题：

在数据集查看器服务中合并了相关PR，调整了对脚本数据集的处理策略
更新了测试用例以适应新的安全模型
确保测试环境能够正确处理包含脚本的数据集

技术启示

这一事件为开发者提供了几个重要启示：

平台安全演进：ML平台正在加强对自定义代码执行的安全管控，开发者需要适应这种变化
测试健壮性：针对依赖外部服务的测试，应考虑更完善的错误处理和回退机制
数据类型处理：在处理混合类型数据集(脚本/非脚本)时，代码需要更细致的类型检查和转换逻辑

最佳实践建议

基于此事件，建议开发者在处理类似场景时：

明确区分脚本数据集和非脚本数据集的处理路径
为关键操作添加适当的错误处理和用户提示
定期更新测试用例以匹配平台的最新安全策略
考虑为关键功能添加降级处理机制，当高级特性不可用时能优雅回退

通过这次事件，Hugging Face生态系统展示了其快速响应能力和对安全与功能平衡的重视，为开发者社区提供了宝贵的实践经验。

datasets

🤗 The largest hub of ready-to-use datasets for ML models with fast, easy-to-use and efficient data manipulation tools

项目地址：https://gitcode.com/gh_mirrors/da/datasets

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

364

233

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优