HuggingFace Datasets 库：如何安全覆盖数据集仓库

2025-05-10 06:14:29作者：沈韬淼Beryl

在机器学习项目协作过程中，我们经常需要将数据集推送到HuggingFace Hub进行共享。但有时我们会遇到需要完全覆盖现有数据集仓库内容的情况，同时希望保留仓库的设置和权限配置。本文将详细介绍在HuggingFace Datasets库中实现这一需求的几种技术方案。

问题背景

当开发团队协作构建新数据集时，开发者可能会频繁修改数据集的结构（如列名、分割方式等），并需要将这些中间版本推送到Hub与团队成员共享。这种情况下，我们通常希望：

不保留历史修改记录
避免反复删除和重建仓库
保持原有的仓库设置（如公开访问、手动审批请求等）

解决方案

方案一：使用super_squash_history方法

HuggingFace Hub API提供了squash_history功能，可以将所有提交压缩为单个提交：

from huggingface_hub import HfApi

repo_id = "username/dataset_name"
api = HfApi()
api.super_squash_history(repo_id, repo_type="dataset")

这种方法会保留仓库本身，但将git历史压缩为单个提交。需要注意的是：

其他分支的提交历史不会被影响
已存在的Pull Request可能会变得无法合并
需要明确指定repo_type参数

方案二：自动化重建仓库流程

更推荐的做法是使用HfAPI自动化整个仓库重建过程：

from huggingface_hub import HfApi

api = HfApi()
repo_id = "username/dataset_name"

# 删除现有仓库（如果存在）
api.delete_repo(repo_id, repo_type="dataset", missing_ok=True)

# 创建新仓库并设置权限
api.create_repo(repo_id, repo_type="dataset", private=False)
api.update_repo_settings(repo_id, repo_type="dataset", gated="manual")

# 为团队成员授权
for user in ["user1", "user2"]:
    api.grant_access(repo_id, user, repo_type="dataset")