Data-Juicer 分布式任务执行问题分析与解决方案

2025-06-14 07:30:08作者：贡沫苏Truman

问题背景

在使用 Data-Juicer 进行视频数据处理时，用户遇到了在 Ray 集群上执行分布式任务失败的问题。具体表现为当任务被调度到非 head 节点时会出现文件读写错误，而在 head 节点上则可以正常运行。

通过错误日志可以观察到以下关键信息：

文件路径问题：错误信息显示系统无法找到指定的输出文件路径 /root/data-juicer/outputs/demo/demo-processed-ray-videos/560_000000_000000.json，这表明 Ray 工作节点尝试访问本地文件系统时失败。
模块导入问题：当非 head 节点未安装 Data-Juicer 时，会出现 No module named data-juicer 错误，这表明 Ray 工作节点需要完整的运行环境。
路径解析问题：在配置文件中直接添加 local:// 前缀会导致路径解析错误，无法正确识别协议前缀。

环境一致性要求：Ray 分布式执行模式下，所有工作节点（包括 head 节点和 worker 节点）都必须安装相同版本的 Data-Juicer，否则会导致模块导入失败。
文件系统共享机制：Ray 默认假设所有节点共享同一个文件系统（如 NFS）。当节点间没有共享文件系统时，直接使用本地路径会导致文件访问失败。
路径协议处理：Ray 对带有协议前缀的路径有特殊处理逻辑，直接在配置文件中添加 local:// 会导致路径解析异常。

确保 Ray 集群中的所有节点：

根据集群文件系统配置选择以下方案之一：

方案A：共享文件系统

方案B：本地文件系统

对于使用本地文件系统的场景，可以在 ray_executor.py 中添加路径处理逻辑：

# 添加路径协议处理
if not self.cfg.export_path.startswith(('local://', 's3://', 'hdfs://')):
    self.cfg.export_path = 'local://' + self.cfg.export_path

Data-Juicer 在 Ray 集群上执行分布式任务时，需要特别注意环境一致性和文件系统访问问题。通过合理配置和代码调整，可以解决大多数分布式执行问题。对于生产环境，建议采用共享文件系统方案以获得更好的性能和可靠性。

登录后查看全文