TensorFlow Datasets中Oxford Pets数据集加载问题的分析与解决

2025-06-13 07:51:16作者：余洋婵Anita

问题背景

在使用TensorFlow Datasets（TFDS）加载Oxford Pets数据集时，开发者遇到了一个技术障碍。当尝试通过标准方式加载数据集时，系统抛出了NotImplementedError异常，提示.as_dataset()方法未实现，建议使用.as_data_source()替代。

错误现象

开发者执行标准数据集加载代码时遇到了以下错误：

dataset, info = tfds.load('oxford_iiit_pet:4.*.*', with_info=True, download=True, data_dir="/tmp/data")

系统返回的错误信息表明，ArrayRecord格式的文件目前不支持.as_dataset()方法，这是TFDS中一种较新的数据存储格式。

技术分析

ArrayRecord格式：这是TFDS引入的一种新型数据存储格式，旨在提高大规模数据集的读取效率。与传统格式不同，它采用了不同的底层实现机制。
API变更：在TFDS的更新中，部分数据集开始采用ArrayRecord作为默认存储格式，这导致了与旧版API的兼容性问题。
解决方案演进：TFDS团队在后续版本中已经修复了这个问题，但在问题报告时，开发者需要采用替代方案。

解决方案

对于遇到此问题的开发者，有两种可行的解决方案：

升级TFDS版本：

pip install --upgrade tfds-nightly

升级到最新版本可以解决此兼容性问题，因为团队已经实现了对ArrayRecord格式的完整支持。

使用替代API（适用于无法立即升级的情况）：

ds_builder = tfds.builder('oxford_iiit_pet:4.*.*')
dataset = ds_builder.as_data_source(split='train')
info = ds_builder.info

这种方法直接使用数据源接口，绕过了存在问题的数据集转换步骤。

验证与结果

开发者验证后确认，使用上述两种方法都能成功加载Oxford Pets数据集。数据集包含7,349张图像，分为37个类别，这与官方文档描述一致。

最佳实践建议

定期更新TFDS到最新版本，以获得最佳兼容性和性能
对于大型数据集，ArrayRecord格式能提供更好的I/O性能
加载数据集时，明确指定split参数可以避免意外行为
在生产环境中，固定TFDS版本号以避免意外变更

总结

TensorFlow Datasets作为重要的机器学习数据源工具，其API和底层实现会不断演进。Oxford Pets数据集加载问题的出现和解决，体现了开源社区响应问题的效率。开发者应当关注工具链的更新动态，并掌握多种数据加载方法以应对不同场景需求。

datasets

TFDS is a collection of datasets ready to use with TensorFlow, Jax, ...

项目地址：https://gitcode.com/gh_mirrors/dat/datasets

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

393

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.67 K

987