首页
/ Keras中split_dataset函数处理CSV数据集时的Bug分析与解决方案

Keras中split_dataset函数处理CSV数据集时的Bug分析与解决方案

2025-04-30 06:22:20作者:曹令琨Iris

问题背景

在Keras项目的最新版本(v3.4.0+)中,开发人员发现了一个关于split_dataset函数处理CSV数据集的严重问题。当使用tf.data.experimental.make_csv_dataset加载数据后,再调用keras.src.utils.split_dataset进行数据集分割时,会出现两种异常情况:

  1. 函数调用无限挂起,无法完成分割操作
  2. 输出的训练集和测试集中列名与数值出现错位匹配

问题复现与诊断

通过分析问题复现代码,我们可以清晰地看到两种数据加载方式的差异:

# 正常工作的方式:从DataFrame直接创建Dataset
valid_dataset = tf.data.Dataset.from_tensor_slices(dict(df))

# 出现问题的方式:从CSV文件创建Dataset
invalid_dataset = tf.data.experimental.make_csv_dataset('data.csv', batch_size=1)

深入研究发现,问题的根源在于make_csv_dataset默认会创建一个无限循环的数据集,而split_dataset函数在处理这种数据集时会出现异常。此外,Keras 3.4.0+版本中引入的tree工具在处理OrderedDict时存在缺陷,这导致了列名与数值的错位问题。

技术细节解析

  1. 无限循环数据集问题make_csv_dataset默认设置会不断重复读取数据,这会导致split_dataset无法确定数据集的实际大小,从而陷入无限循环。

  2. 数据结构处理问题:Keras 3.4.0+版本重构了split_dataset的内部实现,开始使用tree工具来处理复杂数据结构。然而,tree工具在处理OrderedDict时存在缺陷,无法正确保持键值对的顺序关系。

解决方案

针对上述问题,目前有以下几种解决方案:

  1. 修改数据加载参数:在使用make_csv_dataset时,显式设置shuffle=Falsenum_epochs=1,避免创建无限循环数据集。
dataset = tf.data.experimental.make_csv_dataset(
    'data.csv',
    batch_size=1,
    shuffle=False,
    num_epochs=1
)
  1. 回退到旧版本实现:暂时回退到Keras 3.3.3版本的_restore_dataset_from_list函数实现,可以规避这个问题。

  2. 等待官方修复:Keras团队已经在处理这个问题,预计在后续版本中会发布修复补丁。

最佳实践建议

在处理CSV数据集时,建议开发人员:

  1. 明确数据集的迭代次数和是否打乱顺序
  2. 在分割数据集前,先检查数据结构是否保持正确
  3. 对于关键应用,考虑先转换为DataFrame再创建Dataset
  4. 关注Keras官方更新,及时升级到修复后的版本

总结

这个问题展示了深度学习框架中数据处理管道的复杂性,特别是在处理不同类型的数据源和进行数据转换时。理解数据加载和处理的内部机制对于构建稳定的机器学习系统至关重要。Keras团队正在积极解决这个问题,开发人员可以通过上述临时解决方案继续项目开发,同时期待官方发布的完整修复。

登录后查看全文
热门项目推荐

项目优选

收起
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
51
15
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
662
442
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
138
222
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
361
354
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
97
155
Python-100-DaysPython-100-Days
Python - 100天从新手到大师
Python
815
149
gin-vue-admingin-vue-admin
🚀Vite+Vue3+Gin的开发基础平台,支持TS和JS混用。它集成了JWT鉴权、权限管理、动态路由、显隐可控组件、分页封装、多点登录拦截、资源权限、上传下载、代码生成器【可AI辅助】、表单生成器和可配置的导入导出等开发必备功能。
Go
46
8
凹语言凹语言
凹语言 | 因为简单,所以自由
Go
16
5
open-eBackupopen-eBackup
open-eBackup是一款开源备份软件,采用集群高扩展架构,通过应用备份通用框架、并行备份等技术,为主流数据库、虚拟化、文件系统、大数据等应用提供E2E的数据备份、恢复等能力,帮助用户实现关键数据高效保护。
HTML
110
74
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
112
253