HuggingFace Datasets中streaming模式下的lambda函数陷阱解析

2025-05-11 03:19:29作者：乔或婵

在使用HuggingFace Datasets库时，许多开发者可能会遇到一个看似奇怪的现象：在streaming模式下使用lambda函数进行数据映射时，循环变量会被意外覆盖。本文将深入剖析这一现象背后的原理，并给出正确的解决方案。

问题现象

当开发者尝试在循环中使用load_dataset加载数据并配合map方法进行数据转换时，如果设置了streaming=True，可能会出现以下情况：

res = []
for i in [0,1]:
    di = load_dataset("json", data_files='data.json', split='train', streaming=True)
              .map(lambda x: {"source": i})
    res.append(di)

在后续遍历res[0]时，期望得到source=0的数据，但实际上却得到了source=1的结果。而当关闭streaming模式时，结果又符合预期。

原理分析

这一现象的根本原因在于Python的闭包机制与streaming模式的延迟执行特性：

Python的lambda闭包特性：lambda函数中引用的变量i实际上是对循环变量i的引用，而不是在定义时的值快照
streaming模式的延迟执行：在streaming模式下，map操作不会立即执行，而是等到实际迭代数据时才执行
变量绑定时机：当最终迭代数据时，循环已经结束，此时i的值固定为最后一次循环的值(1)，因此所有lambda函数都会使用这个最终值

相比之下，非streaming模式下map会立即执行，此时循环变量i的值是正确的，因此结果符合预期。

解决方案

正确的做法是使用fn_kwargs参数显式传递变量，避免依赖闭包：

res = []
for i in [0,1]:
    di = load_dataset("json", data_files='data.json', split='train', streaming=True)
              .map(lambda x, source: {"source": source}, fn_kwargs={"source": i})
    res.append(di)