PyKEEN项目中PosixPath导致的UnpicklingError问题解析

2025-07-08 20:46:34作者：邬祺芯Juliet

在PyKEEN 1.11.0版本中，用户在使用缓存数据集时可能会遇到一个由PosixPath引起的UnpicklingError问题。这个问题主要出现在PyTorch 2.6及以上版本的环境中，当尝试加载已缓存的数据集时。

问题背景

PyTorch 2.6版本引入了一个重要的安全变更：默认将torch.load()函数的weights_only参数从False改为True。这一变更旨在提高模型加载的安全性，防止潜在的恶意代码执行。然而，这也带来了一些兼容性问题，特别是当保存的数据中包含非基本Python类型时。

在PyKEEN项目中，数据集缓存机制使用了PyTorch的序列化功能来保存和加载数据。当缓存中包含pathlib.PosixPath对象时，由于weights_only=True的限制，会导致加载失败并抛出UnpicklingError。

用户首次使用get_dataset()函数加载数据集（如"Nations"数据集）时能够正常工作，因为此时数据集尚未缓存。但当第二次尝试加载同一数据集时，系统会尝试从缓存读取，此时就会触发错误。

错误信息明确指出：pathlib.PosixPath不是一个被默认允许的全局变量，建议使用torch.serialization.add_safe_globals()或相应的上下文管理器来允许这个类型。

PyKEEN团队在1.11.1版本中修复了这个问题，解决方案是显式地将weights_only参数设置为False。这种做法虽然解决了兼容性问题，但用户需要注意只加载可信来源的数据，因为weights_only=False可能会带来潜在的安全风险。

从更长远的角度来看，项目团队正在考虑将元数据字典限制为JSON兼容的格式，而不是允许任意的Python字典。这种改变有几个优势：

对于开发者而言，这是一个值得注意的案例，展示了当依赖的核心库（如PyTorch）引入重大安全变更时，如何平衡兼容性和安全性。同时也提醒我们在设计数据持久化方案时，应该优先考虑使用标准化、安全的格式。

PyKEEN 1.11.1版本已经解决了这个PosixPath导致的UnpicklingError问题。用户只需升级到最新版本即可正常使用数据集缓存功能。同时，这个案例也为其他Python项目在处理类似问题时提供了有价值的参考。

登录后查看全文