PyKEEN项目中PosixPath反序列化问题的分析与解决方案

2025-07-08 11:32:12作者：秋泉律Samson

问题背景

在PyKEEN 1.11.0版本中，用户在使用数据集缓存功能时遇到了一个与Python路径对象反序列化相关的技术问题。当用户尝试加载已缓存的数据集时，系统会抛出UnpicklingError异常，提示PosixPath对象在反序列化过程中不被允许。

该问题的核心在于PyTorch 2.6+版本对安全性的增强。PyTorch在2.6版本中将torch.load()函数的weights_only参数默认值从False改为True，这一变更旨在提高模型加载的安全性，防止潜在的恶意代码执行。

当weights_only=True时，PyTorch限制了可以反序列化的对象类型，而pathlib.PosixPath不在默认允许的全局对象列表中。PyKEEN在缓存数据集时使用了包含PosixPath的对象，导致在加载这些缓存时出现兼容性问题。

PyKEEN开发团队迅速响应了这一问题，通过以下两种方式解决了该兼容性问题：

临时解决方案：在1.11.1版本中，团队修改了代码，将torch.load()的weights_only参数显式设置为False，恢复了与之前版本相同的行为模式。这种方法虽然解决了兼容性问题，但牺牲了部分安全性。
长期规划：团队正在考虑更根本的解决方案，计划将元数据存储格式从任意Python字典改为JSON兼容格式。这种改变不仅能够避免类似的反序列化问题，还能提高缓存文件的可读性和可移植性。

这一问题揭示了深度学习框架中数据持久化层与安全机制之间的微妙平衡。PyTorch 2.6的安全增强虽然提高了整体安全性，但也对依赖特定序列化行为的现有代码产生了影响。

对于PyKEEN这样的知识图谱嵌入框架来说，数据集缓存是提高用户体验的重要功能。正确处理这类兼容性问题对于保证框架的稳定性和可用性至关重要。

对于使用PyKEEN的开发者和研究人员，建议：

PyKEEN团队通过快速响应和版本更新，有效解决了PyTorch 2.6+带来的PosixPath反序列化问题。这一事件也促使团队重新思考数据持久化层的设计，未来将采用更安全、更标准的JSON格式存储元数据，进一步提升框架的健壮性和安全性。

登录后查看全文