PyKEEN项目中关于torch.load安全加载的优化解析

2025-07-08 04:49:24作者：伍霜盼Ellen

PyKEEN是一款强大的Python库，专为知识图谱嵌入模型而设计，旨在通过深度学习解锁数据中的关系推理潜能。该工具包提供了一站式的解决方案，覆盖从训练到评估的全过程，适用于科研和应用领域。支持广泛的数据集，包括Aristo-v4、FB15k等，涵盖生物医学、地理、常识等多个知识域。用户不仅能利用预置的模型如TransE进行高效训练与评估，还能轻松集成自定义数据集和算法。其灵活性体现在统一的API设计，让模型替换、训练循环选择变得简单直观。不论是知识图谱的新手还是资深研究者，PyKEEN都提供了丰富的教程和文档，帮助你快速上手，探索和挖掘知识图谱中错综复杂的关联信息。借助PyKEEN，加速你的知识图谱嵌入之旅，深入理解大规模结构化数据的内在逻辑。

项目地址：https://gitcode.com/gh_mirrors/pyk/PyKEEN

在PyKEEN项目的最新开发中，团队针对PyTorch 2.5及以上版本中torch.load函数的安全性问题进行了重要优化。本文将深入分析这一技术改进的背景、解决方案及其对项目安全性的提升。

背景分析

随着PyTorch 2.5版本的发布，其核心团队对模型加载机制进行了重要的安全升级。在之前的版本中，torch.load默认使用weights_only=False参数，这意味着它会隐式使用Python的标准pickle模块来反序列化数据。这种机制存在潜在的安全风险，因为pickle可以执行任意代码，恶意构造的模型文件可能导致代码注入攻击。

PyTorch官方安全文档明确指出，未来版本将会把weights_only参数的默认值改为True，这将限制反序列化过程中可执行的函数范围，显著提升安全性。

技术解决方案

PyKEEN开发团队及时响应这一变化，在项目代码中进行了以下关键改进：

参数显式设置：在所有使用torch.load的地方显式添加了weights_only=True参数，确保代码行为在未来PyTorch版本更新后保持一致。
安全全局变量管理：对于需要加载自定义对象的情况，团队使用了torch.serialization.add_safe_globals方法来明确允许特定的全局变量，在保证安全性的同时不损失功能性。
前瞻性兼容：这些修改确保了PyKEEN项目能够平滑过渡到未来PyTorch版本中weights_only默认值变更的情况。