FedML项目运行MNIST示例时遇到的PyTorch与Numpy兼容性问题解析

2025-06-17 06:20:50作者：裘晴惠Vivianne

FEDML - The unified and scalable ML library for large-scale distributed training, model serving, and federated learning. FEDML Launch, a cross-cloud scheduler, further enables running any AI jobs on any GPU cloud or on-premise cluster. Built on this library, FEDML Nexus AI (https://nexus.fedml.ai) is the dedicated cloud service for generative AI

项目地址：https://gitcode.com/gh_mirrors/fe/FedML

在使用FedML框架运行MNIST联邦学习示例时，开发者可能会遇到一个典型的PyTorch与Numpy版本兼容性问题。本文将深入分析该问题的成因，并提供有效的解决方案。

问题现象

当执行MNIST联邦学习示例代码时，系统会抛出以下错误信息：

TypeError: expected np.ndarray (got numpy.ndarray)

错误发生在convert_numpy_to_torch_data_format函数中，具体是在调用torch.from_numpy()方法转换Numpy数组为PyTorch张量时。

根本原因分析

这个问题主要由两个因素共同导致：

PyTorch版本问题：某些PyTorch版本（特别是较新版本）对Numpy数组的类型检查更为严格，导致在类型转换时出现兼容性问题。
Numpy版本冲突：
- 使用Numpy 1.26.4时会出现上述类型不匹配错误
- 使用Numpy 2.0时则会因为FedML代码中使用了已被移除的numpy.float_类型而报错

解决方案

经过验证，最有效的解决方法是降级PyTorch到2.0.1版本。这个版本与Numpy的兼容性较好，能够正确处理数组类型转换。

具体操作步骤：

卸载当前PyTorch版本
安装指定版本：pip install torch==2.0.1

深入技术细节

为什么PyTorch 2.0.1能解决这个问题？这是因为：

该版本对Numpy数组的类型检查机制较为宽松
其内部实现的from_numpy()方法能够正确处理各种Numpy数组的表示形式
与FedML框架的其他组件有更好的兼容性

最佳实践建议

对于FedML项目开发，建议：

建立明确的版本控制，记录经过验证的依赖库版本组合
在项目文档中注明推荐的PyTorch和Numpy版本
考虑在代码中添加版本检查逻辑，提前发现潜在的兼容性问题

总结

版本兼容性问题是深度学习框架使用中的常见挑战。通过本文的分析，我们不仅解决了FedML运行MNIST示例时的具体问题，也理解了这类问题的通用解决思路。在实际开发中，保持框架和依赖库版本的稳定性是保证项目顺利运行的关键。

FEDML - The unified and scalable ML library for large-scale distributed training, model serving, and federated learning. FEDML Launch, a cross-cloud scheduler, further enables running any AI jobs on any GPU cloud or on-premise cluster. Built on this library, FEDML Nexus AI (https://nexus.fedml.ai) is the dedicated cloud service for generative AI

项目地址：https://gitcode.com/gh_mirrors/fe/FedML

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

flutter_flutter

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

ohos_react_native

React Native鸿蒙化仓库

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力