TorchRec DLRM在Fedora系统上出现段错误问题的分析与解决

2025-07-09 04:12:30作者：殷蕙予

探索机器学习的极限，【MLPerf训练基准参考实现】为你开启大门。这是一个汇聚了多种深度学习模型的开源宝库，旨在提供MLPerf训练基准的启动模板。这些代码不仅是学术与实践连接的桥梁，更是框架与硬件性能测试的起点。从图像识别的ResNet到语言处理的BERT，覆盖TensorFlow、PyTorch等主流平台。虽处于发展初期，但每行代码都蕴藏着优化的潜力，期待你的贡献。通过这个仓库，你不仅能够运行和测试业界标准的模型，还能在不断改进中深入了解机器学习系统的精髓。不论是科研人员还是工程师，这里都是检验最新算法和硬件效能的理想试验场。立即加入，与全球开发者一起，推动AI前进的脚步！

项目地址：https://gitcode.com/gh_mirrors/tra/training

问题背景

在运行TorchRec DLRM推荐系统训练任务时，用户报告在Fedora 40系统上遇到了Python段错误(Segmentation Fault)问题。该问题出现在使用torchx和torchrun两种不同方式启动分布式训练时，错误发生在分布式训练初始化阶段。

错误现象分析

从错误日志中可以观察到几个关键点：

错误发生在分布式训练初始化阶段，具体是在创建c10d rendezvous后端时
错误表现为Python解释器的段错误，这是一种严重的内存访问违规错误
错误堆栈显示问题出现在torch.distributed.elastic.rendezvous模块中
系统环境为Fedora 40，Linux内核版本6.9.11-200.fc40.x86_64

可能的原因

PyTorch安装问题：不完整或损坏的PyTorch安装可能导致核心功能异常
系统兼容性问题：Fedora 40较新的系统可能与某些PyTorch组件存在兼容性问题
环境配置问题：缺少必要的系统依赖或环境变量配置不当
多线程冲突：OMP_NUM_THREADS设置可能引发底层线程问题

解决方案

经过验证，重新安装PyTorch可以解决此问题。这提示原始安装可能存在问题：

使用pip卸载原有PyTorch安装：

pip uninstall torch torchvision torchaudio

清理残留文件：
```
rm -rf ~/.cache/pip
```

重新安装PyTorch（建议使用官方推荐的安装命令）：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

预防措施

使用虚拟环境隔离Python依赖
定期更新PyTorch到稳定版本
在安装后运行简单测试验证核心功能
关注PyTorch与操作系统版本的兼容性公告

技术深度解析

段错误通常发生在程序尝试访问未被分配的内存区域时。在分布式训练场景下，PyTorch需要建立进程间通信机制，这涉及复杂的共享内存操作。当底层库存在问题时，这些操作可能引发内存访问违规。

c10d rendezvous是PyTorch分布式训练的关键组件，负责协调多个进程的启动和同步。它的初始化过程需要创建共享存储后端，如果此时PyTorch核心库存在问题，就会导致段错误。

总结

TorchRec DLRM在Fedora系统上的段错误问题通常可以通过重新安装PyTorch解决。这提醒我们在遇到类似问题时，首先考虑基础依赖的完整性和正确性。对于分布式训练这种复杂场景，确保核心框架的稳定安装是解决问题的第一步。

training

项目地址：https://gitcode.com/gh_mirrors/tra/training

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

150

rainbond

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

cherry-studio

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

TypeScript

928