Diffusers项目中Safetensors加载性能优化分析

2025-05-06 15:30:54作者：吴年前Myrtle

问题背景

在Diffusers项目中使用StableDiffusionPipeline.from_single_file方法加载safetensors格式的模型文件时，当文件通过GCSFuse挂载访问时，出现了显著的性能下降问题。经过分析发现，这是由于当前实现中多个进程共享同一个文件描述符(fd)导致的。

技术原理

问题的核心在于文件访问模式与存储系统的特性匹配。GCSFuse作为Google Cloud Storage的FUSE实现，对顺序读取有良好的优化，但对随机访问性能较差。当前实现中：

使用mmap进行内存映射
多个工作进程共享同一个文件描述符
各进程独立访问文件的不同偏移位置

这种模式导致GCSFuse接收到大量随机IO请求，而非优化的顺序读取模式。虽然mmap理论上可以利用内核的页面缓存机制，但跨进程共享fd的设计反而破坏了存储系统的优化机会。

解决方案

理想的优化方向是：

取消进程间文件描述符共享
让每个工作进程独立打开文件
保持使用mmap的内存映射机制

这样修改后，内核仍然可以有效地管理页面缓存，同时GCSFuse可以观察到更连续的读取模式。实际测试表明，这种优化可以将一个7.2GB模型的加载时间从16分钟缩短到1分钟以内。

深入分析

这种性能问题的本质是分布式存储系统特性与本地文件系统差异的表现。GCSFuse等网络存储系统：

对顺序读取有高度优化
通常采用大块预读策略
随机访问会导致大量小请求和重定位

而本地文件系统通常对随机访问有更好的容忍度。因此，在设计跨平台的文件加载逻辑时，需要考虑不同存储后端的特性差异。

最佳实践建议

对于类似场景的开发，建议：

评估目标存储系统的访问模式特性
避免不必要的文件描述符共享
考虑实现存储后端自适应的加载策略
对网络存储系统优先保证顺序访问模式

这种优化不仅适用于Diffusers项目，对于其他需要从云存储加载大文件的机器学习应用也具有参考价值。

diffusers

Diffusers：在PyTorch中用于图像和音频生成的最先进扩散模型。

项目地址：https://gitcode.com/GitHub_Trending/di/diffusers

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

142

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息

557

111