DGL项目中基于磁盘的特征存储与CPU缓存优化技术解析

2025-05-15 04:56:59作者：何举烈Damon

Python package built to ease deep learning on graph, on top of existing DL frameworks.

项目地址：https://gitcode.com/gh_mirrors/dg/dgl

背景与挑战

在深度学习图神经网络应用中，处理大规模图数据时经常会遇到特征数据无法完全载入内存的情况。传统的解决方案包括使用基于磁盘的特征存储或操作系统提供的mmap内存映射技术，但这些方法都存在明显的性能瓶颈。

现有技术方案分析

当前DGL项目中有两种主要的特征存储方式：

TorchBasedFeature：使用PyTorch张量存储特征，支持in_memory=False模式，依赖操作系统自动缓存
DiskBasedFeature：直接基于磁盘存储，使用io_uring进行高效I/O操作

操作系统级别的缓存存在几个关键问题：

缓存粒度固定为4KB页面大小，而特征数据通常远小于这个尺寸
缓存策略不够智能，会缓存不必要的数据
mmap方式需要更多线程才能饱和SSD带宽

创新解决方案

DGL团队提出了基于io_uring和应用程序级缓存的优化方案：

io_uring优势：
- 支持批量提交I/O请求，减少系统调用开销
- 使用更少线程即可达到SSD带宽上限
- 提供更直接的I/O控制能力
智能缓存设计：
- 采用S3-FIFO等先进缓存淘汰算法
- 实现细粒度的特征级别缓存
- 支持并行缓存访问

技术实现细节

团队对多种缓存方案进行了深入评估：

缓存淘汰策略对比：
- S3-FIFO相比传统LRU有更高的命中率
- 虽然S3-FIFO时间开销略高，但综合性能更优
- 其他淘汰策略性能明显落后
缓存库选型：
- cachelib性能最佳，但因ABI兼容问题无法与Torch共用
- cachetools和cachemoncache等库性能不足

基于这些发现，团队决定自主实现并行化的S3-FIFO缓存方案，该实现具有以下特点：

模块化设计，便于扩展支持更多缓存策略
针对图特征访问模式优化
与DiskBasedFeature深度集成

应用价值

这项优化技术为处理超大规模图数据提供了关键支持：

显著降低磁盘I/O压力
提高特征访问效率
使在有限内存环境下处理大规模图数据成为可能
为后续性能优化奠定基础

未来展望

随着图数据规模的持续增长，特征存储与访问优化仍将是重点研究方向。DGL团队将持续优化缓存策略，探索更高效的I/O模式，并考虑异构计算环境下的缓存管理方案。

Python package built to ease deep learning on graph, on top of existing DL frameworks.

项目地址：https://gitcode.com/gh_mirrors/dg/dgl

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解