首页
/ ByConity磁盘缓存导致Inode耗尽问题的分析与解决

ByConity磁盘缓存导致Inode耗尽问题的分析与解决

2025-07-03 14:46:19作者:董斯意

问题现象

在使用ByConity 0.4.2-testonly-3版本进行ClickHouse数据迁移时,系统报错"DB::ErrnoException: Cannot open file /var/byconity/disks/DISK_INFOS.tmp, errno: 28, strerror: No space left on device"。经检查发现,这是由于宿主机文件系统的Inode使用率已达95%,导致系统无法继续创建新文件。

问题分析

ByConity的磁盘缓存机制会在以下两个目录产生大量文件:

  1. /var/byconity/data/auxility_store - 该目录下的文件会被自动清理
  2. /var/byconity/data/part_disk_cache/meta - 该目录会积累大量缓存元数据文件

虽然auxility_store目录有自动清理机制,但part_disk_cache/meta目录的文件会持续增长,最终导致Inode资源耗尽。

解决方案

临时解决方案

  1. 清理现有缓存文件:手动删除/var/byconity/data/part_disk_cache/meta目录下的部分文件,释放Inode资源
  2. 监控Inode使用率:建立Inode使用率监控机制,提前预警

长期解决方案

  1. 调整磁盘缓存策略:在values.yaml配置文件中修改worker的disk_cache_strategies配置:
configOverwrite:
  disk_cache_strategies:
    simple:
      lru_max_size: 12949672960  # 设置缓存最大大小
      lru_max_object_num: 12600000  # 限制缓存对象数量
  1. 定期维护机制:建立定期清理陈旧缓存文件的自动化机制
  2. 文件系统优化:考虑使用支持更大Inode数量的文件系统,或增加Inode数量

实施建议

  1. 首先清理现有缓存文件,恢复服务可用性
  2. 然后应用配置变更,限制缓存对象数量
  3. 最后建立长期监控和维护机制,防止问题复发

注意事项

修改配置后需要执行upgrade操作使配置生效。同时需要注意,单纯调整lru_max_object_num参数可能无法立即解决已存在的Inode耗尽问题,需要结合文件清理操作。

对于生产环境,建议在非高峰期进行这些操作,并做好回滚准备。

登录后查看全文
热门项目推荐
相关项目推荐