ByConity磁盘缓存导致Inode耗尽问题的分析与解决

2025-07-03 14:19:18作者：董斯意

问题现象

在使用ByConity 0.4.2-testonly-3版本进行ClickHouse数据迁移时，系统报错"DB::ErrnoException: Cannot open file /var/byconity/disks/DISK_INFOS.tmp, errno: 28, strerror: No space left on device"。经检查发现，这是由于宿主机文件系统的Inode使用率已达95%，导致系统无法继续创建新文件。

问题分析

ByConity的磁盘缓存机制会在以下两个目录产生大量文件：

/var/byconity/data/auxility_store - 该目录下的文件会被自动清理
/var/byconity/data/part_disk_cache/meta - 该目录会积累大量缓存元数据文件

虽然auxility_store目录有自动清理机制，但part_disk_cache/meta目录的文件会持续增长，最终导致Inode资源耗尽。

解决方案

临时解决方案

清理现有缓存文件：手动删除/var/byconity/data/part_disk_cache/meta目录下的部分文件，释放Inode资源
监控Inode使用率：建立Inode使用率监控机制，提前预警

长期解决方案

调整磁盘缓存策略：在values.yaml配置文件中修改worker的disk_cache_strategies配置：

configOverwrite:
  disk_cache_strategies:
    simple:
      lru_max_size: 12949672960  # 设置缓存最大大小
      lru_max_object_num: 12600000  # 限制缓存对象数量

定期维护机制：建立定期清理陈旧缓存文件的自动化机制
文件系统优化：考虑使用支持更大Inode数量的文件系统，或增加Inode数量

实施建议

首先清理现有缓存文件，恢复服务可用性
然后应用配置变更，限制缓存对象数量
最后建立长期监控和维护机制，防止问题复发

注意事项

修改配置后需要执行upgrade操作使配置生效。同时需要注意，单纯调整lru_max_object_num参数可能无法立即解决已存在的Inode耗尽问题，需要结合文件清理操作。

对于生产环境，建议在非高峰期进行这些操作，并做好回滚准备。

ByConity

ByConity is an open source cloud data warehouse

项目地址：https://gitcode.com/gh_mirrors/by/ByConity

登录后查看全文