rmlint工具中文件大小显示为0的问题分析与解决方案

2025-07-04 09:02:22作者：秋阔奎Evelyn

问题现象

在使用rmlint工具进行备份文件去重时，发现部分文件在JSON输出中被标记为"size": 0，但实际上这些文件并非空文件。经过测试发现，当文件名包含空格时容易出现此现象，但进一步分析表明问题根源与文件所有权相关。

根本原因

深入分析后发现，该问题与rmlint的badids检查机制有关。当文件满足以下条件时会出现此问题：

文件所有权属于系统中不存在的用户ID(UID)
默认启用了badids检查（属于rmlint的默认安全检查项）

在这种情况下，rmlint出于安全考虑会将这些文件标记为可疑文件，并在统计时将其大小显示为0，实际上这是工具的一种保护机制。

解决方案

方案一：修改文件所有权

最直接的解决方法是修改文件的所有权，使其属于系统中存在的有效用户：

chown root:root -R /path/to/files

或者指定有效的用户ID：

chown 1000:1000 -R /path/to/files

方案二：禁用badids检查

如果修改所有权不可行，可以在运行rmlint时禁用badids检查：

rmlint -T "all -badids" /path/to/files

技术背景

rmlint作为专业的重复文件查找工具，内置了多项安全检查机制：

badids检查：检测文件是否属于系统中不存在的用户/组，这是为了防止访问可能存在的安全风险文件
权限检查：确保工具有足够的权限读取文件内容
特殊文件检查：避免处理设备文件等特殊文件类型

这些安全检查虽然可能导致某些特殊情况下的误判，但大大提高了工具在复杂环境中的安全性和可靠性。

最佳实践建议

对于备份操作，建议先统一文件所有权后再进行去重处理
在脚本中使用rmlint时，建议显式指定-T参数来控制检查项
对于跨系统的备份文件，特别注意用户ID映射问题
处理完成后，可以通过rmlint -o summary验证实际处理的文件大小是否合理

总结

rmlint显示文件大小为0的问题本质上是工具的安全机制在发挥作用。理解这一机制后，我们可以通过调整文件所有权或适当配置工具参数来解决。这体现了专业工具在设计时对系统安全性的重视，也提醒我们在数据处理时要关注文件权限等系统属性。

rmlint

Extremely fast tool to remove duplicates and other lint from your filesystem

项目地址：https://gitcode.com/gh_mirrors/rm/rmlint

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Rust

579

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java