Sanity Check报错？Paperless-ngx 缺陷自检失败的排查手册

2026-04-23 17:48:46作者：幸俭卉

1. 案发现场：当 `System Status` 亮起红灯，你的文档库可能正在“内卷”

我本以为在 NAS 上稳定运行了半年的 Paperless-ngx 是坚不可摧的，直到那天我无意中点开“系统状态”页面。原本绿色的 OK 变成了刺眼的 ERROR，后台日志里冷冰冰地躺着一行：sanity_check_error: 3 issues found. Check logs for details.。

这就是典型的 #12386 号 Bug 的前兆。我按照官方文档建议重启了容器，甚至手动运行了 document_sanity_check 命令，结果错误非但没消失，反而提示我数据库记录和文件系统对不上了。这种sanity_check_error 发现 3 个问题的惨状，通常发生在非正常关机、文件系统权限漂移或者你手动在 media 文件夹里“乱动”了某些文件之后。最让人抓狂的是，官方文档只告诉你出错了，却没告诉你那该死的损坏文件到底在哪。

💡 报错现象总结：Paperless-ngx 自检程序（Sanity Check）报告错误，状态显示为 sanity_check_status: ERROR，通常伴随 3 issues found 或类似的文件缺失/校验和不匹配提示。这表明数据库中的 Document 条目与物理磁盘上的 archive 或 originals 文件存在元数据不一致。

2. 深度排雷：解构 `document_sanity_check.py` 里的“强制洁癖”逻辑

要修复这个问题，你得先知道 Paperless-ngx 是怎么“查岗”的。核心代码藏在 src/documents/management/commands/document_sanity_check.py 里。

源码追溯：为什么校验和不匹配会直接锁死状态？

Paperless-ngx 的自检逻辑非常死板。它会遍历数据库中所有的 Document 模型，然后根据存储路径去硬核探测物理文件。

# 模拟 document_sanity_check.py 核心校验逻辑
def handle_check(self, document):
    # 逻辑 1：探测物理文件是否存在
    if not document.storage_path.exists():
        self.stderr.write(f"Document {document.id} missing file")
    
    # 逻辑 2：计算校验和并对比 (这是最容易触发 #12386 的点)
    current_checksum = hash_file(document.storage_path)
    if current_checksum != document.checksum:
        # 只要你改过文件、或者文件系统底层发生过静默损坏，这里直接报 ERROR
        self.add_issue(f"Checksum mismatch for {document.id}")

在这个过程中，如果它发现有 3 个文档的 MD5 值变了，或者是你手动重命名了文件导致数据库索引失效，它就会抛出那行著名的 sanity_check_error 发现 3 个问题。

逻辑流向对比：官方默认处理 vs 现实故障场景

校验维度	官方预期逻辑 (Expected)	现实故障表现 (Issue #12386)	架构师诊断
文件存在性	数据库与物理文件 1:1 对应	文件被手动删除或归档路径被移动	索引悬空，数据库孤儿记录
MD5 校验	文件内容永久不变	文件系统位翻转或元数据被其他软件修改	数据损坏或静默篡改
数据库一致性	所有外键关联正常	标签或对应人条目丢失但文档仍在	数据库逻辑层断层
错误恢复	仅报告，无自动修复	错误状态常驻，影响 Web UI 显示	官方自检程序“管杀不管埋”

3. 填坑实战：查找并删除损坏文件与不一致记录的“笨办法”

如果你打算手动修复这 3 个问题，你的周末基本上就交代给终端了。

首先，你需要通过 docker exec -it 进入容器，运行 python3 manage.py document_sanity_check，并重定向输出到一个文本文件里。接着，你得肉眼去扫描那成千上万行日志，找到具体是哪三个 Document ID 报错。

如果你发现是文件缺失，你需要去数据库里执行 DELETE FROM documents_document WHERE id = [X]。但别高兴太早，这会触发外键约束报错，你还得手动去清理 documents_document_tags、documents_note 等关联表。如果你遇到的是校验和不匹配，你还得手动计算正确的 MD5，然后去数据库里 UPDATE 那条记录。

这种“原生态”的笨办法不仅效率极低，而且极度危险。一旦你在 sqlite3 或 psql 里敲错一个字符，你的整个文档库可能就此报废。更不用说，这种手动修复完全无法处理大批量的文件漂移，折腾半天，可能自检状态还是那个该死的 ERROR。