Cardano节点版本升级导致全量重放问题分析

2025-06-26 20:41:17作者：秋阔奎Evelyn

问题背景

在Cardano区块链网络的运维过程中，节点升级是一个常规操作。最近有运维人员报告，在将Cardano节点从9.1.0版本升级到9.1.1版本后，节点启动时出现了意外的全量区块重放现象，而非预期的快速重启。

问题现象

运维团队在Ubuntu 22.04系统上运行Cardano节点时，从9.1.0版本升级到9.1.1版本后，节点启动时日志中出现了如下关键错误信息：

Invalid snapshot DiskSnapshot {dsNumber = 133765893, dsSuffix = Nothing}InitFailureRead (ReadFailed (DeserialiseFailure 2123214917 "expected word16"))

这表明节点无法正确读取和解析现有的快照文件，导致不得不从创世区块开始全量重放整个区块链数据。这种情况显著增加了节点的恢复时间，影响了网络的整体稳定性。

根本原因分析

经过深入调查，发现该问题与Cardano节点的构建方式密切相关。具体原因如下：

依赖版本不匹配：9.1.1版本修复的关键问题实际上位于cardano-ledger-shelley库的1.12.3.0版本中。如果构建时没有正确获取这个依赖版本，构建出的节点二进制文件实际上等同于9.1.0版本。
构建流程问题：当使用cabal直接构建时，如果没有先执行cabal update命令更新本地包索引，构建系统可能会继续使用旧的cardano-ledger-shelley-1.12.2.0版本，导致修复补丁未能正确应用。
快照兼容性问题：Conway时代引入的快照格式需要特定的解析逻辑，当依赖库版本不正确时，节点无法正确读取之前生成的快照文件，触发安全机制强制全量重放。

解决方案

要正确解决这个问题，运维人员应采取以下步骤：

更新本地包索引：
```
cabal update
```
验证依赖版本：构建完成后，可以通过以下命令确认使用的cardano-ledger-shelley版本：
```
cat dist-newstyle/cache/plan.json | jq '.["install-plan"][].id' | grep cardano-ledger-shelley-1
```
确保输出为cardano-ledger-shelley-1.12.3.0。
使用预编译二进制：对于生产环境，建议直接从官方发布的9.1.1版本页面下载预编译的二进制文件，避免构建过程中的潜在问题。