signal-cli-native高CPU占用与长接收延迟问题分析与解决

2025-06-24 01:15:53作者：卓炯娓

问题现象

在使用signal-cli-native（作为signal-cli-rest-api的包装）的三台服务器中，其中一台出现了异常表现：

接收消息时CPU占用率达到100%并持续30秒以上
响应延迟逐渐恶化至50+秒
内存使用量从100MB激增至1600MB后立即回落
其他两台服务器表现正常

技术分析

通过日志分析发现，系统在处理消息时频繁出现以下错误：

[libsignal]: rust/protocol/src/session_cipher.rs:220: 
Message from <ID> failed to decrypt; 
sender ratchet public key <ID> message counter 499
No current session

这表明系统正在反复尝试解密失败的消息。深入代码后发现，signal-cli-native默认会重试处理失败的消息（needsToRetryFailedMessages=true），特别是当接收方的身份密钥（安全号码）发生变化时。

解决方案

临时解决方案是将needsToRetryFailedMessages设置为false，这使接收时间恢复到10秒以内。但需要注意：

重试机制的作用：该机制主要用于处理身份密钥变更后接收的消息，确保不会丢失重要通信
长期影响：禁用重试可能导致某些特殊情况下的消息丢失
替代方案：不建议简单地缩短重试时间窗口（如从30天改为24小时），这可能导致合法消息被错误丢弃

最佳实践建议

对于高负载环境，建议监控消息解密失败率
定期检查身份密钥变更情况
考虑实现自定义的重试策略，平衡系统负载和消息可靠性
保持signal-cli-native版本更新，以获取最新的性能优化

技术背景

Signal协议使用"安全号码"（身份密钥）来验证通信双方身份。当这些密钥变更时，系统需要特殊处理以确保通信连续性。signal-cli-native的重试机制正是为此设计，但不当使用可能导致严重的性能问题。

对于企业级部署，建议结合具体业务需求评估消息可靠性与系统性能的平衡点。

signal-cli

signal-cli provides an unofficial commandline, dbus and JSON-RPC interface for the Signal messenger.

项目地址：https://gitcode.com/gh_mirrors/si/signal-cli

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解