NanoMQ桥接消息丢失问题分析与解决方案

2025-07-07 19:53:47作者：羿妍玫Ivan

项目地址：https://gitcode.com/gh_mirrors/na/nanomq

问题背景

在使用NanoMQ进行MQTT桥接时，用户遇到了"aio busy! msg lost!"的错误提示。这个问题主要出现在性能受限的嵌入式设备上，当本地NanoMQ实例与远程MQTT代理(如Mosquitto)建立桥接时，由于远程代理的消息处理速率限制(1条消息/秒/主题)，导致消息积压和丢失。

技术分析

错误原因

"aio busy! msg lost!"错误表明NanoMQ的异步I/O处理队列已满，无法处理更多的桥接消息。这种情况通常发生在：

远程代理处理速度慢于本地消息产生速度
网络延迟或连接不稳定
设备资源有限(如单核CPU、小内存)

NanoMQ与Mosquitto架构差异

NanoMQ采用多线程架构，能够并行处理多个请求，而Mosquitto是单线程事件循环架构。这种架构差异导致：

NanoMQ可以更快地从socket读取数据
Mosquitto处理速度受限于单线程性能
当远程Mosquitto无法及时响应时，NanoMQ的消息队列会积压

解决方案

1. 调整NanoMQ配置参数

在nanomq.conf配置文件中，可以调整以下参数来优化桥接性能：

bridges.mqtt.test = {
    max_parallel_processes = 2     # 最大并行处理进程数
    max_send_queue_len = 1024      # 发送队列最大长度
    max_recv_queue_len = 1024      # 接收队列最大长度
}

system {
    parallel = 0                   # 最大未完成请求数
}

2. 使用QoS 0级别

对于不要求可靠传输的消息，可以降低QoS级别：

forwards = [
    {
        remote_topic = ""
        local_topic = "server/+/state"
        qos = 0                   # 使用QoS 0
    }
]

3. 实现客户端速率限制

最根本的解决方案是在发布客户端实现速率限制，确保消息产生速率不超过远程代理的处理能力。

高级配置建议

消息缓存机制

NanoMQ提供了SQLite缓存功能，可以在连接中断时暂存消息：

bridges.mqtt.cache {
    disk_cache_size = 102400       # 最大缓存消息大小
    mounted_file_path = "/data/nanomq/" # 缓存文件路径
    flush_mem_threshold = 200      # 刷新到磁盘的阈值
    resend_interval = 5000         # 重发间隔(毫秒)
}

性能调优

对于资源受限设备，可以适当降低并发处理能力：

system {
    num_taskq_thread = 0           # 指定任务队列线程数
    max_taskq_thread = 0           # 最大任务队列线程数
    parallel = 0                   # 最大未完成请求数
}