Asterisk项目中桥接通道销毁后队列操作引发的崩溃问题分析

2025-07-01 15:42:59作者：裘旻烁

问题背景

在Asterisk开源电话系统18.10版本中，存在一个桥接模块(bridge)的关键缺陷。当系统在特定时序条件下处理呼叫转移(Atxfer)操作时，如果用户方在转移后快速挂断，可能导致系统崩溃。这个问题源于桥接通道(bridge_channel)生命周期管理与帧队列操作之间的竞态条件。

技术细节分析

该问题发生在桥接模块的核心处理流程中，具体表现为：

当发起呼叫转移(Atxfer)操作时，系统会创建一个新的桥接通道
在桥接通道加入桥接结构(bridge)的过程中，系统会先增加引用计数，然后将通道从桥接列表中移除
如果此时用户方挂断，引用计数会减少，可能导致通道被提前销毁
当系统尝试向已被销毁的通道队列中写入控制帧时，就会触发空指针访问导致崩溃

问题的核心在于ast_bridge_queue_everyone_else函数在遍历桥接通道列表时没有持有桥接锁，而通道的销毁操作也没有与队列操作进行适当的同步。

问题复现条件

通过分析，该问题在以下操作序列下可以稳定复现：

使用AMI发起Originate操作建立呼叫
在拨号计划中执行拨号操作呼叫客户
发起Atxfer操作进行呼叫转移
客户在转移后1秒内挂断

解决方案

针对这个问题，正确的修复方式是在ast_bridge_queue_everyone_else函数中添加桥接锁保护：

int ast_bridge_queue_everyone_else(struct ast_bridge *bridge, struct ast_bridge_channel *bridge_channel, struct ast_frame *frame)
{
    int not_written = 1;
    struct ast_bridge_channel *cur;

    if (ast_test_flag(&bridge->feature_flags, AST_BRIDGE_FLAG_INVISIBLE)) {
        return 0;
    }

    ast_bridge_lock(bridge);
    AST_LIST_TRAVERSE(&bridge->channels, cur, entry) {
        if (cur == bridge_channel) {
            continue;
        }

        if (!ast_bridge_channel_queue_frame(cur, frame)) {
            not_written = 0;
        }
    }
    ast_bridge_unlock(bridge);
    return not_written;
}