Asterisk中抑制远端发送sendonly或inactive时的MOH播放机制
在Asterisk VoIP系统中,当远端端点发送带有"sendonly"或"inactive"属性的SDP时,系统会默认将其解释为"保持"状态并自动播放保持音乐(MOH)。然而,在某些特定场景下,这种默认行为可能并不符合实际需求,特别是在远端正在发送早期媒体或系统已经在播放特定音频的情况下。
问题背景
在SIP协议交互过程中,当主叫方A呼叫被叫方B时,被叫方可能会返回180 Ringing响应,随后发送183会话进展消息。这些消息中的SDP描述可能包含"sendonly"或"inactive"属性。按照行业惯例和Asterisk的默认实现,系统会将这些属性视为呼叫保持信号,从而触发保持音乐播放。
这种机制在大多数情况下是合理的,但在以下场景中会产生问题:
- 被叫方正在发送早期媒体(如自定义回铃音)
- 拨号方案中已经配置了特定音频播放给主叫方
- 系统需要保持当前音频流不被中断
技术实现原理
Asterisk通过解析SDP中的媒体方向属性来决定如何处理媒体流。当检测到"sendonly"(a=sendonly)或"inactive"(a=inactive)属性时,核心媒体处理逻辑会触发保持状态,启动MOH播放。这一机制位于Asterisk的SDP协商和媒体处理模块中。
解决方案
为了解决这一问题,Asterisk引入了新的配置选项和行为控制机制:
-
新增通道变量:开发了
SUPPRESS_MOH_ON_REMOTE_SENDONLY通道变量,当设置为true时,系统将不会在收到远端sendonly/inactive属性时自动播放MOH。 -
拨号方案控制:在拨号方案中可以通过设置通道变量来精确控制这一行为:
same => n,Set(SUPPRESS_MOH_ON_REMOTE_SENDONLY=true) -
核心代码修改:对媒体处理逻辑进行了增强,在触发MOH播放前检查相关标志位,确保在需要抑制MOH的场景下保持现有媒体流不变。
应用场景
这一改进特别适用于以下场景:
-
定制化回铃音系统:当企业使用定制回铃音(CRBT)时,可以确保主叫方听到的是定制音频而非标准MOH。
-
媒体网关应用:在媒体网关场景中,可能需要保持现有媒体流的连续性。
-
特殊业务场景:如语音信箱系统、交互式语音应答(IVR)等需要精确控制音频播放的场景。
实现细节
在技术实现上,主要修改涉及:
- SDP解析模块:增强了对媒体方向属性的处理逻辑
- 媒体控制层:增加了MOH触发条件的判断
- 通道变量处理:新增了对抑制MOH标志的支持
系统现在会在以下情况下保持现有音频流:
- 远端发送sendonly/inactive属性
- 抑制MOH标志被激活
- 当前已有活跃的媒体流
最佳实践
对于系统管理员和开发人员,建议:
- 在需要保持现有媒体流的场景下明确设置抑制标志
- 对于定制化音频应用,应在拨号方案中妥善处理媒体方向变化
- 测试不同场景下的媒体流行为,确保符合业务需求
这一改进显著增强了Asterisk在复杂媒体场景下的灵活性,使系统能够更好地适应各种业务需求,同时保持了与传统实现的兼容性。
kernelopenEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。C031
Kimi-K2-ThinkingKimi K2 Thinking 是最新、性能最强的开源思维模型。从 Kimi K2 开始,我们将其打造为能够逐步推理并动态调用工具的思维智能体。通过显著提升多步推理深度,并在 200–300 次连续调用中保持稳定的工具使用能力,它在 Humanity's Last Exam (HLE)、BrowseComp 等基准测试中树立了新的技术标杆。同时,K2 Thinking 是原生 INT4 量化模型,具备 256k 上下文窗口,实现了推理延迟和 GPU 内存占用的无损降低。Python00
kylin-wayland-compositorkylin-wayland-compositor或kylin-wlcom(以下简称kywc)是一个基于wlroots编写的wayland合成器。 目前积极开发中,并作为默认显示服务器随openKylin系统发布。 该项目使用开源协议GPL-1.0-or-later,项目中来源于其他开源项目的文件或代码片段遵守原开源协议要求。C00
HunyuanOCRHunyuanOCR 是基于混元原生多模态架构打造的领先端到端 OCR 专家级视觉语言模型。它采用仅 10 亿参数的轻量化设计,在业界多项基准测试中取得了当前最佳性能。该模型不仅精通复杂多语言文档解析,还在文本检测与识别、开放域信息抽取、视频字幕提取及图片翻译等实际应用场景中表现卓越。00
GLM-ASR-Nano-2512GLM-ASR-Nano-2512 是一款稳健的开源语音识别模型,参数规模为 15 亿。该模型专为应对真实场景的复杂性而设计,在保持紧凑体量的同时,多项基准测试表现优于 OpenAI Whisper V3。Python00
GLM-TTSGLM-TTS 是一款基于大语言模型的高质量文本转语音(TTS)合成系统,支持零样本语音克隆和流式推理。该系统采用两阶段架构,结合了用于语音 token 生成的大语言模型(LLM)和用于波形合成的流匹配(Flow Matching)模型。 通过引入多奖励强化学习框架,GLM-TTS 显著提升了合成语音的表现力,相比传统 TTS 系统实现了更自然的情感控制。Python00
Spark-Formalizer-X1-7BSpark-Formalizer 是由科大讯飞团队开发的专用大型语言模型,专注于数学自动形式化任务。该模型擅长将自然语言数学问题转化为精确的 Lean4 形式化语句,在形式化语句生成方面达到了业界领先水平。Python00