Turing.jl中HMM确定性发射参数的初始化问题解析

2025-07-04 12:46:01作者：劳婵绚Shirley

问题背景

在使用Turing.jl构建隐马尔可夫模型(HMM)时，当模型包含确定性发射参数（即某些状态的观测分布被固定为特定值）时，会出现无法找到有效初始参数的问题。这种情况特别容易出现在具有确定性终止状态的模型中，例如某些状态只能发射特定观测值的情况。

技术分析

问题的核心在于自动微分(AD)系统在处理确定性发射分布时的数值稳定性。当HMM的某个状态被设置为确定性发射（如[0.0, 1.0]）时，ForwardDiff在计算梯度时会产生NaN值，导致参数初始化失败。

具体来说，当：

某个状态的发射分布被固定为Categorical([0.0, 1.0])
该状态却观测到了概率为0的事件（如观测到值1）
对数概率计算会得到-Inf
自动微分系统在传播这些值时会产生NaN梯度

解决方案

经过深入分析，发现可以通过以下方式解决这个问题：

硬编码确定性分布：将确定性发射分布直接硬编码为Float64类型，而不是从参数变量中构建。这样可以避免自动微分系统将这些固定值转换为Dual数。
分离参数化部分和非参数化部分：在构建HMM时，将需要学习的参数和固定参数明确分开处理。对于固定部分使用普通浮点数，只对需要学习的部分应用概率分布。

实现建议

在实际实现中，可以采用如下模式：

@model function hmm_with_fixed_emissions(obs_data)
    # 可学习参数
    init ~ Dirichlet(...)
    trans_params ~ Dirichlet(...)
    emiss_params ~ Dirichlet(...)
    
    # 构建转移矩阵（部分固定）
    trans_matrix = build_trans_matrix(trans_params)
    
    # 构建发射分布（部分固定）
    dists = [
        Categorical(emiss_params),  # 可学习状态
        Categorical([0.0, 1.0])    # 固定状态
    ]
    
    # 构建HMM
    hmm = HMM(init, trans_matrix, dists)
    
    # 计算对数概率
    Turing.@addlogprob! logdensityof(hmm, obs_data)
end

深层原理

这个问题本质上反映了概率编程中一个常见的数值稳定性挑战。当模型包含绝对确定性（概率为0或1）的组件时，在基于梯度的推理过程中容易出现数值问题。这是因为：

对数概率在边界值处趋向于无穷大
自动微分系统需要处理这些极端值的梯度传播
浮点数精度限制导致计算不稳定

最佳实践建议

对于确定性组件，尽量使用硬编码而非参数化表示
考虑为确定性状态添加微小噪声（如[ϵ, 1-ϵ]）以提高数值稳定性
在构建复杂HMM时，逐步验证各组件的数值行为
对于固定参数部分，确保它们不会被自动微分系统处理

总结

在Turing.jl中构建包含确定性组件的HMM时，需要特别注意数值稳定性问题。通过合理设计模型结构，明确区分可学习参数和固定参数，可以有效避免初始化失败的问题。这一经验不仅适用于HMM，也可以推广到其他包含确定性组件的概率模型中。

Turing.jl

Bayesian inference with probabilistic programming.

项目地址：https://gitcode.com/gh_mirrors/tu/Turing.jl

登录后查看全文