AMDVLK项目中D3D9严格浮点模拟路径的优化实践

2025-07-07 02:39:56作者：冯梦姬Eddie

背景与问题概述

在图形API转换层DXVK中，D3D9的严格浮点模拟路径（Strict float emulation）是一个重要的功能选项。该路径虽然能提供更精确的浮点运算结果，但由于性能开销较大，默认并未在所有驱动程序中启用。RADV和NVK驱动已针对此路径进行了优化，使其既能保持高性能又能确保图形正确性，而AMDVLK驱动在此方面存在不足。

技术挑战分析

严格浮点模拟路径的核心挑战在于如何处理特定的浮点运算模式。在D3D9中，当遇到类似((b==0.0 ? 0.0 : a) * (a==0.0 ? 0.0 : b))这样的条件乘法运算时，需要确保其行为与Direct3D 9规范完全一致。传统实现方式会产生较大的性能开销，而优化后的实现则能利用硬件特性高效处理这些运算。

AMDVLK驱动最初未能有效优化这些运算模式，导致两种情况：

当启用严格模式时，性能显著下降
当使用默认模式时，某些游戏可能出现视觉异常

优化方案实现

AMDVLK团队针对这一问题进行了深入分析，识别出需要优化的关键运算模式：

基本条件乘法模式：((b==0.0 ? 0.0 : a) * (a==0.0 ? 0.0 : b))
单边条件乘法模式：a * (a==0.0?0.0:b)或(b==0.0?0.0:a) * b
融合乘加(FMA)模式：fma((b==0.0 ? 0.0 : a), (a==0.0 ? 0.0 : b), c)
单边FMA模式：fma(a, (a==0.0 ? 0.0 : b), c)或fma(b==0.0?0.0:a, b, c)

优化过程中特别考虑了边界条件，确保当操作数为常量零时保持正确行为。此外，还确认了这些优化仅适用于32位浮点运算，与硬件指令v_mul_legacy_f32和v_fma_legacy_f32的特性相匹配。

实现细节与挑战

在实际游戏测试中（如Risen），发现Shader代码采用了更复杂的向量化形式。典型模式包括：

%2272 = select i1 %2270, float 0.0, float %2271
%2273 = insertelement <3 x float> poison, float %2272, i64 0
...
%2303 = fmul <3 x float> %2281, %2302