x-transformers项目中XL-recurrence与RotaryEmbedding的协同优化

2025-06-08 09:36:14作者：裴麒琰

A concise but complete full-attention transformer with a set of promising experimental features from various papers

项目地址：https://gitcode.com/gh_mirrors/xt/x-transformers

在深度学习领域，Transformer架构的长期记忆处理一直是一个重要研究方向。本文探讨了x-transformers项目中XL-recurrence机制与Rotary位置编码协同工作时遇到的技术挑战及其解决方案。

问题背景

x-transformers项目实现了多种Transformer变体，其中XL-recurrence机制允许模型保留先前计算的隐藏状态作为记忆(memory)，从而扩展上下文窗口。当这一机制与Rotary位置编码结合使用时，开发者发现了一个关键问题：使用零初始化记忆(mems=None)与显式零记忆(mems=torch.zeros(...))会产生不一致的输出结果。

问题分析

经过深入排查，发现该问题源于三个技术细节：

位置编码处理不当：Rotary位置编码未正确处理记忆位置，导致记忆部分和当前输入部分的位置编码不连续。
记忆掩码机制缺陷：原始代码中记忆部分的掩码处理不够精细，无法区分"无记忆"和"零记忆"的情况。
层归一化时机问题：记忆的存储和应用发生在归一化操作的不同阶段，导致数值不一致。

解决方案

针对上述问题，开发团队实施了以下改进措施：

负位置索引：为记忆部分分配负的位置索引，确保位置编码连续性。例如，对于2个记忆token和5个输入token，位置序列应为[-1, -2, 0, 1, 2, 3, 4]。
精细掩码处理：引入显式的记忆掩码(mem_mask)机制，精确控制记忆的注意力范围。零记忆但需要参与注意力计算的情况现在可以明确指定。
归一化一致性：确保记忆的存储和应用发生在相同的归一化阶段，保持数值处理的一致性。

实现细节

具体实现中，关键修改包括：

# 改进的位置编码处理
if not exists(rotary_pos_emb) and exists(self.rotary_pos_emb):
    M = max(list(map(lambda m: m.shape[1] if exists(m) else 0, mems)))
    T = x.shape[1]
    t = torch.arange(-M, T)
    rotary_pos_emb = self.rotary_pos_emb.forward(t)

# 改进的掩码处理
if exists(input_mask) and exists(mem):
    attend = torch.any(mem)
    input_mask = pad_at_dim(input_mask, (mem.shape[-2], 0), dim=-1, value=attend)

性能影响

改进后，模型表现出以下特点：

数值稳定性提高，零记忆与无记忆情况输出一致
训练收敛性改善，特别是长序列任务
记忆机制效率提升，有效上下文窗口显著扩大

应用建议

对于使用x-transformers的开发者，建议：

在XL-recurrence场景下，务必正确初始化记忆掩码
考虑使用负位置索引处理长程依赖
注意层归一化的应用时机，确保训练一致性

这一系列改进使x-transformers在处理长序列任务时更加可靠，为需要长期记忆的应用场景提供了坚实基础。

A concise but complete full-attention transformer with a set of promising experimental features from various papers

项目地址：https://gitcode.com/gh_mirrors/xt/x-transformers

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。