首页
/ NVIDIA/stdexec项目中split操作的线程安全问题分析与解决方案

NVIDIA/stdexec项目中split操作的线程安全问题分析与解决方案

2025-07-07 05:33:13作者:鲍丁臣Ursa

问题背景

在NVIDIA的stdexec项目中,开发团队发现了一个与split操作相关的线程安全问题。这个问题在测试"split是线程安全的"用例时被发现,特别是在使用GCC-11的TSAN(ThreadSanitizer)构建时频繁出现。该问题表现为信号处理器从static_thread_pool的事件循环中被调用,导致数据竞争和其他并发问题。

问题现象

根据测试日志和堆栈跟踪,我们可以观察到以下几种异常情况:

  1. 数据竞争(Data Race):主线程和线程T1同时对同一内存位置进行写操作,导致TSAN报错。
  2. 段错误(SEGV):在__notify_waiters函数中读取未知地址时发生段错误。
  3. 未初始化内存使用:MSAN(MemorySanitizer)检测到使用了未初始化的值。
  4. 栈使用后返回(stack-use-after-return):ASAN(AddressSanitizer)检测到线程在函数返回后仍访问其栈内存。

技术分析

根本原因

问题的核心在于__shared.hpp中的__notify_waiters函数实现。该函数负责通知所有等待的线程,但在并发环境下存在几个关键问题:

  1. 生命周期管理不当:当通知线程正在遍历等待者列表时,被通知的线程可能已经销毁了其状态对象。
  2. 缺乏适当的同步:在交换等待者列表和实际通知之间缺乏足够的同步机制。
  3. 迭代器失效:在遍历过程中,底层数据结构可能被其他线程修改。

具体问题表现

  1. 数据竞争:当一个线程正在销毁__local_state_base对象(设置__next_为nullptr)时,另一个线程可能正在遍历等待者列表并尝试访问这些对象。
  2. 内存安全问题:由于对象可能在被访问前已被销毁,导致访问已释放内存或未初始化内存。
  3. 竞态条件:通知线程和被通知线程之间的执行顺序不确定,可能导致不可预测的行为。

解决方案

短期修复

针对当前问题,可以采取以下措施:

  1. 加强同步:在__notify_waiters函数中添加适当的锁机制,确保在遍历等待者列表时不会被并发修改。
  2. 生命周期延长:使用引用计数或其他机制确保被通知对象在通知完成前不会被销毁。
  3. 安全遍历:实现安全的迭代器模式,即使在遍历过程中数据结构被修改也能保证安全性。

长期改进

从架构层面考虑,可以:

  1. 重新设计通知机制:考虑使用更安全的通知模式,如事件队列或消息传递。
  2. 引入更严格的线程安全保证:明确各个组件的线程安全要求,并在设计时加以考虑。
  3. 增强测试覆盖:增加更多并发场景的测试用例,特别是边缘情况和竞态条件。

代码示例

以下是改进后的__notify_waiters函数伪代码示例:

void __notify_waiters() {
    // 获取锁保护等待者列表
    std::unique_lock lock(__mutex_);
    
    // 交换出当前等待者列表
    __intrusive_slist<&__local_state_base::__next_> __waiters_copy;
    __waiters_.swap(__waiters_copy);
    
    // 释放锁,允许新的等待者加入
    lock.unlock();
    
    // 安全地通知所有等待者
    for (__local_state_base* __item: __waiters_copy) {
        if (__item && __item != __get_tombstone()) {
            // 增加引用计数确保对象存活
            auto guard = __item->get_lifetime_guard();
            __item->__notify_(__item);
        }
    }
}

结论

NVIDIA/stdexec项目中的split操作线程安全问题揭示了在并发编程中常见的陷阱。通过分析各种sanitizer报告,我们确定了问题的根本原因在于共享状态的生命周期管理和缺乏适当的同步机制。解决这类问题需要综合考虑性能、安全性和代码复杂度,通常需要在设计早期就充分考虑并发场景。

对于类似的项目,建议在开发过程中持续使用TSAN、ASAN和MSAN等工具进行检测,尽早发现并修复潜在的并发问题。同时,建立完善的并发测试用例库,模拟各种可能的执行顺序和竞态条件,可以有效提高代码的健壮性。

登录后查看全文
热门项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
openHiTLS-examplesopenHiTLS-examples
本仓将为广大高校开发者提供开源实践和创新开发平台,收集和展示openHiTLS示例代码及创新应用,欢迎大家投稿,让全世界看到您的精巧密码实现设计,也让更多人通过您的优秀成果,理解、喜爱上密码技术。
C
53
468
kernelkernel
deepin linux kernel
C
22
5
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
7
0
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
878
517
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
336
1.1 K
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
180
264
cjoycjoy
一个高性能、可扩展、轻量、省心的仓颉Web框架。Rest, 宏路由,Json, 中间件,参数绑定与校验,文件上传下载,MCP......
Cangjie
87
14
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.08 K
0
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
349
381
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
612
60