NVIDIA/stdexec项目中split发送器取消时的数据竞争问题分析

2025-07-07 13:39:31作者：戚魁泉Nursing

问题背景

在NVIDIA的stdexec项目中，当使用split操作符创建的发送器(sender)被取消时，会出现数据竞争问题。这个问题在多线程环境下特别容易触发，可能导致程序崩溃或断言失败。

问题表现

当开发者创建多个split发送器并快速取消它们时，程序可能会：

发生段错误(Segmentation fault)
触发断言失败："stdexec::inplace_stop_source::~inplace_stop_source(): Assertion `(_state.load(std::memory_order_relaxed) & _locked_flag) == 0' failed"
线程检查工具(如ThreadSanitizer)报告数据竞争

技术细节

竞争条件分析

该问题的本质是一个典型的数据竞争场景，涉及两个关键操作：

主线程操作：当split发送器被销毁时，会调用inplace_stop_source的request_stop()方法，尝试原子性地修改停止状态。
工作线程操作：同时，工作线程可能正在执行发送器的完成操作，这会触发共享状态的释放和内存回收。

这两个操作在没有适当同步的情况下并发访问同一内存位置，导致了数据竞争。

底层机制

split操作符的实现依赖于共享状态(shared state)来允许多个接收器(receiver)共享同一个发送器。这个共享状态包含一个inplace_stop_source用于传播取消请求。当发送器被销毁时，它会请求停止并尝试释放共享状态资源。

问题出在销毁路径和完成路径之间的同步不足：

销毁路径：通过stop_source请求停止并释放资源
完成路径：通过共享状态通知等待者并释放资源

解决方案

该问题已被修复，核心思路是：

加强同步机制：确保销毁操作和完成操作之间的正确同步
改进资源释放顺序：保证在释放资源前所有相关操作都已完成
优化原子操作：使用更合适的内存顺序来避免竞争

开发者建议

对于使用stdexec库的开发者，建议：

更新到修复版本：确保使用包含此修复的最新版本
谨慎使用split：在多线程环境中使用split操作符时要注意生命周期管理
使用线程检查工具：在开发过程中启用ThreadSanitizer等工具检测潜在竞争

总结

这个案例展示了并发编程中常见的陷阱，即使是精心设计的库也可能遇到微妙的数据竞争问题。它强调了在异步操作和资源共享场景中，正确同步和资源管理的重要性。NVIDIA/stdexec团队对此问题的快速响应和修复也体现了开源社区对代码质量的重视。

stdexec

`std::execution`, the proposed C++ framework for asynchronous and parallel programming.

项目地址：https://gitcode.com/gh_mirrors/st/stdexec

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统