BS::thread_pool 中硬件并发数获取的优化思考

2025-06-30 05:58:16作者：姚月梅Lane

在C++多线程编程中，线程池的大小设置是一个关键性能因素。BS::thread_pool作为一款优秀的C++线程池库，其默认使用std::thread::hardware_concurrency()来获取硬件支持的线程并发数。然而，在实际生产环境中，特别是在Linux系统上，这种方式存在一定的局限性。

问题背景

std::thread::hardware_concurrency()返回的是底层硬件支持的线程并发能力，而不是当前进程实际可用的核心数。在以下场景中会出现问题：

使用taskset命令限制进程运行在特定核心上时
在Slurm等批处理系统中运行作业时
通过cgroups限制CPU资源时

例如，在一台20核机器上运行taskset -c 1 myprogram，线程池会创建20个工作线程，但这些线程都被限制在单个核心上运行，导致性能下降。

技术分析

在Linux系统中，更准确的方法是使用sched_getaffinity()系统调用，它可以获取当前进程的CPU亲和性掩码。Folly库就采用了这种实现方式：

unsigned int hardware_concurrency() noexcept {
#if defined(__linux__) && !defined(__ANDROID__)
  cpu_set_t cpuset;
  if (!sched_getaffinity(0, sizeof(cpuset), &cpuset)) {
    auto count = CPU_COUNT(&cpuset);
    if (count != 0) {
      return count;
    }
  }
#endif
  return std::thread::hardware_concurrency();
}

BS::thread_pool的解决方案

BS::thread_pool的作者考虑到了跨平台兼容性问题，在v5.0.0版本中引入了原生扩展功能，提供了BS::get_os_process_affinity()函数。这个函数在Windows和Linux上都能返回当前进程的CPU亲和性信息。

用户可以通过以下方式获取实际可用的线程数：

#define BS_THREAD_POOL_NATIVE_EXTENSIONS
#include "BS_thread_pool.hpp"

int main()
{
    const std::optional<std::vector<bool>> affinity = BS::get_os_process_affinity();
    const std::size_t num_threads = affinity ? std::ranges::count(*affinity, true) : std::thread::hardware_concurrency();
    BS::thread_pool pool(num_threads);
    std::cout << "Number of available threads: " << pool.get_thread_count() << '\n';
}