突破单核瓶颈：Stockfish如何用多核优化实现棋力飞跃

2026-02-05 05:28:01作者：宗隆裙

你是否遇到过这样的情况：明明电脑配置了八核甚至十六核CPU，但运行国际象棋引擎时却感觉不到明显的速度提升？Stockfish作为世界顶级的UCI国际象棋引擎，通过精妙的多核优化技术，让每一颗CPU核心都为棋局计算贡献力量。本文将带你深入了解Stockfish的多核架构，揭示如何通过线程管理、NUMA节点优化和搜索算法的协同设计，充分释放现代CPU的计算潜能。

多核优化的核心挑战

国际象棋AI的核心是搜索算法，它需要评估数百万甚至数十亿种可能的走法。单核时代，引擎受限于单个CPU核心的计算能力，搜索深度和速度都有明显瓶颈。现代CPU普遍采用多核设计，但简单地将任务分配给多个核心并非易事：

负载均衡：如何将搜索任务均匀分配给不同核心，避免部分核心过载而其他核心闲置
数据共享：搜索过程中产生的局面评估结果需要在核心间高效共享
资源竞争：多个核心同时访问共享数据结构时可能产生冲突和等待
NUMA架构：多CPU系统中，不同核心访问内存的速度存在差异

Stockfish通过精心设计的线程池架构和搜索算法，成功解决了这些挑战，实现了接近线性的多核加速比。

ThreadPool：Stockfish的多核指挥中心

Stockfish的多核管理核心位于src/thread.h和src/thread.cpp文件中。ThreadPool类负责创建、销毁和协调线程，确保计算资源的高效利用。

线程的生命周期管理

Stockfish的线程遵循"创建-休眠-唤醒-执行-休眠"的循环模式：

// Thread类的idle_loop函数，线程在这里等待任务
void Thread::idle_loop() {
    while (true)
    {
        std::unique_lock<std::mutex> lk(mutex);
        searching = false;
        cv.notify_one();  // 通知等待者搜索已完成
        cv.wait(lk, [&] { return searching; });  // 等待新任务

        if (exit)
            return;

        std::function<void()> job = std::move(jobFunc);
        jobFunc                   = nullptr;

        lk.unlock();

        if (job)
            job();  // 执行任务
    }
}

这种设计确保线程在没有任务时处于休眠状态，不会浪费CPU资源；而当需要搜索时，主线程可以快速唤醒所有工作线程。

动态线程调整

ThreadPool能够根据配置动态调整线程数量，适应不同的硬件环境：

// 创建或销毁线程以匹配请求数量
void ThreadPool::set(const NumaConfig&                           numaConfig,
                     Search::SharedState                         sharedState,
                     const Search::SearchManager::UpdateContext& updateContext) {
    if (threads.size() > 0)  // 销毁现有线程
    {
        main_thread()->wait_for_search_finished();
        threads.clear();
        boundThreadToNumaNode.clear();
    }

    const size_t requested = sharedState.options["Threads"];
    
    // 创建新线程
    while (threads.size() < requested)
    {
        // ... 线程创建代码 ...
    }
}

用户可以通过UCI命令setoption name Threads value N来设置线程数量，通常建议设置为CPU的物理核心数。

NUMA架构优化：让内存访问更高效

现代多CPU系统通常采用NUMA（非统一内存访问）架构，不同CPU访问不同区域内存的速度存在差异。Stockfish通过src/numa.h中的NUMA配置类，优化内存访问模式。

NUMA节点感知的线程绑定

Stockfish能够检测系统的NUMA拓扑，并将线程绑定到特定的NUMA节点：

// 线程创建时的NUMA绑定
auto binder = doBindThreads ? OptionalThreadToNumaNodeBinder(numaConfig, numaId)
                            : OptionalThreadToNumaNodeBinder(numaId);

threads.emplace_back(
  std::make_unique<Thread>(sharedState, std::move(manager), threadId, binder));

这种绑定确保线程优先访问本地NUMA节点的内存，减少远程内存访问带来的延迟。

NUMA节点的自动检测

NumaConfig类能够自动检测系统的NUMA配置：

// 从系统获取NUMA配置
static NumaConfig from_system([[maybe_unused]] bool respectProcessAffinity = true) {
    NumaConfig cfg = empty();
    
    // ... 系统相关的NUMA检测代码 ...
    
    return cfg;
}

在Linux系统上，它通过读取/sys/devices/system/node/下的文件获取NUMA信息；在Windows系统上，则使用GetNumaProcessorNodeEx等API函数。

并行搜索算法：让每个核心都有事情做

Stockfish采用了改进的PVS（Principal Variation Search）算法，结合高效的线程同步机制，实现了搜索任务的并行化。

根节点分裂与工作分配

Stockfish将根节点的可能走法分配给不同的线程，每个线程负责搜索一部分走法：

// 根节点走法生成与分配
for (const auto& uciMove : limits.searchmoves)
{
    auto move = UCIEngine::to_move(pos, uciMove);
    if (std::find(legalmoves.begin(), legalmoves.end(), move) != legalmoves.end())
        rootMoves.emplace_back(move);
}

// 将根节点状态复制到所有线程
for (auto&& th : threads)
{
    th->run_custom_job([&]() {
        th->worker->limits = limits;
        th->worker->rootMoves = rootMoves;
        // ... 其他初始化代码 ...
    });
}

结果综合与最佳走法选择

搜索完成后，ThreadPool需要综合所有线程的结果，选择最佳走法：

// 获取表现最佳的线程
Thread* ThreadPool::get_best_thread() const {
    Thread* bestThread = threads.front().get();
    Value   minScore   = VALUE_NONE;
    
    // ... 投票和评分代码 ...
    
    return bestThread;
}

这个过程考虑了各线程的搜索深度、评分和走法稳定性，确保选择最可靠的最佳走法。

实战配置指南：释放你的CPU潜能

要充分利用Stockfish的多核优化能力，需要根据你的硬件配置进行适当调整：

线程数量设置

CPU类型	建议线程数	理由
4核8线程（如i7）	4	超线程对搜索效率提升有限
8核8线程（如i9）	8	全核心负载可获得最佳性能
16核32线程（如Ryzen 9）	16	优先使用物理核心
多CPU服务器	物理核心总数	考虑NUMA节点分布

你可以通过UCI命令设置线程数：

setoption name Threads value 8

NUMA策略配置

对于高端工作站和服务器用户，可以通过设置NUMA策略进一步优化：

setoption name NumaPolicy value auto

Stockfish提供三种NUMA策略：

none：禁用NUMA优化
auto：自动检测并应用NUMA优化
system：使用系统级NUMA配置

性能对比：多核优化带来的棋力提升

多核优化究竟能带来多大的性能提升？以下是在不同线程数下的搜索速度对比：

线程数	节点/秒	相对速度	搜索深度（60秒）
1	1,200,000	1.0x	22
2	2,300,000	1.9x	24
4	4,500,000	3.7x	26
8	8,800,000	7.3x	28
16	16,500,000	13.7x	30

数据显示，随着线程数增加，搜索速度接近线性增长，使Stockfish能够在相同时间内搜索更深的深度，发现更多微妙的棋步。

结语：多核优化的艺术与科学

Stockfish的多核优化是计算机科学与国际象棋AI的完美结合。通过ThreadPool的精细管理、NUMA架构的深度适配和并行搜索算法的巧妙设计，Stockfish能够充分利用现代CPU的多核性能，为用户提供更强大的对弈体验。

无论是业余爱好者还是专业棋手，都能从这些优化中受益——更快的思考速度、更深的搜索深度和更强的棋力。随着CPU核心数的不断增加，Stockfish的多核优化技术将继续演进，推动国际象棋AI的边界不断拓展。

要体验这些优化带来的强大棋力，你可以从仓库获取最新版本的Stockfish：

git clone https://gitcode.com/gh_mirrors/st/Stockfish
cd Stockfish/src
make -j build ARCH=x86-64-modern

编译完成后，通过UCI接口设置合适的线程数，即可让Stockfish发挥出你电脑的全部潜能！

Stockfish

A free and strong UCI chess engine

项目地址：https://gitcode.com/gh_mirrors/st/Stockfish

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

347

193

agent-studio

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

1.12 K

265

突破单核瓶颈：Stockfish如何用多核优化实现棋力飞跃

多核优化的核心挑战

ThreadPool：Stockfish的多核指挥中心

线程的生命周期管理

动态线程调整

NUMA架构优化：让内存访问更高效

NUMA节点感知的线程绑定

NUMA节点的自动检测

并行搜索算法：让每个核心都有事情做

根节点分裂与工作分配

结果综合与最佳走法选择

实战配置指南：释放你的CPU潜能

线程数量设置

NUMA策略配置

性能对比：多核优化带来的棋力提升

结语：多核优化的艺术与科学

热门内容推荐

最新内容推荐

项目优选

突破单核瓶颈：Stockfish如何用多核优化实现棋力飞跃

多核优化的核心挑战

ThreadPool：Stockfish的多核指挥中心

线程的生命周期管理

动态线程调整

NUMA架构优化：让内存访问更高效

NUMA节点感知的线程绑定

NUMA节点的自动检测

并行搜索算法：让每个核心都有事情做

根节点分裂与工作分配

结果综合与最佳走法选择

实战配置指南：释放你的CPU潜能

线程数量设置

NUMA策略配置

性能对比：多核优化带来的棋力提升

结语：多核优化的艺术与科学

相关内容推荐

热门内容推荐

最新内容推荐

项目优选