Apache Doris 安装与运维常见问题解析

2025-06-27 22:27:49作者：翟萌耘Ralph

一、BE节点下线问题处理

在Doris集群中，当使用DECOMMISSION命令下线BE节点时，可能会遇到部分tablet无法完全迁移的情况。这通常由以下两种原因导致：

回收站对象影响：被删除的表、分区或物化视图的tablet会暂时保留在回收站中，这些tablet不会被下线逻辑处理。可通过调整FE配置参数catalog_trash_expire_second来控制回收站保留时间。
迁移任务异常：使用show proc "/cluster_balance"命令查看具体任务错误信息。建议先通过show proc "/cluster_health/tablet_health"检查集群是否存在不健康副本。

解决方案：

确认无健康问题后，可直接使用drop backend语句强制删除BE节点
对于重要数据，建议先修复不健康副本再操作

二、网络优先级配置详解

priority_network是FE和BE的核心网络配置参数，用于在多网卡环境下明确指定服务使用的IP地址。该参数采用CIDR格式表示：

格式说明：IP地址/前缀长度，如10.168.1.0/24
最佳实践：
- 生产环境必须显式配置
- 建议集群内所有节点使用统一CIDR范围
- 示例：节点IP为10.168.10.1和10.168.10.2时，可配置为10.168.10.0/24

三、FE节点角色解析

Doris的FE节点分为两种核心角色：

角色类型	选举参与	元数据写入	读服务	典型部署方案
Follower	参与	参与多数派写入	提供	3节点组成选举组
Observer	不参与	不参与	提供	可水平扩展

部署建议：

小型集群：1 Follower + 2 Observer
生产集群：3 Follower + N Observer（保证高可用）
查询密集型：可增加Observer节点提升读性能

四、磁盘扩容与数据平衡

当BE节点新增磁盘后，数据不会自动平衡到新磁盘，这是因为：

平衡策略限制：Doris当前仅支持节点级平衡，不支持单节点内磁盘级平衡
负载计算方式：基于节点整体负载评估，新增磁盘不改变节点负载指标

解决方案：

新建表迁移法（适合小数据量）

CREATE TABLE new_table LIKE old_table;
INSERT INTO new_table SELECT * FROM old_table;

Decommission重平衡法

ADMIN SET FRONTEND CONFIG("drop_backend_after_decommission" = "false");
ALTER SYSTEM DECOMMISSION BACKEND "be_host:port";
-- 等待完成后取消
ALTER SYSTEM CANCEL DECOMMISSION BACKEND "be_host:port";

API手动迁移（需调用Doris HTTP接口）

五、日志分析指南

FE日志体系

fe.log：主日志，包含INFO及以上级别
fe.warn.log：仅WARN和ERROR级别
fe.out：标准/错误输出
fe.audit.log：SQL审计日志

典型日志格式： 2021-09-16 23:13:22,502 INFO (tablet scheduler|43) [BeLoadRebalancer.selectAlternativeTabletsForCluster():85] cluster is balance...

BE日志体系

be.INFO：主日志（软链接指向最新文件）
be.WARNING：告警日志
be.out：进程输出

典型日志格式： I0916 23:21:22.038795 28087 task_worker_pool.cpp:1594] finish report TASK...

六、节点宕机排查

BE进程异常

检查be.out获取错误堆栈
执行dmesg -T查看系统日志（OOM常见）
查找be.INFO中以F开头的FATAL日志

FE进程异常

检查fe.log和fe.out中的Java异常堆栈
重点关注OOM和元数据写入失败相关日志

七、存储介质配置要点

Doris支持通过目录后缀指定存储介质类型：

/path/to/data1.SSD：标识为SSD介质
/path/to/data2：默认HDD介质

常见问题：

错误：Failed to find enough host with storage medium and tag
原因：BE配置介质类型与建表指定的storage_medium属性不匹配
解决方案：
- 统一集群介质类型时建议不显式配置后缀
- 需要冷热数据分离时才配置不同介质类型

八、高可用Web访问方案

使用Nginx实现FE Web UI负载均衡时，需配置ip_hash保持会话：

upstream doris_fe {
    server 172.22.197.238:8030;
    server 172.22.197.239:8030;
    server 172.22.197.240:8030;
    ip_hash;
}

九、FE启动失败排查

现象：日志持续输出"wait catalog to be ready. FE type UNKNOWN"

可能原因：

IP地址变化（未正确配置priority_network）
选举组节点不足（如3 Follower仅启动1个）

解决方案：

检查并固定网络配置
确保多数派Follower节点在线
极端情况下需进行元数据恢复操作

十、BDBJE元数据异常

典型错误： recoveryTracker should overlap or follow on disk last VLSN...

处理方案：这是BDBJE的已知问题，需按照元数据恢复流程操作。建议在维护窗口期进行FE节点重启，避免同时停止过多Follower节点。

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

456

438

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。