Bisheng企业级高可用部署指南：从架构设计到运维实践

2026-04-05 09:40:45作者：昌雅子Ethen

BISHENG is an open LLM devops platform for next generation Enterprise AI applications. Powerful and comprehensive features include: GenAI workflow, RAG, Agent, Unified model management, Evaluation, SFT, Dataset Management, Enterprise-level System Management, Observability and more.

项目地址：https://gitcode.com/GitHub_Trending/bi/bisheng

核心价值：构建企业级LLM平台的可靠性基石

在AI驱动业务的时代，LLM平台的稳定性直接决定业务连续性。Bisheng作为开源LLM应用开发运维平台，其高可用部署方案解决了企业级应用落地的三大核心挑战：服务中断导致的业务损失、数据丢失风险以及流量波动应对能力。本指南将系统阐述如何通过多层级架构设计、冗余部署策略和智能运维体系，构建一个满足企业级要求的高可用Bisheng平台。

架构解析：构建多层防御体系

企业级架构的设计哲学

高可用架构的核心在于"故障隔离"与"快速恢复"的双重设计。Bisheng采用分层防御策略，通过前端负载均衡、后端服务集群、数据层冗余和存储多副本四个层级，确保单点故障不会引发系统级瘫痪。这种架构设计遵循"防御纵深"原则，每个层级既独立承担可用性责任，又与其他层级协同形成整体韧性。

关键组件的高可用设计

前端层：流量入口的可靠性保障

前端层作为用户交互的第一触点，其高可用设计直接影响用户体验。Bisheng通过Nginx实现反向代理和负载均衡，将用户请求智能分发到多个后端实例。核心配置包括：

upstream backend_servers {
    server backend_1:7860 weight=5 max_fails=3 fail_timeout=30s;
    server backend_2:7860 weight=5 max_fails=3 fail_timeout=30s;
    server backend_3:7860 backup;
}

此配置解决三大问题：请求均匀分发避免单点过载、自动剔除故障节点、备份实例确保极端情况下的服务连续性。

应用层：无状态服务的弹性扩展

后端服务采用无状态设计，支持水平扩展。API服务和Worker服务分离部署，各自独立扩展：

backend:
  deploy:
    replicas: 3
    resources:
      limits:
        cpus: '4'
        memory: 8G
      reservations:
        cpus: '2'
        memory: 4G

backend_worker:
  deploy:
    replicas: 2
    resources:
      limits:
        cpus: '8'
        memory: 16G
      reservations:
        cpus: '4'
        memory: 8G

无状态设计使服务实例可以随时增减，解决流量波动应对和故障实例替换问题。资源限制设置确保服务间资源隔离，避免相互影响。

数据层：确保数据持久性与一致性

数据层采用"主从复制+持久化"双重保障：

MySQL主从架构：主库负责写操作，从库提供读服务，实现读写分离和故障自动切换
Redis哨兵模式：监控主从节点，自动进行故障转移
向量数据库Milvus：采用分布式部署，分片存储确保数据可靠性

核心配置示例（MySQL）：

mysql:
  healthcheck:
    test: ["CMD-SHELL", "mysqladmin ping -h localhost -u$$MYSQL_USER -p$$MYSQL_PASSWORD"]
    interval: 10s
    timeout: 5s
    retries: 5
  environment:
    - MYSQL_REPLICATION_MODE=master
    - MYSQL_REPLICATION_USER=repl_user
    - MYSQL_REPLICATION_PASSWORD=repl_password

这种配置解决数据单点故障问题，同时通过健康检查实现故障自动发现。

存储层：对象存储的多副本策略

MinIO对象存储采用多节点部署，每个对象默认保存3个副本：

minio:
  environment:
    - MINIO_REPLICATION_FACTOR=3
  volumes:
    - minio_data1:/data1
    - minio_data2:/data2
    - minio_data3:/data3

多副本策略确保单个节点故障不会导致数据丢失，解决存储层的单点风险。

工作流处理的高可用设计

Bisheng的工作流处理采用分布式任务队列和状态持久化机制，确保任务执行的可靠性。

如图所示，工作流执行过程中通过session ID跟踪状态，即使某个worker节点故障，其他节点也能基于持久化的状态信息继续处理，解决任务执行中断问题。

实施步骤：从零搭建企业级高可用集群

环境准备与规划

根据业务规模需求，Bisheng提供三级硬件配置方案：

基础配置（适合开发测试）

CPU：4核
内存：16GB
存储：200GB SSD
节点数量：1

推荐配置（适合中小型生产环境）

CPU：16核
内存：32GB
存储：500GB SSD
节点数量：2-3

企业级配置（适合大规模生产环境）

CPU：24核+
内存：64GB+
存储：1TB+ SSD
节点数量：4+

环境依赖检查：

# 检查Docker版本
docker --version | grep "19.03.9+" || echo "Docker版本不足"

# 检查Docker Compose版本
docker-compose --version | grep "1.25.1+" || echo "Docker Compose版本不足"

# 检查系统资源
free -h | awk '/Mem/ {if($2 < "16G") print "内存不足"}'
grep -c ^processor /proc/cpuinfo | awk '{if($1 < 4) print "CPU核心不足"}'

部署流程与配置

1. 获取项目代码

git clone https://gitcode.com/GitHub_Trending/bi/bisheng
cd bisheng/docker

2. 配置高可用参数

编辑docker/bisheng/config/config.yaml文件，重点配置以下参数：

# 数据库连接配置
database:
  url: mysql+pymysql://user:password@mysql:3306/bisheng?charset=utf8mb4
  pool_size: 20
  max_overflow: 10

# 缓存配置
redis:
  url: redis://redis-sentinel:26379/0
  sentinel_master: mymaster
  sentinel_nodes:
    - redis-sentinel-1:26379
    - redis-sentinel-2:26379

# 服务发现配置
service_discovery:
  enabled: true
  refresh_interval: 30s

这些配置解决分布式环境下的服务发现、连接池管理和高可用缓存访问问题。

3. 启动高可用集群

# 使用生产环境配置文件启动
docker compose -f docker-compose-ft.yml -p bisheng up -d

# 扩展API服务实例
docker compose -f docker-compose-ft.yml -p bisheng up -d --scale backend=3

# 扩展Worker服务实例
docker compose -f docker-compose-ft.yml -p bisheng up -d --scale backend_worker=2

4. 环境验证与故障排查

部署完成后进行全面验证：

# 检查所有服务状态
docker compose -f docker-compose-ft.yml -p bisheng ps

# 检查API服务健康状态
curl http://localhost:7860/health | jq .status

# 检查数据库主从复制状态
docker exec -it bisheng_mysql_1 mysql -u root -p$MYSQL_ROOT_PASSWORD -e "show slave status\G" | grep "Slave_IO_Running: Yes"

# 检查Redis哨兵状态
docker exec -it bisheng_redis-sentinel_1 redis-cli -p 26379 sentinel master mymaster

常见故障排查：

服务启动失败：检查日志docker logs <container_id>，通常是配置错误或资源不足
数据库连接失败：验证网络连通性docker exec -it bisheng_backend_1 ping mysql
负载均衡异常：检查Nginx配置和后端服务健康状态

运维保障：构建全生命周期可靠性体系

监控体系建设

建立多层次监控体系，覆盖基础设施、应用服务和业务指标：

基础设施监控：CPU、内存、磁盘I/O使用率，网络吞吐量
应用性能监控：API响应时间、错误率、并发请求数
数据库监控：查询性能、连接数、主从同步延迟
业务指标监控：工作流执行成功率、任务处理时长、用户活跃数

关键监控指标配置示例（Prometheus）：

groups:
- name: bisheng
  rules:
  - alert: HighCpuUsage
    expr: avg(rate(container_cpu_usage_seconds_total{name=~"bisheng.*"}[5m])) by (name) > 0.8
    for: 3m
    labels:
      severity: warning
    annotations:
      summary: "High CPU usage detected"
      description: "Service {{ $labels.name }} has high CPU usage ({{ $value }})"

数据备份与恢复策略

实施分层备份策略，确保数据安全：

数据库备份

# 每日全量备份
mysqldump -u root -p$MYSQL_ROOT_PASSWORD bisheng > /backup/bisheng_$(date +%Y%m%d).sql

# 启用binlog实现增量备份

配置文件备份

# 定期备份配置目录
tar -czf /backup/config_$(date +%Y%m%d).tar.gz docker/bisheng/config/

数据恢复演练 每季度进行一次恢复演练，验证备份有效性：

# 测试恢复流程
mysql -u root -p$MYSQL_ROOT_PASSWORD test < /backup/bisheng_20230101.sql

安全加固措施

企业级部署必须实施全面的安全防护：

网络隔离

# Docker网络配置
networks:
  frontend:
    driver: bridge
  backend:
    internal: true
  database:
    internal: true

访问控制

# Nginx访问限制
location /api/admin {
    allow 192.168.1.0/24;
    deny all;
}

敏感信息保护

# 使用Docker Secrets管理敏感信息
echo "mysql_password" | docker secret create mysql_password -

性能优化实践

针对企业级负载特点，进行针对性优化：

JVM优化

# 设置合理的JVM参数
JAVA_OPTS="-Xms4G -Xmx8G -XX:+UseG1GC -XX:MaxGCPauseMillis=200"

数据库优化

-- 添加必要索引
CREATE INDEX idx_workflow_status ON workflow(status, create_time);

-- 优化连接池
SET GLOBAL max_connections = 500;

缓存策略优化

# 设置合理的缓存过期时间
redis_client.setex("cache_key", 3600, "value")  # 1小时过期

高可用成熟度评估：企业级部署自检清单

以下清单帮助您评估Bisheng部署的高可用成熟度，每完成一项可获得相应分数，总分100分：

架构设计（25分）

[ ] 实现前端负载均衡（5分）
[ ] 后端服务多实例部署（5分）
[ ] 数据库主从架构（5分）
[ ] 缓存服务高可用配置（5分）
[ ] 存储服务多副本配置（5分）

部署实施（25分）

[ ] 采用企业级硬件配置（5分）
[ ] 完成环境验证测试（5分）
[ ] 实现服务自动扩缩容（5分）
[ ] 配置健康检查机制（5分）
[ ] 建立部署回滚机制（5分）

监控运维（25分）

[ ] 部署基础设施监控（5分）
[ ] 实现应用性能监控（5分）
[ ] 配置关键指标告警（5分）
[ ] 建立定期备份策略（5分）
[ ] 实施安全加固措施（5分）

故障应对（25分）

[ ] 制定故障应急预案（5分）
[ ] 定期进行故障演练（5分）
[ ] 实现数据快速恢复流程（5分）
[ ] 建立服务降级机制（5分）
[ ] 配置自动故障转移（5分）

评估结果参考：

90-100分：企业级高可用部署，具备完善的可靠性保障
70-89分：良好的高可用配置，需优化部分环节
50-69分：基础可用配置，存在明显单点风险
50分以下：部署架构存在严重可靠性隐患

通过本指南的实施，您可以构建一个满足企业级要求的高可用Bisheng平台。记住，高可用是一个持续优化的过程，需要根据业务发展和技术演进不断调整和完善。

bisheng

项目地址：https://gitcode.com/GitHub_Trending/bi/bisheng

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

1.1 K

611

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Bisheng企业级高可用部署指南：从架构设计到运维实践

核心价值：构建企业级LLM平台的可靠性基石

架构解析：构建多层防御体系

企业级架构的设计哲学

关键组件的高可用设计

前端层：流量入口的可靠性保障

应用层：无状态服务的弹性扩展

数据层：确保数据持久性与一致性

存储层：对象存储的多副本策略

工作流处理的高可用设计

实施步骤：从零搭建企业级高可用集群

环境准备与规划

部署流程与配置

1. 获取项目代码

2. 配置高可用参数

3. 启动高可用集群

4. 环境验证与故障排查

运维保障：构建全生命周期可靠性体系

监控体系建设

数据备份与恢复策略

安全加固措施

性能优化实践

高可用成熟度评估：企业级部署自检清单

架构设计（25分）

部署实施（25分）

监控运维（25分）

故障应对（25分）

热门内容推荐

最新内容推荐

项目优选

Bisheng企业级高可用部署指南：从架构设计到运维实践

核心价值：构建企业级LLM平台的可靠性基石

架构解析：构建多层防御体系

企业级架构的设计哲学

关键组件的高可用设计

前端层：流量入口的可靠性保障

应用层：无状态服务的弹性扩展

数据层：确保数据持久性与一致性

存储层：对象存储的多副本策略

工作流处理的高可用设计

实施步骤：从零搭建企业级高可用集群

环境准备与规划

部署流程与配置

1. 获取项目代码

2. 配置高可用参数

3. 启动高可用集群

4. 环境验证与故障排查

运维保障：构建全生命周期可靠性体系

监控体系建设

数据备份与恢复策略

安全加固措施

性能优化实践

高可用成熟度评估：企业级部署自检清单

架构设计（25分）

部署实施（25分）

监控运维（25分）

故障应对（25分）

相关内容推荐

热门内容推荐

最新内容推荐

项目优选