LitServe项目中Prometheus监控集成的最佳实践
2025-06-26 00:45:48作者:侯霆垣
概述
在LitServe项目中实现有效的性能监控是确保服务稳定运行的关键环节。本文将详细介绍如何在LitServe框架中正确集成Prometheus监控系统,解决常见的多进程指标收集问题,并提供完整的实现方案。
多进程环境下的Prometheus集成挑战
LitServe作为高性能服务框架,默认采用多进程架构来处理请求。这种架构给Prometheus监控带来了特殊挑战:
- 指标收集问题:传统单进程Prometheus客户端无法跨进程收集指标
- 序列化警告:直接使用Prometheus客户端会收到不可序列化警告
- 中间件兼容性:需要确保HTTP监控中间件与多进程架构协同工作
完整解决方案实现
1. 配置多进程指标收集
首先需要设置Prometheus的多进程模式环境变量,并创建专用的指标存储目录:
import os
from prometheus_client import CollectorRegistry, multiprocess
# 设置多进程指标存储目录
os.environ["PROMETHEUS_MULTIPROC_DIR"] = "/tmp/prometheus_multiproc_dir"
# 确保目录存在
if not os.path.exists("/tmp/prometheus_multiproc_dir"):
os.makedirs("/tmp/prometheus_multiproc_dir")
# 创建多进程注册表
registry = CollectorRegistry()
multiprocess.MultiProcessCollector(registry)
2. 实现Prometheus日志记录器
创建自定义的PrometheusLogger类,继承自LitServe的Logger基类:
from prometheus_client import Histogram
import litserve as ls
class PrometheusLogger(ls.Logger):
def __init__(self):
super().__init__()
# 使用多进程注册表创建直方图指标
self.function_duration = Histogram(
"request_processing_seconds",
"Time spent processing request",
["function_name"],
registry=registry
)
def process(self, key, value):
# 记录方法执行时间
self.function_duration.labels(function_name=key).observe(value)
3. 实现HTTP监控中间件
对于HTTP请求的监控,需要同样使用多进程注册表:
from fastapi import Request
from starlette.middleware.base import BaseHTTPMiddleware
HTTP_REQUEST_LATENCY = Histogram(
"http_server_requests_duration_seconds_total",
"HTTP request latency in seconds",
["endpoint", "status_code", "method"],
registry=registry
)
class HTTPLatencyMiddleware(BaseHTTPMiddleware):
async def dispatch(self, request: Request, call_next):
method = request.method
endpoint = os.path.normpath(request.url.path)
status_code = 200
start_time = time.perf_counter()
try:
response = await call_next(request)
status_code = response.status_code
return response
finally:
duration = time.perf_counter() - start_time
HTTP_REQUEST_LATENCY.labels(
method=method,
endpoint=endpoint,
status_code=status_code
).observe(duration)
4. 服务启动配置
在启动LitServe服务时,需要正确配置日志记录器和中间件:
if __name__ == "__main__":
prometheus_logger = PrometheusLogger()
# 注意禁用压缩以避免指标数据被二次压缩
prometheus_app = make_asgi_app(registry=registry, disable_compression=True)
prometheus_logger.mount(path="/metrics", app=prometheus_app)
server = ls.LitServer(
YourLitAPI(),
loggers=prometheus_logger,
middlewares=[HTTPLatencyMiddleware]
)
server.run(port=8000)
关键注意事项
-
压缩问题:由于LitServe默认启用GZip中间件,必须为Prometheus ASGI应用设置
disable_compression=True,避免指标数据被二次压缩导致监控系统无法解析。 -
序列化警告:可以安全忽略"Logger PrometheusLogger is not picklable"警告,LitServe会自动处理不可序列化对象的重建。
-
指标目录权限:确保Prometheus多进程目录对所有工作进程可写。
-
指标清理:服务重启前应清理旧的指标文件,避免残留数据影响监控准确性。
监控指标解读
成功集成后,可以在/metrics端点看到两类关键指标:
-
HTTP请求指标:
- 请求延迟分布(直方图)
- 按端点、状态码和方法分类的统计
-
业务方法指标:
- 自定义方法的执行时间
- 可按方法名称标签过滤
总结
通过正确配置多进程注册表和注意压缩设置,可以在LitServe中实现完整的Prometheus监控方案。这种集成不仅提供了服务级别的性能监控,还能跟踪具体业务方法的执行效率,为性能优化提供数据支持。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0153- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
LongCat-Video-Avatar-1.5最新开源LongCat-Video-Avatar 1.5 版本,这是一款经过升级的开源框架,专注于音频驱动人物视频生成的极致实证优化与生产级就绪能力。该版本在 LongCat-Video 基础模型之上构建,可生成高度稳定的商用级虚拟人视频,支持音频-文本转视频(AT2V)、音频-文本-图像转视频(ATI2V)以及视频续播等原生任务,并能无缝兼容单流与多流音频输入。00
auto-devAutoDev 是一个 AI 驱动的辅助编程插件。AutoDev 支持一键生成测试、代码、提交信息等,还能够与您的需求管理系统(例如Jira、Trello、Github Issue 等)直接对接。 在IDE 中,您只需简单点击,AutoDev 会根据您的需求自动为您生成代码。Kotlin03
Intern-S2-PreviewIntern-S2-Preview,这是一款高效的350亿参数科学多模态基础模型。除了常规的参数与数据规模扩展外,Intern-S2-Preview探索了任务扩展:通过提升科学任务的难度、多样性与覆盖范围,进一步释放模型能力。Python00
skillhubopenJiuwen 生态的 Skill 托管与分发开源方案,支持自建与可选 ClawHub 兼容。Python0112
热门内容推荐
最新内容推荐
项目优选
收起
暂无描述
Dockerfile
733
4.75 K
deepin linux kernel
C
31
16
Ascend Extension for PyTorch
Python
651
797
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
1.25 K
153
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.1 K
611
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.01 K
1.01 K
华为昇腾面向大规模分布式训练的多模态大模型套件,支撑多模态生成、多模态理解。
Python
147
237
昇腾LLM分布式训练框架
Python
168
200
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
434
395
暂无简介
Dart
986
253