Medplum项目中Bot监控与故障仪表盘的设计与实现

2025-07-10 23:41:22作者：凤尚柏Louis

在医疗健康领域的系统集成中，自动化机器人(Bot)的稳定运行至关重要。Medplum项目团队近期针对Bot监控需求提出了一个创新性的解决方案，通过Cloudwatch仪表盘实现对Bot运行状态的实时监控和故障可视化。

背景与需求

在医疗系统集成场景中，Bot负责处理各种自动化任务，如数据同步、消息收发等。由于医疗数据的敏感性，任何异常都需要被及时发现和处理。传统监控方式存在两个主要问题：

无法区分临时性错误（如并发冲突导致的读写依赖错误）和真正需要关注的故障
缺乏直观的可视化界面展示Bot的运行状态和历史故障趋势

技术实现方案

团队采用AWS Cloudwatch作为监控平台，设计了专门的日志查询和分析方案。核心思路是通过筛选AuditEvent资源，结合特定过滤条件，实现对不同Bot运行状态的精准监控。

关键过滤条件

实现中特别考虑了医疗系统集成的特点：

通过resourceType='AuditEvent'限定只查询审计事件
使用meta.project='<project-id>'限定特定项目范围
通过entity.0.what.reference like /Bot/筛选Bot相关事件
使用outcomeDesc not like 'read/write dependencies'排除可自动恢复的临时性错误

监控指标设计

针对不同类型的Bot，设计了独立的错误计数指标：

资源同步Bot的错误计数（sync_resources_error）
消息接收Bot的错误计数（receive_error）
消息发送Bot的错误计数（send_error）

这些指标按60分钟时间间隔(bin(60m))进行聚合，便于观察错误趋势变化。

实施价值

该方案为医疗系统集成带来了显著改进：

精准告警：避免了临时性错误导致的误报警，让运维团队专注于真正需要处理的问题
趋势分析：通过时间维度聚合数据，可以识别错误发生的周期性模式
责任明确：不同Bot的错误分开统计，便于快速定位问题组件
审计追踪：保留完整的审计日志，满足医疗行业的合规性要求

最佳实践建议

基于Medplum项目的实施经验，对于类似医疗系统集成场景，建议：

根据业务重要性对Bot进行分类，设置不同的监控阈值
针对可自动恢复的错误类型建立知识库，减少不必要的告警
定期审查监控规则，随着业务发展调整过滤条件
考虑将关键指标与现有的运维告警系统集成

这种监控方案不仅适用于医疗健康领域，也可推广到其他需要高可靠性系统集成的行业，为自动化流程提供可靠的质量保障。

medplum

Medplum is a healthcare platform that helps you quickly develop high-quality compliant applications.

项目地址：https://gitcode.com/GitHub_Trending/me/medplum

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781