监控运维

统一消息平台的成功落地，离不开可观测性与标准化运维。本页给出 FlowMQ Enterprise 的通用监控运维建议。

监控目标

可用性：协议入口可用、管理面可用、路由可用
性能：吞吐、延迟（平均与 P99）、积压、重试
成本：对象存储读写、请求次数、保留窗口
租户治理：各 Namespace 的资源使用、配额与超限

建议观测指标

1) 协议层

MQTT：连接数、订阅数、发布速率、断连/重连、认证失败
Kafka：produce/consume 速率、consumer lag、错误率
AMQP：channel/queue 相关核心指标

2) 路由与主题

统一主题的写入/读取吞吐
路由命中率、路由失败原因
积压与回放读取速率

3) 端到端延迟

建议至少区分：

发布延迟（publish latency）
端到端延迟（publish → consume）

并按业务重要性分层告警（例如 P99 超过阈值）。

4) 对象存储

PUT/GET 请求数与失败率
带宽与费用趋势
生命周期策略是否按预期执行

运维建议

容量管理：无状态 Broker 可按吞吐与连接数弹性扩缩容；配合配额防止单租户挤占
变更管理：主题、ACL、配额变更建议审计与审批
故障演练：模拟 Broker 节点故障、对象存储短暂抖动、边缘断网等场景

排障思路（简要）

从业务现象定位到 Namespace/统一主题
查看协议层错误与认证状态
查看路由失败、积压与延迟
核对对象存储错误与限流
必要时启用更细粒度日志/采样