Skip to content

监控运维

统一消息平台的成功落地,离不开可观测性与标准化运维。本页给出 FlowMQ Enterprise 的通用监控运维建议。

监控目标

  • 可用性:协议入口可用、管理面可用、路由可用
  • 性能:吞吐、延迟(平均与 P99)、积压、重试
  • 成本:对象存储读写、请求次数、保留窗口
  • 租户治理:各 Namespace 的资源使用、配额与超限

建议观测指标

1) 协议层

  • MQTT:连接数、订阅数、发布速率、断连/重连、认证失败
  • Kafka:produce/consume 速率、consumer lag、错误率
  • AMQP:channel/queue 相关核心指标

2) 路由与主题

  • 统一主题的写入/读取吞吐
  • 路由命中率、路由失败原因
  • 积压与回放读取速率

3) 端到端延迟

建议至少区分:

  • 发布延迟(publish latency)
  • 端到端延迟(publish → consume)

并按业务重要性分层告警(例如 P99 超过阈值)。

4) 对象存储

  • PUT/GET 请求数与失败率
  • 带宽与费用趋势
  • 生命周期策略是否按预期执行

运维建议

  • 容量管理:无状态 Broker 可按吞吐与连接数弹性扩缩容;配合配额防止单租户挤占
  • 变更管理:主题、ACL、配额变更建议审计与审批
  • 故障演练:模拟 Broker 节点故障、对象存储短暂抖动、边缘断网等场景

排障思路(简要)

  1. 从业务现象定位到 Namespace/统一主题
  2. 查看协议层错误与认证状态
  3. 查看路由失败、积压与延迟
  4. 核对对象存储错误与限流
  5. 必要时启用更细粒度日志/采样

FlowMQ Enterprise(企业版)