监控运维
统一消息平台的成功落地,离不开可观测性与标准化运维。本页给出 FlowMQ Enterprise 的通用监控运维建议。
监控目标
- 可用性:协议入口可用、管理面可用、路由可用
- 性能:吞吐、延迟(平均与 P99)、积压、重试
- 成本:对象存储读写、请求次数、保留窗口
- 租户治理:各 Namespace 的资源使用、配额与超限
建议观测指标
1) 协议层
- MQTT:连接数、订阅数、发布速率、断连/重连、认证失败
- Kafka:produce/consume 速率、consumer lag、错误率
- AMQP:channel/queue 相关核心指标
2) 路由与主题
- 统一主题的写入/读取吞吐
- 路由命中率、路由失败原因
- 积压与回放读取速率
3) 端到端延迟
建议至少区分:
- 发布延迟(publish latency)
- 端到端延迟(publish → consume)
并按业务重要性分层告警(例如 P99 超过阈值)。
4) 对象存储
- PUT/GET 请求数与失败率
- 带宽与费用趋势
- 生命周期策略是否按预期执行
运维建议
- 容量管理:无状态 Broker 可按吞吐与连接数弹性扩缩容;配合配额防止单租户挤占
- 变更管理:主题、ACL、配额变更建议审计与审批
- 故障演练:模拟 Broker 节点故障、对象存储短暂抖动、边缘断网等场景
排障思路(简要)
- 从业务现象定位到 Namespace/统一主题
- 查看协议层错误与认证状态
- 查看路由失败、积压与延迟
- 核对对象存储错误与限流
- 必要时启用更细粒度日志/采样