PERF 7: 如何监控资源以确保其性能?
系统性能会随着时间的推移而降低。监控系统性能,以发现性能降低的情况,并针对内部或外部因素(例如操作系统或应用程序负载)采取修复措施。
资源
Cut through the chaos: Gain operational visibility and insight (MGT301-R1)
X-Ray Documentation
CloudWatch Documentation
Monitoring, Logging, and Performance APN Partners
最佳实践:
-
记录与性能相关的指标: 使用监控和可观察性服务来记录性能相关的指标。例如,记录数据库事务、慢查询、I/O 延迟、HTTP 请求吞吐量、服务延迟或其他关键数据。
-
在发生事件或意外事件时分析各项指标: 在某个事件或意外事件发生后(或发生过程中),使用监控控制面板或报告来了解和诊断影响。这些视图可让您了解工作负载哪些部分的性能没有达到预期。
-
建立关键性能指标 (KPI) 来衡量工作负载性能: 确定用于指示工作负载性能是否达到预期的 KPI。例如,基于 API 的工作负载可以使用整体响应延迟来指示整体性能,电子商务网站可以使用购买量作为其 KPI。
-
借助监控来生成基于告警的通知: 根据您定义的与性能相关的关键性能指标 (KPI),使用当测量值超出预期范围时能够自动生成警报的监控系统。
-
定期检查指标: 在例行维护时,或者事件或意外事件发生后,检查收集到了哪些指标。通过这些检查,找出哪些指标对于解决问题至关重要,以及跟踪哪些其他指标会有助于发现、解决问题或预防问题发生。
-
主动监控和警报: 使用关键性能指标 (KPI) 并结合监控和警报系统,主动解决与性能相关的问题。使用警报触发自动操作,以便在可能的情况下修复问题。如果无法实现自动响应,则将告警上报给能够响应的人员。例如,您的系统在关键性能指标 (KPI) 超出特定阈值时,能够预测预期 KPI 值并发出警报;或者您的工具在 KPI 超出预期值时,能够自动停止或回滚部署。
改进计划
记录与性能相关的指标
在发生事件或意外事件时分析各项指标
建立关键性能指标 (KPI) 来衡量工作负载性能
借助监控来生成基于告警的通知
定期检查指标
主动监控和警报