
2.4.3 监控与告警实践
2.4.3.1 监控实践
在云上落地Windows服务器监控相对于传统的监控落地有着更多的便利性。监控的落地首先是基础指标落地,参考2.1.3.4节中的设置将云上Windows服务器ECS标准化做好,然后就可以根据分组、资源组或标签来进行监控大盘的设置。自定义监控的监控项如图2-25所示。
设置后的监控大盘效果,如图2-26所示。
深度的Windows服务器监控场景除了平台本身的性能指标,建议借助云厂商提供的上报渠道进行二次定制,阿里云提供的上报渠道是云监控的“应用分组”→“自定义监控”→“数据上报”(关于应用分组的设定可以参见2.1.3.3节),如图2-27所示。

图2-25 自定义监控的监控项

图2-26 包含了CPU、网络、负载热点图的监控大盘

图2-27 阿里云提供的监控数据上报界面
为方便读者实现自主监控数据上报,从而满足系统层面更细致的需求。这里可以参考以下脚本运行相关系统监控项目,下面是收集Windows服务器系统内存每秒页错误的脚本(涉及Aliyun Cli命令行插件,可在阿里云官网自行下载安装):

上报成功显示的内容如图2-28所示。

图2-28 上报成功显示的内容
图2-29所示是上报后通过“自定义监控”界面展示出来的Windows服务器页错误数量(60秒维度)效果。请注意由于上报路径依赖于网络、系统本身性能等因素,这里不建议做秒级监控。
除了通过自定义监控实现相关性能数值型的监控指标上报,对于系统进程类的监控,建议也采用一定的收集方式来进行。在业界内,阿里云实现进程监控的具体路径是“云监控”→“主机监控”→搜索实例ID→切换至“进程监控”,“进程监控”界面如图2-30所示。

图2-29 Windows服务器页错误数量(60秒维度)

图2-30 阿里云“进程监控”界面
总之,Windows服务器的监控实践建议从横、纵向维度来考虑,横向维度建议从性能监控、状态监控等来实践,纵向维度建议从平台监控、系统监控、应用监控等来实践。
2.4.3.2 告警实践
监控的上下文除了上文数据源的设计与规划,还有下文监控发现问题时的通知,称之为告警。在云上Windows服务器的告警如2.4.2节所述,先在选择“监控什么”的问题上谨慎处理,这样确保监控的数据是核心的,不出现泛滥问题。接着根据业务的特点来设定监控告警,告警是需要监控的设计来实现的,“状态监控”对应着事件告警,“指标监控”对应着阈值告警。建议使用阿里云的云监控告警,刚好覆盖了这两种告警的实现,具体路径是“云监控”→“报警服务”。阿里云监控报警服务如图2-31所示。

图2-31 阿里云监控报警服务