最近系统故障蛮多,当然,各种错误都有。然后现在监控的话,只有进程数监控报警,响应时间超时报警。又是提供的基础生态,登录,用户,权限这种服务基本上是一刻也不能停的,
又因为某些原因呢,说好听点叫敏捷开发快速迭代,难听点是没有产品文档,没有测试流程,今天同事有个和别的部门对接一个很主要的功能,上午定了具体逻辑,下午就要上线... orz
环境如此,没有什么好的办法,六字真言了解下。所以,总结下可以优化的监控点:
- 最基础的状态监控, 或者说报错监控,500了,400了之类的
- 业务监控,
panic
的监控到了,业务上的错误也得监控到,大量不符合预期的接口返回必定是有问题的 - 数据对比度,因为业务负责性,测试也无法照顾到,所以进行资源数据的对比也是不错的,甚至可以发展成数据迁徙图之类的东西
监控也是一个细致活儿呀