错误监控 - 随笔

最近系统故障蛮多，当然，各种错误都有。然后现在监控的话，只有进程数监控报警，响应时间超时报警。又是提供的基础生态，登录，用户，权限这种服务基本上是一刻也不能停的，

又因为某些原因呢，说好听点叫敏捷开发快速迭代，难听点是没有产品文档，没有测试流程，今天同事有个和别的部门对接一个很主要的功能，上午定了具体逻辑，下午就要上线... orz

环境如此，没有什么好的办法，六字真言了解下。所以，总结下可以优化的监控点：