写一个合适的监控运维系统-01-需求

现状

公司大约有100台服务器左右, 属于我们行情的服务器大约有30台左右, 有一位专业的运维人员, 负责服务器的运维, 但不涉及业务的运维. 现有监控系统两套, 一套是运维人员提供的zabbix服务, 能够监控服务器的基本数据, 内存, CPU, 硬盘等运行状况. 另一套是我们自己开发的监控, 能够接入我们的业务, 提供行情服务的运行状况, 并能提供简单的运行指令支持, 仅仅限于服务内部对指令的响应, 但是如果挂掉了, 基本上就无能为力了. 部署代码, 重启等操作必须人为干预.

需求

  1. 可视化监控,图表并用
  2. 支持现在已经部署好的运维监控
  3. 打造运维前端平台, 适配移动办公体验
  4. 日志查询、 故障报警、关键事件监控、服务器运行指标监控
  5. 自定义分组, 实现整组运维
  6. 代码的批量发布, 部署
  7. 运行日志的分析
  8. 报表生成, 生成流量、费用等报表
  9. 所有的功能实现可视化, 可操作性

需求解读

我们C++组的小伙伴估计被以前的界面给丑哭了…..

事实上同事们提出来的需求很简单:

  1. 一个耐看又使用的UI, 支持移动端
  2. 一些基本的监控, 服务器的一些关键数据和服务的关键数据
  3. 日志分析功能, 事实上只是对一些关键事件的监控
  4. 基本的运维功能, 就是将原来需要认为干预的操作, 全部自动化运维

为什么会要做这个运维监控系统

随着公司的不断的壮大, 我们C++组的小伙伴管理的东西越来越多, 原来人为干预的东西现在变得越来越复杂, 特别是业务越来越复杂, 但是人员并没有得到相应的扩充, 每个人承担的压力越来越大. 最近发生了几次事故, 归结原因在监控的不到位. 最后产生了这个项目.

为什么是我做这个监控系统

前段时间去web组做过一段时间的卧底, 对于web的了解相对于组内其他小伙伴会深一点, 同时相对于web组的小伙伴, 我对需求了解的远远超过他们. 故而当仁不让的承接了此项目….

等待更新下一篇 监控采用的技术方案

写一个合适的监控运维系统-01-需求》上有2条评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注