作为运维,今天又过了一个惊险而刺激的一天,今天我们的主站服务挂了,事情是这样子的,中午我们在上班,然后突然项目经理就通过钉钉的方式告诉我,我们的网站挂了,我一看截图502,但现在并没有对服务器进行操作,这两天服务器运行也是比较稳定的,怎么突然502了?

作为一个有5年经验的一个资深运维,对这样的事情当然是不惊的,很平静的登入到服服务器上去看一下它的一些基础资源,比如CPU、内存磁盘的使用率之类的一切正常,没有丝毫的波动,而且还是有点低的。

当我看到服务器的一些资源情况都是好的,然后看一下服务也都是好的。我心里面慌了,这真慌了,因为所有的指标都显示这个服务其实没有问题的。

然后当我想着该怎么去处理的时候,我的身后已经站了大概两三个人了,一个技术总监级别的人,然后还有项目经理,还有下面应用干活的人,都直勾勾盯着我,然后当时我内心很波澜,但是表面很平静,没办法只能硬着头皮排查了。

我们的架构是这样子的,所有的应用进来都是通过nginx的,我就把排查重点就放到了ng服务器上,排查的顺序也是一样的,资源的使用以及ng技术服务是否是好的,还有就是nginx的配置文件是不是好的,也就很奇怪,没有一丝丝的可疑的点来说明这个服务是有问题的,虽然说我表面很平静还是在排查,但是内心都已经慌了,因为根本排查不出来,结果来就只能看一下其他人都做了什么操作了。

就问一下我们一个网络人员,然后惊呆了,他竟把那两台服务器的安全组给我删了,我靠安全组给删了,不知道他是误操作还是怎么样。

他也是一脸懵,说,我刚才好像点错了唉,把一个组给删掉了,然后在我身后的那拨人赶紧又去了他的工位,赶紧把安全组重新的启起来,然后重新的挂上,小伙子吓得都已经在抖了,因为形势很严峻,这是他自己误删了一个安全组导致的,至于他为什么误删,他给别人演示,然后就给删了,而且据他回忆说,他删了之后还是有短信的,短信提短信的一个验证码,在他手机上还专门看验证码,还输了一下二次验证,结果还是给删了!

我就感觉比较坑的一点就是,竟然有人会删安全组这个东西,平时这个东西的一个作用体现不出来,但是在线上的时候它作用是很大的,删了之后就导致了nginx无法把进来的流量访问到我们后端服务器上来,就导致了nginx访问不到后台服务器,然后就前端报错502,然后就导致我们应用人员误以为后面的服务器给挂掉了,然后首先要排查的对象就是后端的服务器,结果不是这样子的,事实就是网络上的事情,安全组的事情导致的,所以说运维每一天都是新的一天,每一天都是很刺激很惊险的一天,毕竟事情是发生在大中午,你们体会不到我们的存在,但是当发生事故的时候,我们肯定是第一个被问责冲在前面的那拨人。