工作总结

发表时间:2026-03-31

运维个人工作总结〔值得收藏〕。

今年过完年回来上班那天,我在工位上坐了十五分钟,没开电脑,就看着去年年底贴的那张便利贴,上面写着“核心汇聚交换机—凌晨3:47”。这是我自己给自己留的记号,提醒自己别忘了一个事儿:有些问题,过去了不等于真的过去了。

说实话,这一年我最大的变化,不是技术能力提升了多少,而是我学会了害怕。不是怕出故障,是怕那种“应该没问题”的判断。年初那次凌晨三点多的电话,到现在想起来还觉得后怕。当时核心机房一台汇聚交换机CPU冲到了98%,业务侧已经开始报超时。我按老套路走了一遍:查流量,没异常;查日志,没报错;抓包,也没发现广播风暴。折腾了四十分钟,设备开始间歇性丢包了,我有点急,但又不敢随便重启——这玩意儿下面挂着二十多个二级单位的业务,断一分钟就有人打电话骂娘。

后来我怎么想通的?我把鼠标一扔,拿了张白纸,把那台交换机的上下游全画出来了。画到第三遍的时候发现一个问题:它对端的防火墙,每隔三秒往外面发一大串路由刷新报文,频率比正常情况高了将近十倍。我登上去一看,好家伙,它的主备链路在做切换测试之后,有个老化时间参数没人改回来,导致路由一直在抖。设备以为链路不稳定,拼命往外发更新,结果把邻居给活活“吵”死了。

这事儿解决完已经是凌晨五点四十。我在机房里坐了一会儿,问了自己一个问题:要是下次遇到类似的情况,我还得花四十分钟才能找到根因吗?不一定。但我能确定的是,以后排查故障,我会先画三层拓扑图,再碰设备。不是不信日志,是信不过自己的直觉。工具会骗人,但数据流向不会。这个道理我早就知道,但那次是第一次被按在地上教育。

还有一个事儿,让我对“验收”这两个字有了完全不同的理解。去年底一条地铁线路的通信系统要交付,我去现场做最后的验收。测到一套电源分配单元的时候,我要求做一次主备切换测试。厂家那个工程师小伙子挺自信,说“没问题,做过三次了”。结果真切的时候,备路根本就没起来,备电模块指示灯亮着,但输出端电压是零。现场安静得能听到机柜风扇转。

我当时没发火,但心里堵得慌。我问他测试记录在哪儿,他翻出来给我看,上面清清楚楚写着“测试通过”,签字栏是他们项目经理的名字。你说这叫什么事儿?明明没测,却写测了;明明有问题,却写正常。我当场把验收暂停了,要求所有涉及主备、冗余的关键节点,必须当着我的面用假负载做三次实际切换测试,全程录像留底。厂家项目经理后来打电话跟我商量,说能不能“通融一下”,我没松口。

这事儿办完之后,我把自己关在办公室里写了一整天,把类似的“假测试”风险点全梳理了一遍,做了一个《现场验收强制清单》。现在部门里凡是我经手的项目,验收之前必须过这个清单,谁签字谁负责,别扯皮。我不是想刁难谁,是真的不想在系统上线之后的某个凌晨,接到电话说“当时验收的时候好像没问题”。那种电话,我接过,很无奈。

除了故障处理和验收,今年还有一个事儿让我反思了很久。有一回一个二级单位的网络出现大面积丢包,我远程进去看,所有指标都是绿的——CPU正常、内存正常、带宽没跑满。这就邪门了。我蹲在机房里盯着端口统计看了半个多小时,突然注意到一个细节:总带宽虽然没满,但某个UDP端口的流量占了将近八成,而且全是64字节的小包。顺着端口往上追,发现是一台新部署的服务器在疯狂往外吐日志,日志量比正常值高了将近两百倍。

但它为什么没把带宽占满呢?因为它用的是高优先级队列,不会影响其他业务?不对,它影响了——它把设备的会话表项给撑满了,导致新建连接全被丢掉了。那几天我一直在想一个问题:我们平时监控的那些指标,真的对吗?带宽、CPU、内存,这三样东西看着漂亮,但会话表利用率、队列调度情况、小包转发能力,这些才是真正卡脖子的东西。我后来花了两周时间,把所有核心设备的监控项重新过了一遍,把以前忽略的那些“边角料”指标全加进去了。

改完之后第一次开会汇报,领导问我加了这么多指标看得过来吗,我说看不过来没关系,我设了阈值,到了阈值就告警。领导又问,阈值怎么定的?我说是根据过去三个月的历史数据,取了95分位线,再往上加了20%的余量。他说行,但你得定期复盘这些阈值合不合理。我说好。

这一年我经手的故障,大大小小,有记录的七十多个,其中凌晨两点到五点处理的占了差不多三分之一。但我真正觉得有进步的,不是处理的数量,而是现在遇到问题我不会慌了。不是说我现在技术多牛,是手里有东西了——排查路径是清晰的,工具是可靠的,预案是真实演练过的,不是写在文档里应付检查的那种。

如果非要说这一年的感悟,其实就是一句话:从信直觉到信流程,从追速度到追确定性。以前我总觉得,能快速把故障恢复就是本事,现在我觉得,能把恢复的过程说清楚、把根因找到、把同类问题掐死在摇篮里,那才是真本事。

明年我也没什么大目标。就是把手里这几百台设备再吃透一点,把巡检做扎实一点,把变更做谨慎一点,把复盘做彻底一点。运维这个活儿,说到底,不是看你爆发力有多强,是看你耐力有多好。别出事儿,出了事儿能稳得住,稳住了还能不让它再出第二次,这就够了。

    欲了解工作总结网的更多内容,可以访问:工作总结

本文网址://www.zw5000.com/xindetihui/190184.html