机房的一台FreeBSD前阵子无故Down掉,对系统服务排查了一遍,基本上排除了是系统问题,于是没有办法,只能烤机。果然不到1个小时服务器再次毫无征兆的Down掉!再次排查硬件,在拆机的过程中,发现CPU的散热片比较烫,考虑到这台服务器是自己组装的兼容机,而且是丢在角度里做备份服务用的,出问题的时候也没有盖上机箱盖板,基本上可以确定是CPU过热保护了。
于是等服务器凉下来后再次烤机,重点观察CPU的温度变化,果然不出所料,烤机开始后CPU的温度直线上升,很快就达到了90多度!!既然问题找到了,解决起来也就有方向了,更换了机箱里的散热风扇,把机箱盖也重新盖好。再次烤机,温度基本上稳定在了55度左右。
重新把服务器部署上线后,顺手用rrdtool弄了个CPU温度监控脚本,可以比较直观的统计服务器CPU的温度变化情况,配合着cacti的其他监控数据,可以更精确的掌握FreeBSD服务器的运行状态。
因为这台服务器主要是用来做数据备份的,所以负载并不是太高,温度变化基本上跟环境温度是同步的,周期性的在变化。另外一个比较有趣的地方是,服务器的四个核心的温度有时候是不一致的,有可能是单线程的应用短时间内大量使用CPU资源,造成某个核心的温度上升了。
0 条评论。