昨天我已经离职的公司给我电话,说服务器访问不了了。提示cpuid =0启不来了。
后来公司去人断电,重启了一下,好了一下午,到晚上又不行了。今天把服务器拿回来,我来看了一下。文件系统确实已经被破坏了。因为非法断电,导致系统启动不了。于是进freebsd的单用户模式,fcsk修复了一下,倒是能启来了。
不过随之而来的是raid还有问题。
服务器是两块300G的SCSI硬盘做的RAID1,只插一块硬盘的时候,启动freebsd后过一会就提示
kernel trap 12 with interrupts disabled
page fault while in kernel mode
cpuid=2; apic id = 06
fault virtual address = 0×40
fault code = supervisior read,page not present
然后就重启甚至死机。怀疑是cpu的问题,把双cpu拨掉一个,运行了一会儿,没出错,正常。然后把另一个也安上,也没问题。
不过当第二块硬盘接上时,等到RAID卡LSI320认到硬盘,然后同步raid的时候,系统就出错重启。
现在正在RAID卡的管理界面中等待它自动RABLD完事儿,已经一个多小时了,漫长的等待中。。。
前两天机房把服务器给换了个位置,结果原来公司的人去的晚了,估计机心的人给直接断电了。昨天出错,公司去人,也是直接按住电源给关的机。导致了后来这一系列问题。
所以奉劝各位,BSD的机器千万不要直接断电。按一下电源按钮,它会自动关机,不要觉得等不及直接按住关机,前后差不了几秒。尤其不要直接拨电源。
教训是惨痛的。没准实在不行还要备份出数据来重装系统。
关键是,那系统是采用Directadmin这个软件来管理的,用其搭建的环境,用其管理的虚拟主机用户。还得用那个软件的备份功能来备份,还要自己手动备一下份。还有可能mysql的拷贝文件的备份不好用。。。
麻烦啊。。
第二天了,昨天等了几个小时,raid也没同步完,于是让它自己干。今天来了又忙乎了一天,备份数据。最后测试来测试去,发现是其中一根内存条的问题。只要把那根内存拨下去,怎么折腾都没事儿。汗。。。我早就想换换内存试试,但是那儿没有那样的内存,毕竟是三年前的机器了。内存升级换代又这么快。这个现在已经不是主流了。原因不明,难道非法断电也会损坏内存?还是这事儿都赶到一块儿了?