關於一月廿九號的主機故障事件

這一篇文章是關於一月廿九號的主機故障的所有處理經過,在處理完所有客戶問題時才有空把事情始末寫清楚,中間也有客戶電話或MSN問我,我也都會一一回答。

藍藍路:那我說一下掛掉原因
呆殺氣:恩
藍藍路:說完我順便公告大家
藍藍路:也得告知大家原因才可以
呆殺氣:對阿
藍藍路:時間是一月廿九日星期五號對吧
藍藍路:那天是約半夜三點部份資料庫掛掉
呆殺氣:恩
藍藍路:然後上午8點MIS做救援
藍藍路:很抱歉
藍藍路:本公司沒有24小時的MIS
藍藍路:所以八點才發現問題跟解決問題
呆殺氣:mis也是人
藍藍路:而且資料庫只掛部份沒有全掛
藍藍路:OK
藍藍路:到9點的時候
藍藍路:MIS告知
呆殺氣:修不了?
藍藍路:RAID卡故障造成硬碟整個系統也出錯了
藍藍路:屬於硬體故障影響到系統
藍藍路:因為我系統是做RAID 5
藍藍路:所以不像一般的電腦換個硬碟就好
呆殺氣:所以要整個修過
藍藍路:然後
藍藍路:因為本公司有一台同等級的備援機
藍藍路:每晚都會備份檔案
藍藍路:所以在當天上午11點的時候就讓備援機取代原本主機了
藍藍路:你也有發現11點左右網站都逐漸恢復了吧
呆殺氣:恩
呆殺氣:不過不穩定
藍藍路:因為約12點30的時候
藍藍路:MIS告知
藍藍路:備援機很剛好也硬體掛了
藍藍路:就是這樣
藍藍路:在同一天
藍藍路:兩台機器同時故障
呆殺氣:真慘
呆殺氣:二部機器
藍藍路:一般我們只會準備一台備援機
藍藍路:並不會特意準備兩台
藍藍路:也認為同一個時間點壞兩台機器的機率很低
呆殺氣:哪有人這麼閒
藍藍路:但是
藍藍路:我很剛好同時壞兩台
呆殺氣:後來看香腸的噗
呆殺氣:你去買新主機?
藍藍路:這是後話等一下會提到
呆殺氣:ok
呆殺氣:繼續
藍藍路:我這時跟朋友借機器要試圖在最短時間內讓網站恢復
藍藍路:但是我的是工業主機
藍藍路:目前客戶數150人
藍藍路:用一般的PC根本不可能撐得住
藍藍路:我的機器規格是兩顆四核心CPU+12GB記憶體
藍藍路:光華商場似乎也沒賣工業用伺服器
藍藍路:那要哪裡借一台空著沒用又夠力的伺服器呢?
呆殺氣:確實難阿
藍藍路:借不到機器
藍藍路:只有一個方法
藍藍路:借2-3台比較差的機器
藍藍路:把客戶拆成三台機器跑
藍藍路:那問題來了
藍藍路:有一台的客戶可以不用變換IP
藍藍路:另兩台客戶要換IP
藍藍路:等機器修好了
藍藍路:那兩台的客戶又還要再改一次IP
藍藍路:似乎不可行
呆殺氣:這方法太麻煩了
呆殺氣:實在很難實現
藍藍路:嗯
藍藍路:還有一招
藍藍路:直接賴皮拖到禮拜一等廠商調到現貨
藍藍路:再來修理電腦
藍藍路:抱歉
藍藍路:事發當天是週五下午
藍藍路:所以很多事情要等禮拜一了
藍藍路:主要也是廠商沒有同規格的現貨
呆殺氣:所以你也放棄了?
藍藍路:同規格也許簡單
藍藍路:但是不同規格沒救
呆殺氣:是喔
呆殺氣:第一次知道有差
藍藍路:主要是硬碟有做RAID 5
藍藍路:你要相同硬碟跟RAID卡才可以
藍藍路:不相同就會有問題
藍藍路:嗯
藍藍路:最後
藍藍路:乾脆買一台來跑
藍藍路:降低大家網站的等待期
藍藍路:這一次掛掉
藍藍路:大部分都是網站看得到但是有部份問題
藍藍路:有一部分是網站連看都看不到
藍藍路:問題比較大
藍藍路:約10個客戶有此問題
呆殺氣:後續處理才是大問題
藍藍路:嗯
藍藍路:但是也謝謝每個客戶的體諒
藍藍路:當然也有客戶有跟我反應個人的不耐
呆殺氣:說真的
呆殺氣:主機商能和客戶打成一片
呆殺氣:第一次看到
藍藍路:所以禮拜五當晚搬機器進機房
藍藍路:禮拜六下午兩點完全回覆好
藍藍路:但是請放心
藍藍路:資料都有備份三份
藍藍路:並沒有資料遺失問題
呆殺氣:結局還不錯
藍藍路:然後禮拜六三點後開始幫個別客戶看復原後的零星問題
藍藍路:大約這樣
呆殺氣:這次主機掛點應該損失慘重
藍藍路:嗯
藍藍路:但是我會盡力處理
藍藍路:也會繼續把備援就好
藍藍路:只是第一次使用備援機
藍藍路:就一次掛掉兩台機器
藍藍路:我只能說抱歉了
呆殺氣:太久沒用到
呆殺氣:秀逗
藍藍路:以後還是會繼續注意
藍藍路:但是小公司資本有限
藍藍路:我也無法一台機器三台還是四台備援機
呆殺氣:恩阿
藍藍路:但是可以提昇的服務跟問題處理還是會繼續努力
藍藍路:以上報告完畢
呆殺氣:加油吧
藍藍路:收工
藍藍路:爆料去
藍藍路:不對
藍藍路:是解釋去
呆殺氣:81
呆殺氣:去吃飯
呆殺氣:名稱換好聽一點拉
呆殺氣:謝拉
藍藍路:掰掰
呆殺氣:81