3月
07
実家から帰ってきたら、IRC ネットワーク 勝手統計情報のグラフが歯抜けになっていたのだけど、どうしたのかと調査するために ssh したら繋がらない。あれれと思いつつ、同じホストで動いているニコ統計も見てみたらグラフが朝から更新されていない。これはまずい。
この自鯖、何度か書いてますが友人宅に置いてあるので、電話でたたき起こしてコンソールを見てもらったところ、どうやらソフトウェアミラーの HDD の片方が死んでるぽいメッセージが出ているらしい。リブートしてもらおうにも root のパスワードはその友人には教えられないものを設定してあるので、電源ボタン短押しを試してもらったものの反応なし。仕方なくリセットボタンを押してもらったら、今度はカーネルはロードできる(死んでない方から読む)ものの probe 時に死んでる方の HDD にアクセスしに行って起動しない。しょうがないので一旦止めて死んでる方の HDD を外してもらって仮復旧。
あとは本復旧のために余ってる HDD を持って友人宅に行って、交換してミラーを再構築して完了。定期的観測が抜けたのは痛いが、データが失われていないのは幸い。ミラーしててよかった。
復旧後ログをよく見てみたら、5日の夕方にはすでに HDD は壊れていたらしい。きっちり監視する仕組みを作っていればここまで面倒なことにはならなかったってことか。これから頑張って作りこむよ!
ところで、ファイルシステムはミラーしてあるったのだけど、スワップはミラーしてなかったので、不調になったのはうっかりスワップにアクセスしに行ったからかも。ちょいちょいと設定変更してミラーに移行。スワップ半分になったけど、メモリは 8GB あるしそんな問題にはならないよね。
no comment untill now