不具合農場 地獄の大豊作不具合様は本日もすこやかなれば、本日も大豊作なり。 不具合様には不具合をお供えすべし。 今日もお供え物作ってますか? |
トップへ戻る ブログのトップへ戻る Word Press |
|
不具合道楽 地獄のフルコース不具合御飯 不具合味噌汁 不具合満漢全席 | ||
コンピューターのはらわた無修正大公開 | ||
不具合設計局キャンペーン中 |
2014-01-23 (Thu)
_ [日々の生活] RAID5のディスク交換
普段使っているNASはRAID5になっているのですが、1台のHDDで異音がするようになりました。アクセス音が常時するというもので、普通のアクセス音だとずっと思っていました。しかし、特定の1台だけ常時音がする上、触ってみると振動もこの1台だけ大きいです。SMARTを見てみると正常ですが、これは明らかに交換するべきです。4TBのHDDを買いました。
今、2TBのHDDが5台あり、4台でRAID5を構成して、1台がHotSpareになっています。問題のHDDはRAID5を構成しています。まず、HotSpareのHDDを外し、新しいHDDを設置し、これを再度HotSpareに指定します。この状態で問題のHDDを抜くと、HotSpaceになっている新しいHDDを使って、自動でRAID5の再構成が行われます。元からあったHotSpaceのHDDを再度設置し、HotSpaceに指定しておきます。
2TBのHDD4台のRAID5なので、容量は6TBあります。この中の1台だけ4TBになりましたが、2TB分は使われません。将来的には全部4TBにしたいですが(そうすれば容量12TBになります)、まだ容量があるので、当分先になりそうです。
2014-01-24 (Fri)
_ [日々の生活] RAID再構築失敗
昨日の記事で、RAID5のHDDを1つ交換したと書きました。交換して再構築が始まったので、このままにしておけば何もなく終了すると思っていました。
しかし、問題発生。再構築が7割くらい進んだところで、HDDのエラーです。交換をしていないHDDです。でまあ、非常に厳しい状態に。RAIDの再構築中に異常が起きるというのは割と多いんですよね。再度RAID再構築しようとして、再起動したりしていたのですが、RAIDのマネージャーから見ると、ディスクがofflineと表示されて、操作できなくなってしまいました。ネット検索してみたところ、いったんRAID解除して、再度RAID作成しろとのこと。RAIDを解除するのは非常にリスクが高いです。しかし他に方法がありません。RAID解除して、再度RAID作成。結果、ディスクマネージャを見ると、ディスクが真っ白になってます。いよいよ本格的にやばいです。で、交換した元のHDDに付け替えて、再度RAID構築したところ、「data is not consistent.」と出るものの、RAID再構築が始まりました。必要時間が30時間くらいになってます。これの結果待ちです。
専門の業者に復旧依頼することも考えられますが、おそらく最低でも50万円はかかります。「RAIDの再構築中に異常が起きることが多い」と知っていながら、こういう事態となったのは、反省する他ないです。今後はRAIDはやめて、定期バックアップにしようと思います。
_ [日々の生活] RAIDとは
RAIDというのは、HDDが壊れた際に、データをロストすることを避けるためのものです。しかし、定期バックアップでも同様のことができます。違いは、「RAIDだと理論上、データのロストが発生しない」のに対し、「定期バックアップでは最後のバックアップ以降のデータがロストする」という点です。しかし、RAIDは先の通り、再構築中にエラーが出てデータを丸ごとロストする可能性があります。一方、定期バックアップでは、多少ロストすることはあっても、丸ごとロストする可能性はかなり低いです。
昔はRAIDというのは非常に高価だったこともあり、気分的にはRAIDにしたいのですが、実際のところはあまり現実的な運用ではないですねえ。究極としては、RAIDと定期バックアップの組み合わせでしょうか。
2014-01-26 (Sun)
_ [日々の生活] RAID復旧作業1
25日の22時頃からぶっ通してます。
データが回復できるか微妙ですが、何が起きたのかはある程度分かりました。今回、RAID5を構成する4台のHDDの内1台を交換し、RAID再構築中にエラーとなりました。交換していない3台のHDDの内1台に問題があったようです。このHDDだけを取り出して、内容を別のHDDにコピーしようとすると、60%くらいまでいったところでHDDセクターの読み込みに失敗するようになり、そこで停止してしまいます。不思議なことに、不良セクターのチェックをかけてみると、何の問題も起きません。コピーやRAID再構築で60%くらいまでいったところで失敗するのは何度も確認したので、異常があることは確かです。しかし、セクター読み込みに失敗するのに、不良セクターのチェックは通過してしまうとは、訳が分かりません。
理論的に考えると、RAIDにこのようなHDDが存在した場合、データをロストする可能性のある障害が起きない限り、存在に気づけません。非常にやっかいです。仮にRAIDと定期バックアップを併用した場合、このような異常でもデータをロストする可能性はかなり下げられます。やっぱり定期バックアップの方がいいかなあ…。
_ [日々の生活] RAID復旧作業2
元々は2TBのHDDが5台あり、1台は音がおかしいですがまだ動きます。他にもう一台、先ほどの記事で書いた個体がエラーを吐いちゃいます。で、エラーを吐く個体以外の4台をRAIDに繋いだら、再構築が始まりました。そして、再構築完了!! 「ディスクの管理」で中身を見てみると、真っ白!! ここまでは想定内です。データの一貫性が失われた状態での再構築なので、再構築成功しただけでも凄いです。
次に、パーティションを復元するツールを入れ込みます。見たところ、割といい状態でデータが残っているようです。ツールはパーティションを元に戻すのではなくて、HDDからファイルを回収するタイプのものです。ファイルの数が膨大なので、読み込み完了待ち。
2014-01-27 (Mon)
_ [日々の生活] RAID復旧作業4
パーティションの状態がいいとか書きましたが、あまりよくないっぽい。あと、あまりにも大きいため、処理に時間がかかってしょうがない…。今後はパーティションをもっと区切るようにした方がよさそうです。パーティションを回復するツールをいろいろ試したのですが、削除されたパーティションを元に戻すというタイプのツールはだめみたいです。削除されたパーティションからファイルを回収するタイプのものだといけるっぽい。とはいえ、あまりにもファイルが多くて、いつ終わるか見当もつきません。あと、回収するファイルの候補が出てくるのですが、重要性の低いファイルばかりでてくるのがアレです。
_ [日々の生活] RAID復旧作業5
まだパーティションの読み込み中ですが、途中の状態でもファイルの復元ができるので、試してみました。結果、ファイルの損傷が酷くて、まともに回収できるものは少ないです。フォルダの中身を丸ごと復元して、全部のファイルが正常になっているというのは不可能です。やっぱりRAID5だったというのが不利で、ファイルが縞模様の状態です。
なんというかなあ…。初動がもっとよければ回収の可能性はあったと思うのですが、途中でHDDがofflineになって、RAID状態を解除したのがやっぱりよくなかった。とはいえ、offlineになったものを戻すのはRAID解除しかないっぽい。頭の中でシミュレーションしてみたのですが、隠れ故障のHDD(HDDaとする)が1個あるとき、別のHDD(HDDbとする)を交換した(新しいHDDをHDDcとする)というのは、この時点でかなり厳しい。HDDaが1つ目の原因です。
RAID再構築はディスクを使いながら行うことができるので、HDDbがHDDcに置き換わったとき、ディスクの内容が変化して、HDDcをHDDbに戻すことができなくなりました。これが2つ目の原因です。RAID再構築中、HDDaが60%になったくらいでエラーを吐きます。この時点でデータの一部をロストしました。ここから先が復旧作業です。可能な範囲の対応としては、やはり、HDDbをHDDcに戻すしかないと思いました。しかし、HDDaがどうしてもエラーを吐くので、最終的にはHDDaを外すしかなくなりました。これで、正常なHDD2台(HDDdとHDDeとする)、復元が終わっていないHDD1台(HDDc)、データは正常だけと一貫性を失っているHDD1台(HDDb)というのが手元に残りました。HDDb,HDDd,HDDeに内容が全部ゼロ埋めされているHDD1台をくっつけて、RAID再構築するというのがおそらくは一番いい手だったと思う。しかし、よくない条件でRAID再構築してしまった。このせいでデータの破壊が進行し、まともに回収できるファイルが非常に限られました。これが3つ目の原因。
とはいえ、こういうことが分かったのは事後になったからこそであり、当時は分かりませんでした。元凶が隠れ故障のHDDaであることは間違いないです。たとえば、復旧作業を行う際、全てのHDDをそれぞれ別のHDDに単純コピーして、コピーしたHDDでRAID再構築を行えば、RAID再構築に伴うデータ破壊を避けることができました。しかし、そんなにたくさんのHDDを持っていない。結局、データのロストを避けることはやはり無理だったと考えるしかないです。
2014-01-28 (Tue)
_ [日々の生活] RAID復旧作業6
NASのデータは全部ロストという状態になりましたが、今のNASは2010年から使い始めたもので、それ以前に使っていたNASが残っています。4年間ほったらかしになっていましたが、電源を入れたら動きました。とりあえず、入っているデータを全部抽出。これで2010年時点までのデータはほぼ回復しました。
で、今のNASのデータは全部ロストということであきらめかけていたのですが、まだ少し可能性があることに気づきました。RAIDを組み直したとき、HDDの順番が入れ替わってる可能性があります。もしそうだった場合、データがほぼ無傷のHDDが3台あることになるので、順番を直せば復旧の可能性が出てきます。今のRAIDのHDDは全部同じモデルなのですが、ヤフオクで同じモデルの中古を落札。到着待ちです。
2014-01-29 (Wed)
_ [放送大学] 試験
RAIDの障害でたまらん状態ですが、1月28日からは放送大学の単位認定試験があります。この試験で8単位取れば、卒業です。1科目につき2単位なので、4科目合格すればいい計算となります。8科目の試験を受けて、このうち2科目はコンピューター系で合格確実なので、6科目中2科目合格すればいい計算となります。
コンピューター系2科目以外の中から、今日までで4科目試験した段階ですが、合格するかはかなり楽観的に考えています。
_ [開発メモ] RAID復旧
RAIDのデータは回収不能かと思ったのですが、まだ可能性があることに気づきました。そもそもなぜ回収不能に至ったかなのですが、a,b,c,dと4台のHDDで構成されるRAIDにおいて、再構築の際、cとdを逆にしてしまったというのが理由です。昔、cのHDDが障害を起こして、予備の5台目と交換したのですが、5台目はdの次に入っていて、cが入っていた位置は空いていたんですね。これを入っている順番通りに並べたので、a,b,d,cという順で再構築してしまいました。
で、なのですが、これって単純に、cとdを入れ替えれば直るのではないかという話です。このあたりはもうしばらくの研究が必要です。