2003年10月9日
『メーカー保守の予兆的交換を活用しましょう!』
小川
保さんの原稿を見たので、私も最近の業務についてお話を。
私は取引先の SQL Server マシンの管理全般を任されています。その中の 1 台のサーバー( RAID-1 と RAID-5
構成)に対して、社員がお休みの日曜日に RAIDの Consistency Check を実施しました。
RAID を構成している DISK 上に整合性エラーが発生していないかどうか、確認作業を定期的に実施します。
RAID のトラブルで多いのは、整合性チェックを実施せず、エラーが起きている状態で DISK が死んでしまい、復元できないというものです。
さて、整合性検査を実行すると、RAID-1 の 1 本の DISK で、「ソフトエラー」の回数が 11 個検出され、RAID-5
の 1 本の DISK で、同じように「ソフトエラー」の回数が 24 個検出されました。
ソフトエラーとは、DISK のメディア不良部分が存在していたというエラーで、RAID の中では軽微のエラーです。このサーバーの
RAID では、閾値は 10 個に設定されています。10 個を超えると、Windows のイベントエラーとして警告が記録されます。
メーカー保守に入っていなければ、別に無視して要注意と心得る程度ですが、イベントエラーが記録されましたので、お客様の立場に立って、翌日月曜日にメーカー保守窓口に電話しました(さすがに、24
時間保守契約ではありません)。
事情を説明し、DISK の予兆的交換対応をお願いしました。閾値を越えたので、
メーカーとしても DISK 交換せざる終えないわけです。
電話して 2 時間程度で、DISK 2 本を持った担当者がすっ飛んできて、すぐにRAID のオンラインビルド作業をしてくれました。
担当者は、交換した DISK を持って帰ろうとしていたので、RAID-1 の DISK 消去作業は自前でやるから、明日取りに来て欲しいと言いました。この
DISK の消去作業までは、保守メニューに無かったようです。
そうです、このサーバーの RAID-1 は、元のファイルシステムがそのまま読めちゃうのです。別のサーバーにこの RAID-1
の DISK を挿入すると、ドライブ D:で、その中身が完璧に確認できます。
RAID-1 の DISK の中には、バックアップファイルやその他重要なファイルがいっぱい!これをそのまま外部に流出させるわけにはいかないので、ちゃんと消去作業をしなければいけません。
消去作業と言っても、
・DISK をフォーマットする
・適当なデータを書き込んで、DISK を一杯にする(これが大変!)
・DISK ユーティリティで、別の DISK の内容を全部、丸ごと複製する
この 3 手順を 1 セットとし、目標 3 セット繰り返し実行しようとチャレンジしましたが結果は 2 セットで時間切れとなり、やめました。オマケとして、SCSI-BIOSのフォーマット処理を
30 分ぐらい実行してから電源断しました。
これらの作業を、1 日がかりで延々とやりました。その間、RAID-1 のソフトエラーが発生したその DISK は、故障せず、これらの過酷な
DISK アクセス作業に耐えて、完璧に動きました。
保守契約に入っていなければ、まだまだ現役でバリバリ働ける DISK です。それを交換して頂ける保守契約は、ユーザにはありがたいものです。その反面、サーバー価格やサービス価格に、そのコストが反映されてしまいますが…。
保守契約に入って、ハードウェアを常に監視し、基準値を少しでも超えたエラーが発生したらすぐにメーカーに連絡し、部品交換をお願いしましょう。最近のサーバーでは、自動連絡機能も付いています。
このような日々の心掛けによって、データベースサーバーは安心して連続稼動することができます。
|