- コラム
- システム障害は必ず起きる!その時に備えましょう
COLUMNコラム
システム障害は必ず起きる!その時に備えましょう
- 公開日:
- その他
最近、システム障害のニュースを多く耳にしませんか?障害内容には軽微な事象から事業継続に影響ある大きなトラブルまで幅広く、何が起きるかわかりません。『システム障害は必ず起きる!』前提でトラブルの事前準備をしておきましょう。今回は突然起きるシステム障害のメカニズムや対処法についてご紹介いたします。
目次
システム障害はなぜ起きる?
最近「みずほ銀行」「KDDI」「Microsoft Teams」など、システム障害が多く報告されています。なぜこれほどまでにシステム障害が起きるのでしょうか?障害は以下の4つに分類できます。
●ソフトウェアの不具合
プログラムが正しく動作しない「バグ」が起きることがありますが、ソフトウェア開発ではバグに対する綿密に設計されたテストを行っています。また、ユーザーが設計と異なる動作をすることでもバグは発生します。
●性能・容量不足
メモリの容量不足や、回線が耐えうる容量を超えるアクセス殺到でサーバーはリクエスト処理が追いつかず動作が遅くなり、最悪の場合はダウンすることもあります。
●設定・操作ミス
システム障害の原因で大半を占めるのが『人為的なミス』です。特に、ファイルの削除、バックアップを消してしまうといった誤操作や設定上のミスでサーバー障害が起こってしまうケースが多くなっています。
●不慮の事故
火災や地震などの自然災害によってデータセンターが直接被害を受けることもありますが、外部からのサイバー攻撃を受けサーバーダウンが引き起こされる場合もあります。サイバー攻撃の中には、サーバーがターゲットの種類もあります。Webサイトなどに対して短時間に大量のアクセスを行うことで、Webサーバーやシステムの機能を停止させようとする「Dos攻撃」が有名です。
障害の性質を知る
発生してしまった障害は、原因を迅速につかみ、短時間で解決するのはもちろん、情報を正しく分析することが不可欠です。トラブルをその性格から3つに分けて整理しましょう。
【一般障害】
一般障害はハードウェアの故障や通信回線の断絶など、一般的な『障害』のイメージに当たるものです。
【サイレント障害】
サイレント障害は、疎通や生死といったレベルでは正常と言えるものの、なんらかの問題が発生している状態を指します。パフォーマンスやレスポンスの悪化など、サービスレベル/サービスの品質が低下した状態と言い換えることもできます。これは※1死活監視ではなかなか発見できず、ユーザーからのクレームによって初めて気づくことが多い障害です。サイレント障害を迅速に発見するには、リアルタイムの※2性能監視が不可欠となります。
【不定期に発生する一時的な障害】
最後の不定期に発生する一時的な障害は、検出も困難で再現性がないことから原因究明も難しい障害です。対策としては長期にわたる性能データの収集が役立つことが多いです。
システム障害は、情報システムが何らかの不具合によってその機能に支障を来たし、本来の機能が利用できない状態です。
※1死活監視は、サーバーやサーバー周辺のネットワーク機器が正常に稼働しているか確認することです。基本的には専門ツールを使って、定期的に自動でチェックを行っています。
※2サーバーのCPUやメモリ、ディスクなどのリソース使用量を監視します。現在使用しているリソースと空きがどれくらいなのか把握していることは正常なシステム運用には非常に重要なことです。
システム障害発生時の手順
システム障害は企業にとって死活問題です。万が一システム障害が発生した場合は、慌てず迅速に対応することが必要です。それにはシステム障害時の手順を把握しておくことが重要です。
■手順1:影響範囲を確認する
システム障害が起きたとき、まず行わなければならないのが障害の影響範囲の確認です。
・どのネットワーク機器がダウンしているのか
・機器からどのようなアラートが出ているか
・ログが残っていないか
■手順2:関係者への連絡
障害範囲が特定できたら、次は関連部署への情報共有を行います。
・1人で問題を抱え込まない
・現状確認を通じて得られた情報は社内外の関係者に正確に伝える
・顧客への通知が必要か早急に判断する
■手順3:障害原因を切り分ける
関係者への連絡が完了したら、障害が起きた原因を切り分ける作業に入ります。
・ハードウェアによる問題の切り分け
・アプリケーションによる問題の切り分け
・連続稼働により発生する問題の切り分け
■手順4:復旧作業を行う
原因を特定したら復旧作業を行います。現場は一刻も早いシステム復旧を望んでいますが、対応マニュアルに基づいて作業するのが原則です。
・障害復旧までの時間が長期にわたる場合は、随時状況の連絡を行う
・代替手段がある場合は、そちらに切り替えて暫定復旧しておく
・保守ベンダーには取得したログの解析依頼をする
■手順5:確認と報告
障害の復旧後に改めて報告と確認をしてもらい、問題がなければ対応完了とします。
・未然に防げたヒヤリ・ハット事例も必ず報告する
・障害の大小に関わらず障害報告書を残す
・次回同様のシステム障害が起きたときに役に立つよう作成する
■手順6:再発防止対策を行う
障害の内容によっては再発防止策を実施することで、再発を防ぐことが可能な場合があります。それらの検討と実装を行います。
・障害の根本的な原因を取り除く恒久的な対策を取る
・生産性が落ちる可能性があるため、安易に作業プロセスを追加・変更しないようにする
・自動化やツール導入などでヒューマンエラーを極力減らす
今後システム障害は増えることはあっても急激に減ることはないでしょう。『システム障害は必ず起きる!』という前提で障害発生後を見据えた体制を整えておきましょう。
投稿者プロフィール
最新の投稿
- 2024.11.22SEO対策SEO対策の実践法
- 2024.11.20集客集客力をアップさせるコンテンツ戦略とは?
- 2024.11.18ホームページ制作効果的なECサイト構築法:中小企業向けガイド
- 2024.11.13ホームページ制作ホームページ制作で失敗しないための10の注意点
ホームページ制作・運営からWEBデザイン、ウェブサイト企画作成
ウェブコンシェル
head office
〒103-0004
東京都中央区東日本橋1-3-9 大内ビル1F/2F
branch office
〒103-0005
東京都中央区日本橋久松町13-1
TEL:0120-16-1244
受付時間:月~金 9:00~18:00
関連記事
CONTACT
どうぞお気軽にご相談ください!