見出し画像

大丈夫、怖くない。 〜システムトラブル対応〜

なんか、ナウシカのセリフみたいですが。。。(笑)。

いま、銀行間取引のシステムでトラブルが起きてますが、こういうトラブルを耳にすると、自分がシステム運用の現場で日々悪戦苦闘してた頃を思い出してしまいます。

今日はシステムトラブルに対してどう向き合うべきなのか、という話。

稼働率100%のシステムは存在しない

コンピュータシステムを設計・構築する際、稼働率を必ず考えます。

稼働率は通常99%とか、99.99%などという数字で表されます。

稼働率が高ければ高いほど信頼性の高い仕組みですが、その分運用コストも高くなります。定期的に運用停止時間を作れるシステムなら楽ですが、24時間止められない仕組みであれば、バックアップの仕組みも同時に常に動かしておいて、片方を止める時にはもう片方へ切替えて稼働を続けるといった方法を取ります。使っている人は意識することはありませんが、裏ではこういった切替が行われています。

このようにして限りなく100%の稼働率に近づける努力をしていても、コンピュータシステムは何らかの原因で止まる事は起こり得ます。これは避けられません。 ハードディスク等が壊れたり、ネットワークで障害が起きたり、データセンターに電源障害が発生することだってあり得ます。

まず、冷静に受け止めよう

システム障害に巻き込まれた時には、焦らず冷静に受け止めるのが第一。ハードウェア障害であれば、壊れた部品の交換で済みますが、ソフトウェアの障害であれば

原因特定 → 影響範囲確認 → 修正・テスト → 動作確認 → 再稼働

といった一連の流れが必要ですので、復旧までに少々時間がかかります。

現場では沢山のエンジニアのみなさんが必死になって作業されているので、私達は冷静に待ち続ける事しかできません。


絶対にやってはいけないこと

使う側の私達が絶対にやってはいけないこと。
動かないからと言って何度もアクセスしたり、処理を再投入したり、システム側に負荷のかかるような処理を行わない事です。

「おかしい、動かへん!」といって何度も処理を実行したりしちゃいますよね。

これがシステムが復旧した途端に大量の処理エラーを起こしたり、不安定な状態に陥ったりする原因になる可能性があります。

できるかぎり、復旧のアナウンスが入るまではそっとしておいてあげてください。



この記事が気に入ったらサポートをしてみませんか?