見出し画像

【書評】システム障害対応に立ち向かう意義とは? - 「3カ月で改善!システム障害対応 実践ガイド」

こんにちは!会社でも家庭でも火消しに追われているあさっちです。

弊社ライフイズテックでは、中学校・高校の情報の授業で利用していただくライフイズテックレッスンというオンラインの学習教材をご提供しています。
2019年にサービスを開始してから、障害が起きた頻度はそれほど多いわけではありません。ただ、多くないからこそ、対応するフローがはっきり決まっておらず、発生したときに都度その場で考えながら動いているという課題がありました。

おかげさまで、ライフイズテックレッスンは全国600自治体、4,000校、中学・高校生120万人にご利用いただく規模になり、求められるサービスレベルも高くなりました。そろそろ障害の分類やレベルに応じてフローを定義し、迅速かつ効率的にユーザーやステークホルダーへの周知、また、原因の調査と対応を実施する必要があると思い、「3カ月で改善!システム障害対応 実践ガイド」という本を手に取りました。


本のあらすじ

こちらの本では、障害対応の改善ステップを3ヶ月12週に分け、現場が直面していると考えられる課題を列挙し、そちらに合わせた改善手法が実践的に解説されています。

取り扱う改善のスコープは、障害となる事象を「担当者が認識(受付)してから、収束(暫定対応)させるまで」となっています。つまり、サービス運用の中では「そもそも障害が起こらないようにするための品質管理」や「障害収束後の真因特定と再発防止を行う問題管理」も重要ですが、本書の中では取り扱われていません。

前半のPart1(Chapter 1 ~ 3)、Part2(Chapter 4 ~ 5)では、障害対応を改善する前提となる考え方について述べられています。後半の(Chapter 6 ~ 10)が実践編です。改善のステップが時系列で説明されています。

本書を通して筆者が重要だと考えている視点がこちらの2つです。

協同すること(助け合うこと)が成功の鍵

1つ目は、サービスを開発するときは様々な関係者が協力して助け合うため、障害が起こったときも多くの関係者で乗り越えていくのが自然かつ合理的ということです。
本書では「開発チームとユーザー企業」という記載があり、B2Bのサービスが想定されているようですが、B2Cのサービスでも「ユーザー企業」を「事業部、ビジネスサイド、カスタマーサポート」などと読み替えればあてはまりそうです。

事業視点、特にサービス視点で障害対応にあたることの重要さ

プログラム上では簡単な不具合だったとしても、ビジネスやサービスから見ると利用できなかったことによる影響が大きかったということは頻繁に起こります。2つ目として、普段から事業視点、サービス視点を心がけることで、開発のときから障害を防ぎ、障害が起こったときも的確に対応することにつながると考えられます。

事業視点を持って協同することが大事

続いて、前半部分で説明されている前提となる考え方の中から、基本となる「システム障害対応の目的」「システム障害対応の改善で狙っていること」についてご紹介します。

障害対応の目的

本書では、システム障害対応の目的を以下のように定義しています。

システム障害の影響の総量を最小化し、ITサービスがもたらす価値(投資効果)を維持するため。

障害が起こってしまい対応しているそのときは、どうしてもマイナスを0に戻しているような後ろ向きな感覚になりがちです。ただ、プロダクトのライフサイクル全体として考えると、適切に障害対応を行うことは、価値の総量の最大化につながる、つまり、運用保守はプロダクトへの投資効果の毀損を防ぐという点において投資同列に扱うことができるということです。

障害対応の改善で狙っていること

システム障害対応の改善で効果が出る観点として、以下の3つが挙げられています。

  • 顧客満足観点

    • エンドユーザー(ITサービスの最終利用者)を困らせないこと

    • サービスを利用しているエンドユーザーの機会損失を最小化していく効果

  • 従業員満足視点

    • 従業員と組織のコンディションを悪化させないこと

  • 財務観点

    • 対応工数(人件費)や、障害を起因とするロスを抑えること(値引きや賠償)

障害対応の改善は、典型的な「重要だが、緊急ではない」仕事にあたり、誰もがなんとなく大事なことは認識していることだと思います。こちらのように言語化して改めてまとめると、関係者と対話しながら優先度を上げて進められるきっかけになりそうです。

感想とこれからのアクション

7年にわたり合計約1,000件の障害を分析した筆者の豊富なご経験から、障害対応を改善する具体的なステップはもちろん、これまであまり腰を据えて考えてこなかったその目的と改善の効果が整理されたとても学びになる本だと思います。私たちと同じように、以下のような方にはおすすめです。

  • 障害対応に悪戦苦闘していて、なぜ行うのか、その目的と価値を再確認したい。

  • 障害対応を改善するためにどこから手を付けて、どのような順番で進めていけばいいか知りたい。

弊社のサービスでも監視やアラートの仕組みは一通り整えていますが、これまで課題が出たときにその都度追加してきたという側面もあります。本書の後半部分も参考にしながら、正しいタイミングで必要十分な内容の情報をユーザーやステークホルダーにお伝えするアクションも含めて、これから障害対応フローの全体の仕組み化を進めていきたいと思います。

今後どのように改善してどのような結果になったかは、こちらでも随時共有していければと思っています。それでは、また!