クラウドで障害が発生して思ったこと

宿題

8/26(月)に「日経記者によるnoteで書くための日経電子版活用術」に参加して宿題をいただきました。

ちょうど8/23(金)にAmazonが展開するクラウド「アマゾン・ウェブ・サービス(AWS)」において大規模な障害が発生した際に記事をネタに書こうかと思います。

AWSで障害が発生

障害が発生したのは東京リージョン(関東のどこかにあるデータセンター)で、お昼頃に発生した障害は夕方頃まで復旧するのに時間がかかったとのこと。東京リージョンでこれほどまでの長時間障害になったのは初めて(?)だったと思われます。

日経新聞さんも少なからず影響があったとか...

個人的な仕事としてはほとんど支障ありませんでした(厳密には復旧までひたすら待った)。
しかし、サービス利用者からの問い合わせはあったようで今回の障害の話題性は結構大きかったと感じました。

なぜ話題になった?

もちろん日経新聞含め他の媒体でも取り上げられたことがもありますが、今回これだけ話題になったのは以下の3つの点があったからだと考えました。

サービス利用者が多い午後の時間帯、かつ長時間の障害

発生時間からして、時間あたりの利用者が多いタイミングだったのが悪かったと思います。ここは月末でなかったのが幸いで、自分自身も今回の障害が8/30に発生していたらかなり影響受けていたと思う

被害を受けたサービスが多かった

AWSはIaaSとしてのシェアが多いため、色々なサービスで利用されています。そのためサービス提供側だけではなく、サービス利用者の多くの人に影響が出る形になってしまったんだと思います。

今回の障害を受け、ソフトバンクグループ傘下でスマートフォン決済を手掛けるPayPay(ペイペイ、東京・千代田)では支払いや入金ができなくなった。

PayPayやファミペイなどの決済システムの利用者は最近増えていたので、これで困った人も結構いたはず。
サービス系でもSmartHRやSanSan、freeeといった企業で影響が出たので、業務に支障が出る人もいたかもしれない。
ソーシャルゲームも有名所では割とAWSを利用しているところが多く、これで影響を知った人も多かったかと。

冗長化構成をしていても今回の障害が発生した

冗長構成自体はいろいろなパターンがあり、クラウドサービスを利用する場合はだいたいは考慮して設計していると思います。
しかし、技術的な対策をしていたにもかかわらず、発生してしまった点が話題としては大きいかなと。

これについてはAWSの公式見解などが発表されていて、なかなか興味深い...

上記の3つの要素が組み合わさって、今回のAWSの障害はわりと広く知れ渡ったのではないかと思います。

サービスを利用する人達へ

利用者側に対しては、今回の障害が発生したからといって「クラウドは信用できない」とか「AWSはダメ」とならないでほしいと思います

クラウドは利便性やコスト面のメリットがある半面、業務に一時停止を招くリスクをはらんでいる。クラウドの利用を検討する企業は、どのような用途に使うのか慎重な見極めも求められる。

業務停止のリスクをはらむのはクラウドだけではないし、今回の障害があったからといってシステム構成を見直したりする企業はあまりないのではないかと思います(コストがかかる)。 

障害が発生しても慌てずに情報を追うなりして、復旧まで温かい目で見守って欲しいと思います(そうは言ってもはやくなんとかしてくれ!と、言われそうですが)。

サービスを提供する側の努力

サービス提供者は自分達が提供しているサービスが影響を受けても、可能な限り利用者に寄り添ったメッセージや情報を発信する努力ができれば良いと思います。

今回の障害ではTwitterなどで状況を発信する企業も多かったと思います。

クラウドを利用したサービスは今後も増え続けていくので、今回のような障害が発生したときの情報提供の仕方は、企業の信頼やユーザーの体験にも繋がるので、今後とても重要になっていくポイントだと思います。

最後に

piyologさんのまとめ記事がとても良いのでいつも見てます。


最後まで読んでいただきありがとうございます! いただいたサポートは僕が読みたい書籍代に使います!!