見出し画像

障害調査が遅くなるログ

こんにちは、辻村です。以前障害を早く調べてもらうためにはどのようにすれば良いかという記事を書きました。今回は、こんなログを送ると調べる側で解析の手間がかかって調査が遅くなってしまうということについてお話をしたいと思います。すべて私の経験からの実話です。ご参考になれば幸いです。

調査のスピードが大幅に落ちてしまうログ

ログを送っていただけるのはありがたいのですが、たまに、以下のようなログを見かけます。これらのログは調べてもらえないことはないですが、調査のスピードが遅くなってしまったり、正直嫌がられるので、お勧めしません。

(1) FAX

「ファックスって何ですか?」と言う世代の方もいらっしゃると思いますが、電話回線経由で送られてくる書類のコピーみたいなものです。送信元がファックスの機械に原稿をセットして、相手先の電話番号を回すことで書類をスキャンし、受信側でその書類のコピーが印刷されるというものです。

ファックスは紙で送られてきますから、色々デメリットがあります。
例えば、ログとして何百枚と送られてきても、中身を検索することはできませんから、例えば、"error"と書かれている行だけを抽出してみてみるというようなことが簡単にはできません。

また、容易に共有することもできないので、時間帯で担当者が変わるような運用には、むいていません。

理論的には、OCRなどで取りこめばいいのでしょうが、「なんでデジタルでくれないの」というのは正直なところです。

(2) 圧縮してかつパスワードをかけてあるログ

ログを圧縮するのは問題ないのですが、時折、「パスワードを別途送付します」という方がいます。ですが、これはあまり意味がありません。

一つ目の理由は、あまり意味がないと言うことです。

通常ブラウザからアップロードしていただく際にはHTTPSになっていてそもそも暗号化されています。そもそもベンダーに届けば複数の担当者で共有することになるので、あまり意味がないように思えます。
(私の存じ上がるベンダー各社ではログを扱えたりする人を制限したり、解析システムからの持ち出しを制限・監視したりしています。)

二つ目の理由は通常使っているであろう自動化の仕組みが使えないと言うことです。

大量のチケットをさばくベンダーでは、送られてきたログのウイルススキャン、解凍、人間に渡すまでの初期診断などを自動でおこなっている場合があります。パスワードがかかっているとこれらの作業が止まり、すべてまたは一部を手作業で都度都度おこなうことになるので、当然スピードは落ちます。

(3) コマンドの出力の画像

症状を説明したりするには画像は有用です。百聞は一見にしかずという言葉があるとおりです。

しかしながら、構成情報を出力したり、テスト結果をコマンドで実施しているのに、結果が TeraTermの画面をキャプチャしたものというのは解析する側からすると手間になります。

例えば、問題があったサーバー名がテキストで書かれていれば、容易にコピーしてログを解析したりするのに使えますが、画像だと画像を見ながらタイプすることになります。解析する側の間違いも起きやすく、あまりお勧めしません。

(4) Excel

Excel は素晴らしいツールです。統計情報を扱ったり、傾向を見たり、相関を考えるためにつかえる様々な機能があります。しかしながら、あなたが、もしログを Excel に貼り付けようとしているなら、やめてください。その内容が元々テキストならば、テキストを整理して送ってください。

Excelは様々なバージョンがありますし、相手が必ず開けられる環境であるとも限りません。また、解析サーバー上ではそもそも開けない様にしてある場合もあります。

Wordも同様です。画面の手助けを借りつつ、作業手順を説明しなければいけないなら別ですが、ほとんどの場合は、ちゃんと時系列とコマンド、結果を列挙することで事足ります。頑張って貼る時間があったら、テキストを整理しておくってください。

(5) テキスト形式のパケットキャプチャ

バイナリ形式で集めることが標準の tcpdump などの形式をわざわざテキストに展開して送ってくる方がいます。ファイルが大きいから「このあたりで問題が発生しました」と探してくださった親切心なのが分かり有り難い限りです。しかし、解析する人が、別の角度から見たいときに手がありません。

バイナリ形式のファイルやベンダー特有のファイル形式はそのまま送っていただくと、同じものを送っていただくやり取りが減るのではないかと思います。

(6) 障害発生の場所・時間帯を含まないログ

驚かれるかもしれませんが、障害対応をしているとよくあるのが、以下のようなログが送られてくる事例です。

(a) 障害が発生したシステムや時間と全く無関係のログ
(b) 障害が発生した時間帯以外の、障害が発生したシステムのログ

(b) は正常時の動作の参考になるので 1 つくらいは送っていただいてもいいと思いますが、発生の時間も場所も関係ないログはまったく意味がありません。

私個人の経験ですが、こういうログを送って来られるとき、障害内容すら説明されていないことが多いです。解析する人はログに手をかざして障害内容と発生部位や時間を判断するわけではないので、きちんとご説明いただけますと助かります。

最後に

今回は、どう言うログを送ると調査が遅くなってしまうかについて書いてみました。ベンダーは「これ調べづらいんだよね」とはお客様に言いづらいのので、何かの参考になればと書かせていただきました。

再度まとめると、以下のようなログがありました。

(1) FAX
(2) 圧縮してかつパスワードをかけてあるログ
(3) コマンドの出力の画像
(4) Excel
(5) テキスト形式のパケットキャプチャ
(6) 障害発生の場所・時間帯を含まないログ

もし、他にも「こんなログは調べづらいんだよね」という例があれば教えてください。最後まで読んでいただき、ありがとうございました!

この記事はここまでです。 最後まで読んでいただいてありがとうございます。 気に入っていただいたなら、スキを押していただいたり、 共有していただけるとうれしいです。 コメントや感想大歓迎です!