見出し画像

TWSNMP FCフィードバック回答:SNMPポーリングが徐々に動かなくなる

今朝は5時前に、助手の猫さんが起こしてくれました。ご飯ではなかったよいで、フィードバックの調査を早くしなさいということのようです。
ちなみに、TWSNMP FCのフィードバックは、

のような仕組みになっています。匿名で送信できるように考えたものです。代々助手の猫さんがメールが来たことを知らせてくれます。
メールで返信できないので、回答はNoteかGitHUBのIssuesに書くことになります。

昨日から調査している

のフィードバックの質問に回答を頂きました。

【SNMPポーリングが徐々に動かなくなる】
フィードバックのご確認ありがとうございます。
以下の点について回答します。

・ポーリングが動いていないとは、ログが記録されていないという意味ですか?ポーリングの最終実行日時が変わらないという意味ですか?
 →ログも記録されず、ポーリングの最終実行日時も変わりません。
  ログ確認すると途中で記録が止まっているようです。また、一部はログ確認を押してもグラフと集計のボタンが表示されないものもあります。(ただ、結果には最後のポーリング結果は表示されています)

動作しないポーリングの状態は、どうなっていますか?不明のまま?
 →最後にポーリングされた結果の状態で止まっています。

動いていないポーリングの共通点は、SNMP以外にないですか?
 →ありません。
  現時点で正常に動いているものも現在230件に減っており、正常に動いているものも徐々に減っています。

逆に動いているSNMPのポーリングに共通点はありませんか?
 →モード別に記載しますが、statsとtrafficは止まっているポーリングは現状ありません。
get:総数→1,199件、正常→58、ポーリング停止→1,141
ifOperStatus:総数:109件、正常→7、ポーリング停止→102
ps:総数→113件、正常→11、ポーリング停止→102
stats:総数→2件、正常→2、ポーリング停止→0
  traffic:総数→152、正常→152、ポーリング停止→0

リトライ回数を20回にするためパラメータ一括修正したことによって動作しなくなったということですか?、それとも、その前から動作しなくなった可能性があり、気付いたのが、その後?
 →気がついたのがパラメータ修正後です。その前から動作しなくなっていたかはわかりません。
  変更した理由ですが、タイムアウトによって頻繁にステータスが不明に変わることが発生していたためです。

ポーリングの結果に、エラーは記録されていますか?
 →snmpif:request timeout (after 3 retries)と記載されている内容もあります。
  多くは最後に取得した内容(例:cswStackPortOperStatus.69 [改行] 1 )が表示されています。

よろしくお願いします。

この中で気になるのは、

変更した理由ですが、タイムアウトによって頻繁にステータスが不明に変わることが発生していたためです。

→snmpif:request timeout (after 3 retries)と記載されている内容もあります。  多くは最後に取得した内容(例:cswStackPortOperStatus.69 [改行] 1 )が表示されています。

です。

ネットワーク的な問題によってSNMPの応答がないか、応答が遅い状況が発生しているのではないかと思います。

ポーリングは、

  • 次回実行時刻を過ぎた

  • 前回のポーリングが実行中ではない

の条件に一致したものを前回実行が古い順に300件実行リストに
登録して実施します。ポーリングは、ほぼ並列で実行します。

ポーリングの次回実行時刻は、ポーリングが完了した時に、ポーリング間隔分先に設定します。再起動した時やポーリングの設定を変更した時にリセットします。再確認の時もリセットします。リセットすれば、即実行されます。再確認やポーリングの設定を変更しても問題に変化がないのは、
前回のポーリングが実行中
の条件で開始されないのではないかと思います。

存在しないIPアドレスのノードにSNMPのポーリングを設定して、タイムアウトとリトライを最大値に設定すると、かなり長いあいだ状態は不明のままになります。

ポイントは

タイムアウトによって頻繁にステータスが不明に変わることが発生していたためです。

に理由かと思います。ポーリングの対象が同じものであれば、そのエージェント、別の対象ならネットワーク経路上のFWなど、FWなどを経由していないのであれば、PCの内部FWや、セキュリティーソフトの影響などが考えられます。

タイムアウトとリトライを小さくすれば、多くのポーリングに

snmpif:request timeout (after 3 retries)

が記録されるのではないかと思います。

ちなみに、私の環境のSNMPエージェントの応答時間は、長くて数十mSecです。1秒のタイムアウト設定で、タイムアウトすることはないです。

明日に続く


開発のための諸経費(機材、Appleの開発者、サーバー運用)に利用します。 ソフトウェアのマニュアルをnoteの記事で提供しています。 サポートによりnoteの運営にも貢献できるのでよろしくお願います。