見出し画像

ULINKの分析|SATA HDD 長レイテンシ読み取りランキング

本稿はQNAPのパートナーULINK社の出張記事です。ULINK は HDDやSSDの寿命をAIで予測するツールを提供する企業で、QNAPは同社と協業し NAS 専用の「DA Drive Analyzer」を提供しています。
ドライブ故障予測のプロフェッショナル、ULINKによるHDD&SSDの豆知識をご紹介していきます!

コンピュータでローカルファイルを開いたとき、開くのに時間がかかると感じたことはありますか。ファイルを開くのに時間がかかりすぎると、開いているアプリケーションを終了して、もう一度ファイルを開こうとするかもしれません。このようなことが定期的に起こるようであれば、新しいコンピューターや新しいドライブの購入を検討する時期に来ているかも。これは、ドライブの速度を示す一般的な指標である読み取りIOPSが比較的高くても起こる可能性があります。

しかし、このようなイライラするユーザー体験は、待ち時間の長い読み取り回数と呼ばれるものに反映される可能性があります。舞台裏では、システムがドライブからデータを読み取る要求を送信するたびに、ドライブがその情報をシステムに返すのにかかる時間が記録されます。読み取り要求が一定時間以上かかると、システムは待ち時間の長い読み取りカウントを増やします。HDDの場合、通常、読み取りコマンドに1000ms+(読み取り中のセクタ数÷256)×2ms以上の時間がかかると、長時間の待ち時間読み取りカウントが増加します。

HDDのレイテンシが長い読み出しは、通常、過剰な読み出し再試行によって引き起こされる。これらの過剰な再試行には、不良セクタと書き込み不良の2つの原因があります。不良セクタ、または破損したディスク・メディアは、製造工程中に発生した欠陥、または製造工程後に発生したパーティクルの緩みやヘッドのクラッシュによって引き起こされる可能性があります。データの書き込み不良は、書き込みが弱かったり、トラック外に書き込まれたり、振動によって隣接トラックのデータが上書きされたりした場合に起こります。これら2つの理由により、ドライブは通常、ヘッドの位置や電気的強度をわずかに変えながら、読み取りを数回再試行します。そして、再試行するたびにヘッドがもう一回転する必要があるため、読み取りが成功するまでに数回転、つまりより長い時間を必要とする場合があります。

ドライブの健全性予測における遅延の長い読み取りデータの重要性

さらに、ULINK DA Drive Analyzerの機械学習アルゴリズムをトレーニングしてドライブの寿命を予測する際、長い待ち時間の読み取りデータには高い重要度が与えられていることに気づきました。これは、特に他の予測因子と組み合わせてドライブの残存寿命を予測する際に、遅延の長い読み取りデータが有用であるとアルゴリズムが判断したことを意味します。

ユーザー・エクスペリエンスの遅さがこの指標に反映される可能性が高いこと、またこの指標とドライブの寿命の関係があることから、いくつかのドライブ・モデルを長時間の待ち時間読み取りデータで比較し、どのドライブ・モデルが良い結果または悪い結果を出したかを確認するのは興味深いことだと考えました。

データ収集プロセス

ドライブモデルのランキングに使用したデータは、2023年5月にNASユーザーから収集したSATA HDDヘルス・データです。同月内に少なくとも隣接する2日間のデータがあるドライブを使用しました。各ドライブについて、読み取りコマンド・カウントはもともと生涯実行合計値として報告されていたため、日次の差を計算することで日次値に変換しました。長い待ち時間の読み取り回数は、もともと日次値として報告されていたため、そのまま使用した。

さらに以下のドライブを除外しています。

  • モデル情報のないドライブ

  • ASCII以外のモデル情報を持つドライブ

  • 長い待ち時間の読み取り情報または読み取りコマンド数の情報を報告しないドライブ

  • 読み取りコマンドを発行していないドライブ

  • 電源オン年数が4年から5年のドライブ(しばらく使用された後のドライブのランキングに関心があったためと、ランキングにおけるドライブ年齢の交絡の可能性を制御したかったため)

各ドライブについて、読み取りコマンドに対する長い待ち時間の読み取りの比率を計算し、その比率が異常値(すなわち、Q3を1.5 IQR上回る)であるドライブを除外しました。これは、ドライブのモデル間で典型的なユーザー・エクスペリエンスを比較できるようにするためです。少なくとも 100 台のドライブを持つドライブモデルを保持しました。次に、各ドライブモデルについて、総リードコマンドに対する総レイテンシ読み取りの比率を計算し、得られた数値に100万を乗じました。この比率を「長レイテンシ読み取り比率 (LLR Ratio)」と呼び、ドライブモデルのランク付けに使用しました。この結果、120のドライブ・モデルと135,501のドライブがランキングに残りました。

表1: ディスクドライブLLR(Long Latency Read)ランキング(4年前のドライブ)

注意事項

  1. Cap(TB)は、指定されたドライブモデルのテラバイト単位の容量を示します。

  2. Avg POYは、指定されたドライブモデルの平均電源オン年数です。

  3. Total LLR Countは、指定されたドライブモデルにおける長レイテンシ読み取り数の合計です。

  4. Total Read Cmds (Million)は、指定されたドライブ・モデルの読み取りコマンドの合計を100万で割ったものです。

  5. LLR比率 = 合計LLRカウント / 合計読み取りコマンド数(百万)

  6. 長い待ち時間の読み取り比率が異常値であるドライブ・モデルは、太字で強調表示されています。

ランク番号の低いドライブモデル(例えば、ランク1~10)は、長い待ち時間の読み取り比率が低く(つまり、長い待ち時間の読み取りが発生する読み取りコマンドはわずか)、一般に、読み取りでラグが発生する頻度は低いと予想されます。ランク番号の高いドライブモデル(111~120など)は、長い待ち時間の読み取り比率が高く、ランク番号の低いドライブモデルよりも読み取りでラグが発生する頻度が高いと予想されます。ランク番号が最も高い(ワースト)10 のドライブモデルは、長時間の待ち時間読み取り比率が例外的に大きい(Q3 を 1.5 IQR 上回る)。

平均電源オン年数、読み取りコマンドの総数、および容量TBはいずれも、長時間待ち時間読み取り比率と有意な相関(p > 0.05)を示しませんでした。つまり、これらの変数がドライブ・モデルの順位に及ぼす交絡効果は最小限であったといえます。

制約

結論を先に述べると、上記のランキングにはいくつかの制約があります。第1に、ドライブのランキング結果に影響を与えた可能性のあるユーザー固有の要因であるコマンドごとのファイルサイズについては、そのような潜在的な交絡を制御するデータがなかったため、制御することができませんでした。第2に、ドライブのランキングは、電源投入後4~5年に相当するドライブに基づいているため、これより古い、または若いドライブに対してランキングを一般化することはできません。

まとめ

いくつかのドライブモデルを比較し、発行された読み取りコマンドの数によって正規化された、待ち時間の長い読み取りによってランキング化しました。このランキングは、特定のドライブモデルを使用した場合に、ユーザーがどの程度の遅延を感じるかについて、ある程度の洞察を与える可能性があります。また、このランキングは、それ自体がドライブの故障の指標になるとは言えませんが、潜在的なドライブモデルの寿命の指標になる可能性もあります。

(元記事↓)


世界有数のNASメーカー、QNAP株式会社の公式noteです。