見出し画像

現場で使えるSRE

先日、レゾナント大学でSREについてお話をさせていただく機会をいただきました。SREをこれから導入したいけれど何をすれば良いのという方や組織を対象に、ぼくの経験談をお話しさせていただきました。

kurashiruの奇跡

ぼくは1人目のSREとして2016年12月にdelyにジョインしました。

リリースから1年7ヶ月で日本国内1000万ダウンロードというのは、あのメルカリと同じぐらいの成長スピードです。このkurashiruの成長をどのように支えたのか、技術面と運用面に分けてご紹介していきます。

信頼性を高める

1年7ヶ月で1000万ダウンロードということは単純に考えると1日1万人以上のユーザーが増える計算になります。毎日毎日1万ユーザーが増えることに耐えながら、数ヶ月後の数百万ユーザーの増加にも備えなければなりません。時間が足りない中でやりたいことがすべてできるわけではありません。その中で最優先事項となるのはスケーラビリティの確保でした。

スケーラビリティを確保するためには、モニタリングやリリース手順の自動化、インシデント対応や根本原因分析など広い範囲でシステムを改善し、ボトルネックを解消する必要があります。

ボトルネックの分類

ぼくはボトルネックについて考えるとき大まかに5つに分類して考えています。

CPU、メモリ、ディスクI/O、ネットワークなどのリソースが飽和しているかつまりいずれかの性能を使い切ってしまったのか、それとも使い切っていない場合は設定がリミッターになっているのか。

1つのボトルネックを解消することで次のボトルネックが見えてきます。そうして1つずつ解消していくことでスケーラビリティは確保されます。




この記事が気に入ったらサポートをしてみませんか?