見出し画像

SEOの文脈で統計を行う時にどんな観点でやっているかをシェアします

Googleのアルゴリズムのコアアップデートの前後でデータ分析を行っているのですが(もはや趣味に近い)、SEOの文脈で統計を行う時にどんな観点でやっているか知っておくとよさげな内容です。”Multi regression seo”とかでXで検索してもほぼ情報もないので🤔個人的な観点ですがよろしければ参考まで。


統計の観点について

・分析は【順位予測のモデル作り】を前提とする

・目的変数は順位、もしくは順位スコアなので、連続値であり、基本的に手法は重回帰分析でOK

・pythonなどの環境を作らず、エクセルで重回帰をする場合は説明変数は16個までとなる
 →その場合サンプルサイズは17個以上必要

※サンプルサイズが16個以下の場合はエラーとなります。これはrank落ちと言われます。連立方程式を解くにあたって解きたい変数に対して方程式の数が足りないよ!と怒られている状況です

まず見るべきはモデルの決定係数。R2(R二乗)。
 →変数を入れ替えて試す場合は補正R2を比較して検証します。
 →1に近いモデルが優秀。
 →変数を減らしながら検証するのを後方削除法といい、変数を増やしながらR2を検証するのを前方選択法といいます。

・次に見るべきはt値の絶対値
 →どの説明変数が効いているかが分かるので個人的にはPSI指標、Core web vitalsの中でどの変数が効いてるのかをこれで確認できると思ってます
  →チューニングに取り掛かる際、どの指標から取り掛かるべきかのエビデンスになるので、個人的に重視してます。

※t値の基準は2以上と言われることが多いが、1.5くらいから見ても良いと個人的には思います。
※変数の信頼性のためにp値もチェックすることを忘れずに。

・説明変数の改善幅とスコアの変動幅
 
→残差という概念があります。これは予測モデルの式ができたときに、観測データを代入して、実際のスコアとどれくらいギャップがあるかを示す数字です。
 →残差を確認する傍ら、例えばcore web vitalsをチューニングするにあたりどれくらい改善すると目的変数がどれくらい変化するかを見ておく。

データ取得の観点について

・検証するデータはフィールド値が望ましい。
 
→ラボ(lighthouse)の数値はAPIを叩くタイミングで変わってしまう(はず)

・origin fallbackに注意
 
→データが足りないときにページ単位のスコアが出せず、origin-level のデータが返ってきます。

※origin fallbackの値で判定できるので、自分が見ているデータがページ単位のデータなのか、origin(サイト全体のページの値)のデータなのかを把握しておくことは大事。

観測データの観点

ここが最も大事ですが、事業会社においても、SEO支援会社においても、他人がアクセスできないデータをいかに分析に組み込んでエッジを創るか、遊び心が大事だと思います。

semrushなどもapiを提供してますが、ヴァリューズも独自の行動データを持っており、Googleさんと共同研究をしているポジションなので(バタフライ・サーキットという情報探索モデルはヴァリューズとGoogleとの共同研究の結果です)、このデータも分析に組み込んでます。

近々、常時モニタリングしているキーワード数もさらに拡大させるつもりです。SEOの文脈では、Googleの外にいながらGoogleのアルゴリズムに最も詳しいという立ち位置を狙って頑張ってます。

この記事が参加している募集

仕事について話そう

この記事が気に入ったらサポートをしてみませんか?