見出し画像

コピペ・スパムサイト対処に辟易してたけど光明が射してる話

私はサイトを運営している。5年目に差し掛かり、月間2万PV~3万PVのアクセスがある。


長年悩まされているのが、スパムサイトによるコンテンツ盗用とスパムを混在されて発信されることである。

例えば、「"ganohr" -site:ganohr.net -youtube -…」(-以降に自分が利用しているSNS等のサービス名を除外する指定を続ける)と検索をすると、一時期2000件近いスパムURLを発見できた。

しかし、こちらに対しては発見した全てのURLにスパム報告を行い、現状(2020年10月10日)はついに0件となった。

それでもスパムはなくならない。

そもそも、Googleは検索結果を検索者や検索語に合わせて調整するため、特定のキーワードでSPAMを除外できても意味がない。


例えば、「ganohr googlebot」で検索すると、なんと未だに4000件を超えるSPAMがあることが判明する。

画像1


現状では、これらのスパムに以下の方法で対処している。

・検索してヒットした全てのSPAMをスパム報告する
・自サイトのドメイン否認URL否認ツールを用いて、スパム配信を行ったドメインとURLを排除する

これは本来別々のものだが、スパムリンクによるSEO順位低下への対策と、整合性のためである。

なお、バックリンクによるペナルティはSearch Console上は検出されていないが、SPAMサイトからのリンクは一切不要なためすべて拒否することとしている。


しかし、残念ながらこれらの対策はとてつもなく手間がかかる
そこである程度自動化してスパム報告を行うこととした。

ただし、スパム報告は自動で行ってよいものではない。スパム報告を行う際に、誤った報告を行うと、自サイトや運営アカウントにペナルティーが付きかねないためだ。

実際、以前は以下の手順を全て手作業で行っていた。

1.検索ワードからスパムを見つける
2.スパムのURLをコピーし、スパムレポートを開く
3.スパムレポートにURLを記載する
4.スパムレポートに検索ワードを記載する
5.スパムの詳細を記載する
6.スパムレポートを送信する
7.場合によってはreCAPTCHAを操作する
8.ドメインとURLを否認リストに登録する
9.1-8を数百回・数千回行い、8のリストを実際に登録する


やってみればわかるが、これはえげつなく大変だ。何度もコピペや画面の切り替えが必要で、数十件を超えたあたりからイライラしてくる。数件ならいざ知らず、数十件・数百件もあって途方に暮れる。

そこで、手作業の中でも重要な「1567」の作業は従来通り手作業で行いつつ、「2348」の作業を自動で行ってくれるマクロを開発して運用した


その結果、

とてつもなく楽にスパムを報告し、スパムドメインやURLを否認できるようになった。

イライラすることもない。


実際どれくらいスパムレポートが楽になったかといえば、以下の画像の通りだ。

画像2

これは過去にスパムレポートを送信した履歴だ。スパムレポートを送信すると、送信したことがメールに届く。

これを見ると、今日(2020年10月10日)だけでなんと300件のスパムレポートを送信できたことを意味する。やりすぎかもしれない(*´з`)💦

以前はどうしても1日100件も送ることはできなかった。

とりあえず、送信件数に関しては心配無用だ。なぜならこのアカウントは実際にサイトを運用し、Search Consoleに登録しているアカウントであるからだ。レポートにも「私はサイトのオーナで、私のサイトのコンテンツが盗難された上でスパムが配信されている。そのことは私のアカウントを検証すればGoogleならわかるだろう」と(英語で)明記し報告しているからだ。



画像3

(左:スパム報告に合わせて自動生成されるドメイン否認リスト、右:スパム報告のひな型を作成し、ドメイン否認リストを管理するUWSCマクロ)


なお、このマクロの使い方を一応解説しておこう。

まず、Googleの検索結果のリンクに、マウスポインタを合わせて「CTRL+I」をタイプすると、そのポインタ配下のURLを取得し、スパムレポートのひな型を生成する。

この時は自動的に、URLだけでなく検索キーワードや、レポートする本文もセットし、送信可能な状態にする。加えて、内部でドメイン否認用のリストにそのドメインとURLを記録する作業を行う。これらが完了し、あとはスパムレポートを送信するだけの状態までもっていくと、ビープ音を鳴らすようになっている。

この音が鳴ったら、報告するスパムレポートの内容を確認する。場合によってはその本文を調整し、あとは手作業でreCAPTCHAを解いて、送信をする。

マクロによる完全自動化ではなく、送信する内容を目視でチェックしているためGoogleの規約違反にならないという仕組みだ。

スパムサイトというゴミを対策するには、最も有効な方法だろう。

こうして作成したドメイン否認リストを、Search Consoleに登録すれば、私が行えるスパム対策は完了だ



しかし、これはあくまで「"ganohr" -site:ganohr.net -youtube -…」という検索結果のスパム対策でしかない。

続けて「ganohr googlebot」は4000件以上のスパムが作られており、これも近々対応していく予定である。先が思いやれるし、そもそもGoogleはなぜここまで簡単なスパムでさえ対策ができないのだろうか。

大御所ぶってても、しょせんはGoogle。スパム検出は人間の方が精度が高いということだ。


ドメイン否認リスト公開

今回の対策において作成している、ドメイン否認リストを公開する。これには明らかなスパムサイトで、且つ他サイトから画像や本文を盗用するサイトのドメインが記載されている。

そのため、これらのドメインがいかにスパムを行っても、自サイトにペナルティが課されることがなくなる。サイト運営者はぜひ導入をお勧めする。

なお、導入の仕方については、以下のリンクから当方に依頼をして聞いていただきたい(私も商売なので、登録の仕方の解説や登録の作業は有償にしている)。導入の仕方を知っている方はそのまま採用してほしい。


その上で、以下のファイルをダウンロードして採用する(このリストに著作権は主張しない予定だが、スパムでないURLやドメインを混入して公開することは禁ずる)。

このリストには2021年2月28日現在、389ドメインが含まれている。

なお「blogspot.com」及び「web.app」も否認しているため、その点は留意した方がよいだろう。なお、両ドメインともスパム内包率が異様に高い。

また、「.jp」を除く2文字ドメインで、且つスパム行為を行ったドメイン(例:ac.id、ac.inなど広い範囲で)も否認している。

注意すべき点はあるものの、日本にいるサイト運営者なら特に問題ないはずである。


最後に

最近、新たなレベルでのスパム対策を模索している。というのも、スパムを行うために使用されているIPアドレスを特定する方法に光明が差したからだ。

ただそれには、今あるスパムをまず排除した方がよく、現在格闘しているという段階だ。

しかし、これができれば当方のコンテンツを1万9千件近く(件数は概算)コピペしている糞スパムサイトを撲滅できるし、今後増えることも抑制できるだろう。

コピペスパムサイトの対策は不毛のように思えていたが、様々な効率化と努力によって、実際に進展を実感できていることを伝え、この記事を終わる

ご清聴ありがとうございました。


関連記事




記事を読んでいただき、ありがとうございます。何かの参考になりましたら、ツイッター等でシェアして頂けると嬉しいです!😉 サポートいただけるとモチベアップに繋がります!