見出し画像

【Octoparse X FANZA】初心者でもできるスクレイピングのテクニック大公開【Python不要】

「スクレイピング」という言葉をご存知でしょうか?

「Web上から必要な情報を取得し、取得した情報を加工する」というのがざっくりとした定義です。

最近の副業ブーム、アフィリエイトブログとかを始めようとする方はWebサイトの情報を簡単に自動で拝借できないかなーとか考えたことがある方も多いと思います。

そのやり方を調べるあなたは「Python」というプログラミング言語の存在もおそらくご存知のはず。

「極めれば何でもできそうなスゴい言語!初心者でもできる!!」みたいなノリで学習・紹介系の動画もYoutubeなんかにはいっぱいあるわけですが、僕は挫折しました。

だって意味わかんないんだもん…。なんだよSeleniumとかPandasとか…日本語で喋れよ…って。(涙目)

Pythonの環境設定からしてVisual StudioとかanacondaとかGoogle colaboratoryとか色んな種類があって、違いもよくわからないまま僕は投げ出しました。

それでもスクレイピングを諦めきれずに色々考えた結果、僕でもできたスクレイピングツールがあったのでご紹介します!

僕が出会ったのはWebスクレイピングツールの1つ「Octoparse」。

公式サイトも日本語に対応しているけどきっとネイティブの日本人は推敲していないんでしょうかね。最近は日本語も普通に読めるレベルになってきましたが、僕が手を付けたころは動翻訳を思わせるぎこちない日本語が怪しさを醸し出していました。

ただスクレイピングはちゃんとできる優れものなのでご安心ください。

プログラミング未経験でも直感で設定できたので、以下そのテクニックについて大公開しちゃいます。

※この記事は2021年4月に編集しています。サイトやOctoparseの仕様変更で使えなくなるかもしれませんので、予めご了承ください。あとあくまで使用は自己責任でお願いいたします。

1.Octoparseの導入

Octoparseの特徴とか導入の方法はこっちのサイトの方が詳しいのでご参考に。

https://agency-star.co.jp/column/octoparse/

Octoparseは無料プランで10種類のスクレイピングを設定することができます。

ここでポイントなのは、同じような構造をしたwebサイトはURLリストとして設定してしまえば1つのジョブ内で一気にスクレイピングできるということです。

無料は同時に2つまでのジョブ実行・ローカルへの保存のみですが、有料だと同時にいくつもジョブを実行出来たり、定期的なジョブ実行ができたり、クラウドに保存できたりするみたいです。僕は無料でも十分使えると思いますが。

2.FANZAで試してみるURL

今回はFANZAの【巨●】でタグ付けされた新着DVDと【人●・主●】でタグ付けされた人気DVDの一覧をスクレイピングして、以下の情報をexcelデータとして保存したいと思います。

・作品紹介ページのURL
・サムネイル画像のURL
・作品のタイトル
・発売日
・女優名
・監督名
・シリーズ名
・メーカー名
・ジャンルの一覧
・品番id
・内容紹介文

まず通販DVDのキーワード検索画面のurlを指定してみます。

※画像や文字は検閲の都合上、伏字やモザイク編集をかけています。

①【●乳】で検索したときのDVD一覧を新着で表示した画面

fanza巨乳検索画面

②【●妻・●婦】で検索したときのDVD一覧を新着順で表示した画面

fanza人妻検索画面

2つともwebサイトの表示はほとんど一緒ですよね。
というわけで、これら2つはOctoparse上では一気にスクレイピングの対象とすることができます

ページネーション(「次ページ」とか「2ページ~●ページ目まで」とか)も設定はできますが、わからなければ2ページ目の検索結果のURLを無理やりURLリストにぶち込んでしまえばいいんです。

https://~~~/sort=date/page=2/

のように、だいたいは"/page=●"というのをURLの後ろにつけるだけですから、簡単ですね。

さっそくやってみましょう。

ここから先は

3,775字 / 15画像

¥ 3,000

この記事が気に入ったらサポートをしてみませんか?