見出し画像

【Octoparse X FC2コンテンツマーケット】初心者でもできるスクレイピングのテクニック大公開【Python不要】

「スクレイピング」という言葉をご存知でしょうか?

「Web上から必要な情報を取得し、取得した情報を加工する」というのがざっくりとした定義です。

最近の副業ブーム、アフィリエイトブログとかを始めようとする方はWebサイトの情報を簡単に自動で拝借できないかなーとか考えたことがある方も多いと思います。

そのやり方を調べるあなたは「Python」というプログラミング言語の存在もおそらくご存知のはず。

「極めれば何でもできそうなスゴい言語!初心者でもできる!!」みたいなノリで学習・紹介系の動画もYoutubeなんかにはいっぱいあるわけですが、僕は挫折しました。

だって意味わかんないんだもん…。なんだよSeleniumとかPandasとか…日本語で喋れよ…って。(涙目)

Pythonの環境設定からしてVisual StudioとかanacondaとかGoogle colaboratoryとか色んな種類があって、違いもよくわからないまま僕は投げ出しました。

それでもスクレイピングを諦めきれずに色々考えた結果、僕でもできたスクレイピングツールがあったのでご紹介します!

僕が出会ったのはWebスクレイピングツールの1つ「Octoparse」。

公式サイトも日本語に対応しているけどきっとネイティブの日本人は推敲していないんでしょうかね。最近は日本語も普通に読めるレベルになってきましたが、僕が手を付けたころは動翻訳を思わせるぎこちない日本語が怪しさを醸し出していました。

ただスクレイピングはちゃんとできる優れものなのでご安心ください。

プログラミング未経験でも直感で設定できたので、以下そのテクニックについて大公開しちゃいます。

※この記事は2021年4月に編集しています。サイトやOctoparseの仕様変更で使えなくなるかもしれませんので、予めご了承ください。あとあくまで使用は自己責任でお願いいたします。

FANZA編はこちらからどうぞ。

1.Octoparseの導入

Octoparseの特徴とか導入の方法はこっちのサイトの方が詳しいのでご参考に。

https://agency-star.co.jp/column/octoparse/

Octoparseは無料プランで10種類のスクレイピングを設定することができます。

ここでポイントなのは、同じような構造をしたwebサイトはURLリストとして設定してしまえば1つのジョブ内で一気にスクレイピングできるということです。

無料は同時に2つまでのジョブ実行・ローカルへの保存のみですが、有料だと同時にいくつもジョブを実行出来たり、定期的なジョブ実行ができたり、クラウドに保存できたりするみたいです。僕は無料でも十分使えると思いますが。

2.FC2コンテンツマーケットで試してみるURL

今回はFC2コンテンツマーケットの【素人】でタグ付けされた新着動画の一覧をスクレイピングして、以下の情報をexcelデータとして保存したいと思います。

・作品紹介ページのURL
・サムネイル画像のURL
・作品のタイトル
・発売日

まずキーワード検索画面のurlを指定してみます。

①【素人】でタグ付けされた動画の新着順一覧のURLを用意

ページネーション(「次ページ」とか「2ページ~●ページ目まで」とか)も設定はできますが、わからなければ2ページ目の検索結果のURLを無理やりURLリストにぶち込んでしまえばいいんです。

のように、だいたいは"&page=●"というのをURLの後ろにつけるだけですから、簡単ですね。

さっそくやってみましょう。(以下、検閲対策のため画像の一部にモザイク処理などをかけています)

ここから先は

2,413字 / 13画像

¥ 3,000

この記事が気に入ったらサポートをしてみませんか?