見出し画像

FANZAの内部HTMLからサンプル画像のURLをEXCELの関数で抽出するテクニック

最近の副業ブーム、アフィリエイトブログとかを始めようとする方はWebサイトの情報を簡単に自動で拝借できないかなーとか考えたことがある方も多いと思います。

と言ってもPythonはなんだかよくわからなくて挫折しました。

そこでOctoparseというスクレイピングツールを使ってFANZAのAVの作品情報を抽出してみたのが前編。

(前編はこちら)


今回は前編で各作品の内部HMTLを抽出したので、そこからさらにexcelを使ってその作品のサンプル画像のURLを抜き出すところにチャレンジします。

※この記事は2021年4月に編集しています。サイトの仕様変更で使えなくなるかもしれませんので、予めご了承ください。あとあくまで使用は自己責任でお願いいたします。

1.抽出した内部HTMLを見てみる

さて、前編でFANZAの作品ページから内部HTMLをぶっこ抜きました。

excelでエクスポートされた状態は、きっと下のようになっていることでしょう。(【品番】とか●●の部分は実際には作品のIDやタイトルとかなので、今は置き換えています)

<a class=""crs_full"" name=""sample-image"" id=""sample-image1""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-1.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image2""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-2.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image3""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-3.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image4""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-4.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image5""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-5.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image6""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-6.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image7""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-7.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image8""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-8.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image9""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-9.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image10""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-10.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image11""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-11.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image12""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-12.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image13""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-13.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image14""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-14.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image15""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-15.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image16""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-16.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<br>
<div class=""tx10"">画像はイメージです。実際の商品画像とは異なる場合がございます。<br></div>

なんだか似たような構造が16回繰り返されていますね。

この16回というのは、その作品ページのサンプル画像が16枚あったことを意味しています。

調べたところ、FANZAの作品ページに対するサンプル画像は0~20枚まであるようです。

ランダムに0~20回繰り返されている構造から、過不足なく画像のURLを抽出するのが今回の目的です。

画像のURLは言わずもがな、<img src=""●●.jpg"">になっているところの"●●.jpg"の部分ですね。

ここから先は

1,606字 / 1画像

¥ 1,000

この記事が気に入ったらサポートをしてみませんか?