見出し画像

【スクレイピング】pythonでスクレイピングを始めてみよう!

こんにちは!
この記事ではスクレイピングを初めてみたい人向けにpythonでのスクレイピングを解説します。

初心者向けなので基本的なことしかやりません!スクレイピングを用いた応用的な内容は別の記事で解説しようと思います。

スクレイピングって何?

WebスクレイピングとはデータをWebページから自動的に取得する手法です。

スクレイピングを用いることで以下のようなことができます。

  • オンラインショップから商品の価格を調べて比較する

  • 複数のニュースサイトから特定のジャンルの最新記事を集める

  • 特定の地域のイベントやコンサートの情報を集めて一覧にする

他にもいろいろなことができますが注意点もあります。

それはスクレイピングを禁止しているWebサイトが多いことです。
理由をいくつか挙げると、

  • サーバーへの負荷の増加

  • 自社データの保護

  • 個人情報の保護

  • 著作権や知的財産権

などがあります。これらの理由からスクレイピングを禁止しているWebサイトが多いです。

どうやってスクレイピングを練習するの?

じゃあどうやってスクレイピングの練習をすればよいのでしょうか。

すべてのwebサイトの利用規約を見てスクレイピングを禁止していないかを見るという途方もない作業をするしかないのでしょうか。

もちろんそんなことはなくて、「スクレイピング練習に使ってください!」というサイトがあるので今回はそれを利用していきます。

そのサイトがこちらです。

リンク先を開いてみると分かるのですが本の情報が載っているサイトです。

ちゃんと
「We love being scraped!」
と書いています。

スクレイピング練習サイト

なのでこの記事ではこのサイトでスクレイピングの基礎を説明します!

この記事で行うこと

この記事ではスクレイピングの基礎を学ぶために以下の二つのコードを解説します。

  1. 最初のページにある本のタイトルを全て取得する

  2. ユーザーから入力を受け取り、その単語が含まれている本の情報を全ページから検索する

では早速本題に入りましょう!

1ページ目にある本のタイトルを全取得する

ここから先は

4,789字 / 6画像

¥ 300

この記事が気に入ったらサポートをしてみませんか?