見出し画像

Web上の情報を効率的に集める方法:Webスクレイピング by Octoparse

はじめに

今回は、データを扱う研究者向けの情報として、大量の検索結果一覧の情報を効率的に収集する方法を紹介します。

まず大前提として、情報を収集した後に研究に使用したり公開したりして良いのか、しっかりと確認してください。今回ご紹介する内容は、すでにデータが公開されているが煩雑な申請を必要とし、ほぼ同じ内容が一般公開されているような、出典を明記すれば誰でも情報を利用可能な場合に適したtipsとなっています。

Webスクレイピングとは?

まず、ウェブサイト内を周回するツールのことをWebクローラーと言います。そして、周回するだけではなくWeb上の情報を自動的に集めるツールをWebスクレイピングツールと言います。

Webスクレイピングツールを持つ有名なWebクローラーについては、以下の記事をご覧ください。

Octoparce

今回使用するのは、Octoparse 8.1(Wins & Mac対応)です。上の記事を書いているのもOctoparse Japanさんですね。マクドナルドさんが、「日本のファーストフード店10選」みたいな記事を書いているような感じで面白いですね。

このソフトウェアを選んだ理由は、主に2つです。(1)フリープランでも機能が豊富であることと、(2)抜き取りたい必要な情報を指定しやすい視覚的なUIデザインであることです。

最近のWebサイトは複雑な構造をしているものも多く、特に公的機関のサイトはシンプルで洗練されたデザインではなく、情報やタブなどが過多であるケースが多いです。したがって、収集するデータの指定がしやすくないと、プログラムを書くことに多大な時間を割くことになります。

以上の点から、Octoparceがおすすめです。

介護サービス情報公開システム

この記事で用いる具体例は、「介護サービス情報公開システム」です。

厚生労働省や地方厚生局は、医療機関の一覧(名称、種類、住所、開設者、指定登録年月日、勤務医数など)をエクセルやPDF形式で公開しています。

他方、介護事業所の一覧はデータファイルとして公開していません。しかし、誰もがすべての認可済み介護事業所を検索できるよう、介護サービス情報公開システム内で公開しています

したがって、そこまで詳細なデータは要らないが、各介護事業所の基本情報(名称、種類、住所、従業員数、利用者数など)を必要とする場合、検索結果に出てきた情報を一つひとつコピペしてエクセルに貼り付ければ、誰でもデータを入手することが可能です。もちろん、使用する場合は出典を明記する必要があります。

しかし、介護事業所の数は尋常ではありません。すべてを確認してはいませんが、北海道だけでも一万弱の事業所があります。こられをすべて手作業で確認した場合、5年くらいはかかるでしょう。

つまり、Webスクレイピングの応用例にもってこいのサイトなのです。

本題:Webスクレイピング方法

ここから先は

2,495字 / 16画像

¥ 1,000

サポートしていただけますと幸いです。サポートの使い道は、研究に使用する機材や音楽機材に充当させていただきます。