プラグラミング学習で使えるデータソース

2023年10月18日 09:51

はじめに

プログラミングの学習では、なんらかのデータ処理を行うと実践的な学習を行うことができ、応用力が身につきます。ここでは、無料で使用できる各種データセットを紹介しています。

データセットとは

データセットとは、単にデータの集まりのことです。公開されているデータセットの最も単純で一般的な形式は、スプレッドシートまたはCSV形式です。しかし、データセットの中には他の形式で保存されているものもあり、1つのファイルであるとは限りません。
そのためデータセットによっては、関連する複数のデータを含むデータテーブルがZIPファイルになっていることもあります。

学習用データセット

Google Cloud Public Datasets
Googleのクラウド上でアクセスできる多くの公開データセットで、100以上のデータセットがあり、そのすべてがBigQueryとCloud Storageによってホストされています。
Google Dataset Serach
無料のデータセットを検索するために作られた検索エンジンです。Google Dataset Searchは、通常のGoogle検索と同じように、提供されたキーワードをもとに検索を行います。キーワードは、データセットの内容ではなく、その説明文にマッチします。
Amazon Web Services Open Data Registry
多くのデータセットを保持していて、それらをダウンロードして自分のシステムで使用することができます。また、Amazon Elastic Compute Cloud (Amazon EC2)上でデータを分析することもできます。
Microsoft Research Open Data
Microsoftのオープンデータの検索とダウンロードでき、Azureと連携することができます。
Yahoo Webscope
Yahoo Research が公開している、興味深く科学的に有用なデータセットです。非商用であれば無料で利用できます。
DataPortals
DataPortalsは、その名前からわかるように世界中の588のデータポータルへのリンクを持っています。
データソースは、都市や地域をベースにアルファベット順にリストアップされています。各ポータルは、タグ（レベル地域/地方、国、EU公式、ベルリン、OSM、金融など）で簡単に説明されています。
Data World
データカタログにある無料のデータセットを発見し、管理し、簡単にアクセスできるようにするためによく整理されたサイトです。
OpenML
機械学習研究のためのオープンなデータサイエンス・プラットフォームです。このプラットフォームはとてもすっきりしていて、すべてのセクションが整理されています。ヘルスケア、教育、気候変動、政治、スポーツなど、様々な分野の無料データセットが公開されています。

Kaggle dataset
データサイエンス関係者の間では有名なので、きっと多くの人が知っているはずです。私もよく使うので、ここに紹介します。興味深いデータセットがあり、健康、金融、銀行、教育など、ほとんどすべての異なる側面をカバーしているので、データサイエンス・コミュニティにとって非常に有益です。
UCI ML Repo
UCI Machine Learning Repositoryは、機械学習コミュニティが機械学習アルゴリズムの実証分析に使用するデータベース、ドメイン理論、データジェネレータを集めたものです。
Quandl
専門家向けに設計され、金融、経済、オルタナティブデータをデータサイエンスコミュニティのための無料のデータセットを提供するリソースです。
World Bank Data
銀行の地域やグローバルな実務と密接に連携し、ハイレベルで優れた統計データを取得する唯一のウェブサイトでマクロ、金融、セクターデータベースを保持しています。
Data.gov
農業、気候、エネルギー、海洋、地方自治体、海事、高齢者の健康など、さまざまなカテゴリーごとに分類された無料のデータセットで米国政府によって管理されています。

Data.gov.in
教育、金融、医療など、ほとんどすべての領域であらゆる種類のデータを公開されているサイトで、インド政府によって管理されています。
Grouplens
Grouplensは、ミネソタ大学のコンピュータサイエンス学部にある研究室です。映画、ローカル地理情報システム、デジタルライブラリ、サイクロパス、ブックレンズなど、エンドツーエンドのデータサイエンス・プロジェクトを開発しています。
Awesome Public Datasets
さまざまな領域向けに非常によく整理された高品質のフリーのデータセットです。
Fivethirtyeight
政治からスポーツ、経済、文化、科学・健康まで幅広いトピックについて、インタラクティブな記事を書き、グラフィックスを作成するサイトです。様々なオープンソースのデータセットから取得した分析的なストーリーを提供しています。
Data Science Dojo - datasets
Data Science Dojo はデータサイエンスを目指す人たちのためのトレーニングを行っているサイトです。ここに学習用のデータが提供さています。

Harvard Dataverse
機械学習などに利用可能な約500近くのデータセットを公開しています。
楽天研究所データリリース
楽天の各種サービスの商品情報の画像やレビュー、レコメンドなどを公開しています。
Meta AI
Meta（旧称Facebook）が公開している大規模データセット、ツールやライブラリを公開しています。
arXivTimes
機械学習を行う際に利用可能なデータセットについて、カテゴリー別にまとめたリポジトリです。
Datahub
金融市場のデータ、人口増加から暗号通貨の価格まで、何千ものデータセットを提供している。とくに、コア・データセットは、GDPや国番号のような重要でよく使われる「コア」データを、高品質で使いやすいオープンデータとして提供されています。
Network Repository
ネットワーク分析などに利用可能な、対話的な視覚的分析を備えた最初の科学的ネットワークデータリポジトリです。

統計情報

e-stat.go.jp
政府統計の総合窓口(e-stat)
Data.go.jp
総務省行政管理局が運用するオープンデータに係る情報ポータルサイト
International Marine Organaization (IMO) のGISIS
GISIS Ship Particulars （船舶データベース検索）
NYC Taxi and Limousine Commission (TLC)
NYCのタクシーの乗降情報のデータベース
NYC OpenData
NYCが公開しているオープンデータ
Wikipedia 都道府県の人口一覧
スクレイピングの学習などにも使えます。
JEITA 電子情報技術産業協会統計情報
日本の電子工業の生産・輸出・輸入、携帯電話やパーソナルコンピュータの国内出荷台数などが公開されいます。

地図情報/GIS

OpenStreetMap
自分の投稿をパブリックドメインとする限り、自由に編集可能な世界地図
JavaScript ライブリ leafletjs などと組み合わせてモバイル対応にもできます。
MapBox
月間 50,000 map views まで無料、それを超えても 1,000 web map views あたり 0.5USD アクセス可能です。
個人プロジェクトで使用するのであれば実質的に無料で使用することができます。
プライベートプロジェクトや課金サービスで利用をしようとすると月額499USD のコストが必要です。
QGIS
QGIS - オープンソースのデスクトップGISのリーダー　(Windows/Mac/Linux)
OpenLayers
ブラウザで地図データを表示する、JavaScriptで組まれたオープンソースライブラリ(BSD ライセンス)
GoogleマップやBing Mapsのような、Webブラウザ上で動作するリッチな地図アプリケーションを構築するためのAPIを提供しています。
MapLink
オープンソースのデスクトップ及びサーバー用地図描画ツールキット。
OpenStreetMapなどのGISデータをレンダリングするときる使えます。
GeoIP Downloadable Database
MaxMind社が公開している位置情報データベースで、 IP / City / Country / Domain / ISP がまとめられています。
全国地方公共団体コード
情報処理の効率化と円滑化に資するため、都道府県コード及び市区町村コードを標準化したものです。

画像

械学習などで利用するための画像データセットについてまとめています。

MNIST
機械学習のチュートリアルなどでよく利用されるデータセット。
KMNIST
手書き数字MNISTとは異なり、Kuzushiji-MNIS(KMNIST)は。は崩した手書き数字や漢字のデータセットで、ひらがなも含んでいます。
CIFAR-10 / CIFAR – 100
CIFAR-10は10クラスの60,000 32×32カラーイメージで構成され、クラスごとに6000イメージがあり、 50,000個のトレーニング画像と10,000個のテスト画像があります。CIFAR-100はそれぞれ600個の画像を含む100個のクラスがあり、クラスごとに500のトレーニング画像と100のテスト画像があります。
[Pascal VOC Dataset http://host.robots.ox.ac.uk/pascal/VOC/]
オブジェクトクラス認識用の標準化された画像データセット、データセットと注釈にアクセスするためのツールの共通セットを提供します。
Google Open Image
Googleが公開している、約900万の画像のデータセットです。画像レベルのラベル・オブ
ジェクトの境界ボックス・オブジェクトのセグメンテーションマスク・視覚的関係がアノテーションされた画像があります。
ImageNet
大規模な物体検出と画像分類のアルゴリズムを評価するための、ImageNet Large Scale Visual Recognition Challenge（ILSVRC）をダウンロードできます。
[CoPhIR http://cophir.isti.cnr.it/whatis.html]
画像サイトFlickerからの数1億以上におよぶ画像がダウンロードできます。
Natural Adversarial Examples
機械学習のモデルが間違いを犯すように意図的に用意されたデータセットです。
SUN dataset
プリンスタン大学が公開している、899のカテゴリと130,519の画像を含む広範囲のシーン認識（SUN）データベースです。
シーン認識・分類に利用できます。
The Oxford-IIIT Pet Dataset
クラスごとに約200枚の画像を含む37カテゴリのペット画像データセットです。
COCO – Common Object in Context
大規模なオブジェクト検出、セグメンテーション、キャプションのデータセットです。
Fashion-MNIST
Zalandoの商品画像のデータセットで、60,000例のトレーニングセットと10,000例のテストセットから構成されている、28x28のグレースケール画像で、10クラスからなるラベルと関連付けられています。
Deep Fashion
良好なポーズのショップ画像から制約のない消費者写真まで、80万以上の多様なファッション画像を含んだ画像データセットです。
Food 101
101種類101,000点の料理のカラー写真（アップルパイや餃子など）の画像データセット
Flickr Logos dataset
アテネ国立工科大学が公開している、アノテーション付きの世界各都市の画像データやロゴ画像のデータセットです。
CelebA Dataset
40個の属性注釈が付いた20万以上の著名人の画像を含む大規模な顔属性データセットです。
FaceForensics
DeepfakesやFace2Faceなどによって生成される、人のフェイク画像を検出するためのデータセットです。

その他

株価情報を無料でダウンロードできるサイト

注意すること

プログラムを使ってデータを取得することはスクレイピングと呼ばれ、非常に便利で有用な技術ですが、webページに高速にアクセスすると相手に迷惑がかかることに留意してください。
また、最悪の場合罰せられる可能性があります。（参考：Librahack事件）
アクセス頻度調整するようにしましょう。

またプログラム（ロボット）でアクセスして良いかどうかを「robots.txt」というファイルで明示している場合も多いです。
スクレイピングする場合には「`https://（サイトドメイン）/robots.txt`」にアクセスして確認しておくといいでしょう。
例えばGoogleのrobots.txtは https://google.com/robots.txt です。

この記事が気に入ったらサポートをしてみませんか？