見出し画像

オープンデータを集計してみる part4 分析環境構築

はじめに

 「オープンデータを集計してみる」シリーズ4回目の今回は環境構築についてです。データを入手しても手段がなければ中身を見れません。ですので分析環境についての知識は必須であると考えます。今回はPythonを中心にpart3までの内容が最低限実行できる環境構築をしていきます。簡単な流れは、「Pythonを入れるまでに必要な環境構築」→「Pythonの環境構築」→「コードの実行」となっています。
 また現在使っているPCのチップはApple M1 Maxになりますので、ご留意ください。

Python以外の環境構築

homebrewのインストール

 まず、homebrewの設定です。homebrewとはMac OS向けのパケージ管理マネージャです。Pythonに限らず、Macで何かソフトを入れるのであればまずhomebrewを利用することが多くなります。具体的にはターミナルで以下のコマンドを実行します。

# まずはこちらのコマンドを実行
$ /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

# インストール終盤時以下のコマンドの入力を求められるので、入力し実行(Pathを通す作業)
# usernameは変更してください。
$ echo 'eval "$(/opt/homebrew/bin/brew shellenv)"' >> /Users/username/.zprofile 
$ %eval $(/opt/homebrew/bin/brew shellenv)

GDALのインストール

 GDALとはGISデータ(ベクタ・ラスタ)フォーマットの変換用ライブラリで、後々出てくるGeopandasというライブラリのインストールに必須になります。細かいことは公式のドキュメントを参照していただくとして、ここではとりあえず思考停止で、以下のコマンド実施で問題無いです。

$ brew install gdal

Nodejsのインストール

 NodejsはJavaScriptというプログラミング言語の実行環境の1つです。後に出て来るJupyter Labの環境を構築する上で必須なのでこの時点でインストールしておきます。具体的にはターミナルで以下のコマンドを実行します。

$ brew install node

Pythonの環境構築

Pythonの環境構築方法

 どのようなOSを使っていても、Python系の環境構築方法はいくつかあります。代表的なものは以下の4つです。

  • Anacondaを利用する

  • Minicondaを利用する

  • miniforgeを利用する

  • Pythonを直接インストールしvenvで仮想環境作成

 今回はPythonを直接インストールし環境構築をしました。理由はいくつかありますが大きくは2つです。1つ目の理由は、最も環境構築が楽なAnacondaは有償になってしまうケースが存在し、Miniconda・miniforgeは結局パッケージ以外でのライブラリインストールが発生してしまうこと、2つ目の理由は、他のパッケージを理由する方法と比較して、ライセンス周りのことを考えなくて良いことです。
 環境構築方法も複数ありますが、Pythonのインストール方法にもいくつかあります。公式からインストーラーを入手する方法や、C++のソースコードからビルドする方法、その他環境構築で使うパッケージによった方法が存在します。そして今回はMacを使っていることもあり、homebrewを使いました。Windowsをご利用の方はhomebrewは使えません。ですので、公式からインストールするのがよいでしょう。

Pythonのインストール

 以下のコマンドでPythonをインストールします。

$ brew install python@3.12

# 必要に応じてPathを通す
$ echo 'export PATH="/opt/homebrew/opt/python@3.12/bin:$PATH"' >> ~/.zshrc
$ source ~/.zshrc

バージョンは任意ですが、サポート期間を参考に選ぶのがベターであると思います。

仮想環境の作成

 Pythonで分析などする際は、仮想環境を作成し、その環境下でコーディング・実行するのがスタンダードです。以下のコマンドで仮想環境ができます。

$ python3 -m venv note_env

python3の部分は人によってpythonだけだったりpython@3.12だったりします。この辺はPythonのバージョンやPathが通っているかにもよるので、もしpython3でコマンドが失敗したら別のを試してみて下さい。また、note_envは任意の名前をつけて下さい。
 仮想環境ができたら、アクティベートし、pipを使ってライブラリをインストールしていきます。今回使うライブラリはGeoPandasMatplotlibJupyterLabです。Geopandasは空間情報を含むデータ処理に使い、Matplotlibは地図の描画に使います。JupyterLabは今回のコーディング・実行環境にそのものなります。

# 仮想環境をアクティベート
$ source note_env/bin/activate

# ライブラリインストール
(note_env) $ pip install geopandas matplotlib jupyterlab matplotlib_fontja

# ライブラリインストール終了後、以下のコマンド実施
(note_env) $ ipython kernel install --user --name=note_env --display-name=note_env

matplotlib_fontjaについてですが。これは日本語表示を可能にするためのものなので、必須ではありません。また、このライブラリはPython3.12限定です。Python3.11以前のバージョンを利用している場合は japanize_matplotlibに変更が必要です。japanizeもミススペルではないのでお気をつけ下さい。

実行の流れ

Jupyter Labの起動

 起動は簡単です。ターミナルを起動し、仮想環境をアクティベート後、任意のフォルダに移動して「jupyter lab」と打つだけです。具体的な流れは以下の通りです。

$ source note_env/bin/activate
(note_env) $ cd sample
(note_env) sample $ jupyter lab

起動したら以下の表示になります。赤枠のアイコンが今回作成した仮想環境での実行になるのでアイコンをクリックしてコーディングをしていきます。

起動画面

プログラムの実行

 コードはipynbファイルを添付するのダウンロードして確認してください。

 実行方法は、セルを選択し、シフトキーとリターンキー(Enter)を同時に押して実行です。ことのき注意する点としては利用する仮想環境がアクティブになっているかです。以下の画像の赤枠の部分が選択した仮想環境になっているか確認して下さい。

仮想環境確認

注意点

 ipynbファイルについてですが、このファイルと同一のディレクトリ(フォルダに)part2で入手したデータを配置すれば実行できる想定です。データについては再配布が微妙なので、実施しません。探してみて下さい。

終わりに

 思いの他長くなってしまいましたが、今回はここまででです。もしコードを動かして上手くいかないなどあれば是非ググって下さい。またコメントなどで指摘いただいても大丈夫です。

次回は最終回予定で、もう少し深い考察を実施します。

今回も有難うございました。


この記事が気に入ったらサポートをしてみませんか?