Python学習

おはようございます。

本日は少し寝坊ぎみの勉強。
おかげで本当に集中できた時間としては30分くらいだったような。
まあそんな日もあるということで前向きにやっていきましょ。

かなりまた基本的なことになるのだが、
データフレーム かりにdfという変数に代入していた場合。
そのデータの中から2つ(もしくは複数)カラムを抽出するときはカギカッコを2つ重ねてリストとして指定する必要があるということを完全に忘れており、そんなところで時間を費やしてしまうという失態。

相関関係の確認のためにcorr関数を使用。
実はなぜかこの相関関係はこれまでもよくcorr関数を使用して確認することはよくしていた。ほんとにその時まではよくわからず使用していたのだけどこれはかなり大事だなと今になってよくよく理解。

次にヒートマップを活用してデータの分析をするのだが、
今回で初めてヒートマップの使いどころがふんわりとわかった気がする。
seabornライブラリのheatmap関数てどういうときに使うんだろ?と思っていたから←今になって気になったら調べる!と突っ込みたいwww

ヒートマップに相関関係を表示させるのだが、
そこで最大値、最小値を数でマップに反映させる。
最大値、最小値をvmax, vminで
セルの中に相関関係の色付きの数値を表示させるためにannot=True
そして見やすくするために
塗色のパターンを例えば cmap='coolwarm'
セル間の線の太さを linewidths=0.1
のようにして見た目をよくする。
というのを初めてちゃんと学んだ。
ちなみに色のパターンはcolor example code: colormaps_reference.py — Matplotlib 2.0.2 documentationから見てみれば良いと思われる。

次に前処理のために文字列となっているものを数値に置き換えるダミー化を行う。
今回は無名関数といわれるlambda関数を使用。
だいぶ前に学んだことがあるやつであまりはっきりと理解していなかったやつがついに登場。
使ってみてわかったのは、条件分岐のコード数がかなり抑えられ、シンプルの形になるのだと。これは使えるようになる必要があると思う。
でも、数こなさないと理解はできないだろうなとも感じた。

そして説明変数と目的変数の準備。
今回の目的が疾患の有無(disease)だからこれが目的変数y
それ以外が説明変数だからdrop関数でdiseaseの行を外した分をX

という準備ができたところで時間切れ

明日は休みでもあるからしっかり気合入れてやっていこう

この記事が気に入ったらサポートをしてみませんか?