データサイエンスの資料作成術

データサイエンスにおけるデザインの重要性

データサイエンスとデザインは結びつかないかもしれません。
ですが、起こった事象のデータを測定して要素ごとに並べ、グラフを作る理由とは何でしょうか?
ひとことで言うなら「何が起こったかわかりやすいから」です。
そして簡単な事象なら良いのですが、色んなものを色んな角度から比較する時どうしてもグラフは複雑なものになってしまうものです。
価値のあるデータを失わせずに読み手や聞き手に伝える、データサイエンスにおけるデザインとはそんな重要性があります。

読み手にとってわかりやすい資料とは?

「読み手に迷わせない」ことです。
資料を作成する目的とは、その事実を多くの人に知って欲しい、その事実を元にどんな改善をするべきなのかイメージを持たせることに尽きると思います。データサイエンスで扱う資料となるとグラフが多いと思うので、今回はグラフについて書きます。
グラフではグラフの種類、カラー、タイトル・軸・凡例の3つの構成要素があります。

グラフの種類

グラフの種類はさまざまなものがありますが、基礎的な4つの使い分けができることが重要になります。

点グラフ
散布図のことを指します。
アカデミアでよく使われるので、普段見慣れないかもしれませんが、2つのものの関係性を直感的に示すのに優れます。
例えばと年収と食費の支出の関係を表したいときに、折線グラフをを使ってしまうと個別事象なのか、一般的にその関係があるのか区別がつかなくなります。そのとき散布図ですとたくさんの人のデータが並んでいる、こういう傾向がありそうだなと予想させるときに役に立ちます。

線グラフ 
折線グラフやスロープグラフがあります。
折線グラフでは時間経過の中での推移の傾向を表すのに役に立ちます。
特に複数のものの推移の傾向を比べるときに、棒グラフではどこまでが今月のデータなのかわかりにくくなるので、推移を把握するまでに時間がかかります。点グラフはもっと深刻でどれがどのデータなのかを理解して、その上で傾向を把握して、その上でその傾向は他に比べて大きいのか小さいのかを把握する必要があり、手間がかかります。
ただし注意が必要なのは5つ以上の折線グラフは視認性を大きく落として行くので、例外はありますが4つまでのものを比べるときと考えると良いかと思います。

棒グラフ 
もっともシンプルなグラフかもしれませんが、その分ほとんどの人に見方が浸透しています。
たくさんある中からどれが大きく、どれが小さいのか把握がすぐにでき、どれくらい大きいのか2つのデータの差についても単純に比較できる優れたグラフです。
少し複雑な使い方ですと積み上げグラフも使います。
私見ですが、以下の2つのパターンがあります。
構成要素を見せた上で推移グラフを作りたい時
具体的な例ですと、国語・算数・理科・社会の点数がどのような配分で動きながら、総合得点がどう推移したかを見せます。
これを折線グラフでやってしまうと各科目には目が向くのですが、総合点の推移の表現がが難しくなってしまいます。
総合点がどう動いたか?
大きく動いたときに特に変化したのはどこかを伝える上では役に立つ出力の仕方です。

大量のものを前期間比と比べたい場合
主にレポートと言うよりはダッシュボードで顧客セグメントごとの売上を前の期間と合わせて表示するときに使っています。
数が増えてしまうと線グラフだと見づらくなります。
棒グラフの数値の大きさの比較をするときの視認性と、ざっくりですが推移を見ることを可能にします。

カラーの選択

主に意識すべきは以下の3つです。

グレーを使う
当たり前ですが、グレーは目立たない色です。
でもこれを使うことにより、グレーでない見せたいグラフを見せることが出来ます。
グレーにしなければよくないかと言われるとそれは違います。
何かとの比べて数値の大きさは決まります。比較するものが必要です。
でも比較して大きいことがわかれば、大きいものに注目するために以降は黒子に徹してもらう必要があります。そのためのグレーです。

鮮やかすぎる色は避ける
エクセルやスプレッドシートなど、標準のグラフ出力をすると原色に近い鮮やかな色で出力されます。
しかし、鮮やかな色だとデータそのものに目が行かなくなります。
前記のグレーでサブの項目を見えなくしたら、鮮やかなものではなくてもメインのものを見せることが出来ます。
赤でも少し暗い赤を使う、青でも紺色に近い色を使うことで、資料にしても見やすい色になります。

凡例・タイトル・軸の命名

凡例や軸、タイトルはシンプルイズベストです。何が表示されているかわからないことはノイズです。書かなくてもわかることは書かなくて問題ありません。
「月間 顧客ステージごと取引金額によるTier推移」
これは実際につけたことのあるタイトルですが、「月間」と「推移」であることはグラフを見たらわかります。またそれが週間であろうと推移だけが見たい人なら気にしません。
顧客ステージごとのTier推移(月間)として、Tierの説明を下に注釈で書いておけば十分です。凡例や軸も同様です。

タイトルに主張を入れる時は例外ですが、それも端的に何を言いたいか伝わるようにすべきです。

おまけ 徹底的に無駄を省く

3D、グラデーション、影、切り出しグラフ
この4つはグラフを作る上でするべきではないことです。
それっぽくはなるのですが、実際に見せたい数値への視線を削いでしまうことになります。
データサイエンティストはアーティストではないので、まず事実を正しく伝えることが大事です。
その上でデータサイエンティストの腕の見せ所はその事実からどんなことを伝えるかのインサイトだと思います。

まとめ
かなり基礎的なことが並びましたが、普段の資料作成で大事にしているところです。少しの工夫で人の意思決定は変わるので、事実をしっかり伝える、その上でその事実を受け入れるとするなら次やるべきことは何なのかを主張することがデータサイエンスに求められる素養かと思っています。
最後まで読んでいただきありがとうございました!

この記事が気に入ったらサポートをしてみませんか?