NYタイムズの記者も使っている、データ・ストーリーの王道パターン7選

先月、NYタイムズが記者向けのデータスキル研修で使われている資料をオープンソース化したことが話題になっていました。

研修の資料はGoogle Driveにて公開されています。研修の内容はGoogleスプレッドシートの基礎や、データを触るときのリテラシー、データをジャーナリズムにどう役立てるかについてが主です。

データ・ストーリーとは?

資料の中でわたしが特に興味を惹かれたのが、「データ・ストーリー」についての話でした。データ・ストーリーとは、「いくつかの可視化されたデータを連続して見せることにより、順序立ててファクトを伝える話」のことを指します。(これは、後述する専門家のBen Jones氏による定義です。)

キーワードは「連続して」と「順序立てて」です。たとえば、グラフをひとつだけ見せて、何らかの結論を出すのは(この記事では)データ・ストーリーと呼びません。一方、まずひとつめのデータを見せて何かを主張し、続いて別の角度から見たデータを見せて主張を発展させるのであれば、データ・ストーリーと呼んでよいでしょう

英語では新聞記事のことを「ストーリー」と呼ぶことも多いのですが、NYタイムズはデータ・ストーリーに分類される記事を多く出しているようです。

NYタイムズのデータ・ストーリー記事

たとえば2016年の大統領選挙の直後に公開された「トランプはいかに選挙勢力図を変えたか」という記事では、2016年の両党候補の得票率が2012年の両党候補のそれに比べてどう変化したかを、4つの可視化されたデータを連続して見せながら説明しています。

ひとつめは、米国全体でどのように得票率が変化したかを可視化したもの。
ふたつめは、最も共和党に流れた地域の変化を可視化したもの。
3つめは、最も民主党に流れた地域の変化を可視化したもの。
4つめは、2012年にオバマが勝利した地域における2016年の共和党の得票率増を可視化したものです。

このように、可視化されたデータを連続して見せることによってファクトを伝えるのが、データ・ストーリーの手法です。

Ben Jones氏によるデータ・ストーリーについての解説と、彼が見出した7つの王道パターン

データを伝える記事を多く出しているNYタイムズですが、彼らの新人記者向けの研修の資料では、データ・ストーリーについて詳しいBen Jones氏による以下の講演動画が紹介されていました。(講演のスライドはこちらから見られます。)

講演の内容について手短に解説します。Jones氏は当時(2015年)、データ可視化ツール大手のタブローソフトウェアでプロダクトマネージャーをしていました。(ちなみにタブローは、先月Salesforceに1.7兆円で買収されています。)

ある日、タブローがいくつかの可視化されたデータを連続して見せる機能を公開したところ、ユーザーはそれを使ってさまざまなデータ・ストーリーを作りました。

おさらい: データ・ストーリーとは、「いくつかの可視化されたデータを連続して見せることにより、順序立ててファクトを伝える話」のことを指します。

Jones氏は、そういったデータ・ストーリーを大まかに7つの「王道パターン」に分類しました。

1. 変化
2. 拡大
3. 縮小
4. 比較
5. 交差
6. 分解
7. 例外

Jones氏によると、データを基に何かを伝えるときは、この7つの王道パターンのいずれかを使うことで、より効果的にファクトを伝えることができるとのことです。今回は、この7つの王道パターンをひとつずつ紹介します。

ちなみに利用するデータセットは、講演で使われていた、Freedom Houseによる「各年における国ごとの報道の自由度」を数値化したデータセットです。執筆時点で、1979年〜2017年のデータセットが公式サイトに公開されています。またKaggleにも2001年〜2015年のデータセットが公開されています。ちなみに、翻訳にあたってJones氏の許可も得ています。

7つのデータ・ストーリーの王道パターン

1. 変化

ひとつめのパターンは「変化」。これは、データが時間を経てどのように変化するのか、変化がどのような傾向になっているのかを、複数のデータを可視化することで伝えるテクニックです。

紹介した「報道の自由度」データセットには、国ごとの報道の自由度が年ごとに数値化されており、そのスコアに応じて各国が「報道が自由」、「部分的に自由」、「自由でない」の3種類に分類されています。

まず、2001年から2004年までのデータを積み上げ面グラフで見てみましょう。

21世紀のはじめには、ご覧の通り一番下の「報道が自由」に分類される国(青色の部分)が75カ国ありました。

しかし、2013年になるころには、「 報道が自由」に分類される国は75カ国から63カ国に減ってしまいました。一方、「部分的に自由」に分類される国(灰色の部分)が増えていることがわかります。

「自由」に分類される国の変化だけを追うと、以下のようになります。

このような「時間経過による変化」は、極めてシンプルなデータ・ストーリーのパターンであると言うことができるでしょう。

(ちなみに、この「変化」は、ひとつのチャートを見せるだけでもデータ・ストーリーとして成り立たちます。しかし、これから紹介するパターンのほとんどは、複数のチャートを見せる必要があります。)

2. 拡大

ふたつめのパターンは「拡大」。これは、集計対象の範囲やデータの軸をー段階絞り込み、より深く分析することで、ある特定の範囲・側面からデータを捉えるとどのような傾向があるのかを伝えるテクニックです。

以下は、「報道の自由度」の3つの分類ごとに、それぞれ「報道が自由」を青、「部分的に自由」をグレー、「自由でない」を赤のドットとして世界地図上に示したものです。

全体を見ると、各分類に属する国の数の割合はそれぞれ「報道が自由」が約32%、「部分的に自由」が約34.5%、「自由でない」が約33.5%と、おおよそ3分の1ずつで、各分類間の差はそれ程大きくありません。

では、地図を拡大し、データの範囲をアジアに絞り込んでみるとどうでしょうか。世界全体でみたときとは異なり、アジアの国のうち実に半数以上が「自由でない」に分類されていることが分かります。

さらに拡大すると、全ての国のうちで最も「自由でない」スコアを記録している国、北朝鮮が見えてくるのです。

このように、データ全体を見ただけでは捉えることが難しい傾向を、データを拡大し、絞り込むことによってはっきりと浮き上がらせることができるのです。

3. 縮小

3つめの「縮小」は「拡大」とまったく逆の考え方。まず個別のデータを見てからより広範囲に視野を広げることでデータの傾向を伝えるテクニックです。

例えば、「報道の自由度」のスコアによると、世界で最も自由であるとされるオランダ、ノルウェー、スウェーデンの3カ国に焦点をあてます。

そこからヨーロッパ全体に視野を広げると、ヨーロッパの国のうち3つにふたつは「報道が自由」に分類されていることが見て取れます。

さらに視野を世界に広げるとどうでしょう。「報道が自由」に分類される国は3つにひとつしかありません。ヨーロッパでは、世界全体と比べ「報道が自由」である傾向が特に強いことが分かります。

身近なことでも、データを見る視点の階層を変えることが役立つことはたくさんあるはずです。

4. 比較

4つめの「比較」は、データの中で、最も良いもの・最も悪いもの、最大のもの・最小のものといった対比を示すことにより捉えられる傾向を伝えるテクニックです。

「報道の自由度」のデータにおいて、197カ国の中で最も自由であるとされる10カ国を見てみると、それらが全てヨーローッパの一部にかたまって位置していることが分かります。

一方で、最も自由でない10カ国はというと、北米、アフリカ、東欧、中東、アジアと、広い地域にまたがって点在しているようです。

ジャーナリストや報道機関は世界の様々な地域で抑圧に曝されているのだということがよく分かります。

このように、データを見る際に「最大値と最小値にはどんな特徴があるだろう?」と問うことで、本質が見えてくることもあるのです。

5. 交差

交差」は、「何かが何かに追いついた」、「追い越した」、あるいは「◯◯以下であったものが◯◯を超えた」といったような、複数のデータが交わる点から傾向を捉え、伝える方法です。

以下は、「報道の自由度」の3つの分類ごとに、それぞれに分類される国の数を縦軸に、年を横軸にとり、年毎の推移を折れ線グラフに示したものです。「報道が自由」が赤、「部分的に自由」がグレー、「自由でない」が青の折れ線で表されています。

21世紀のはじめには、「報道が自由」に分類される国が最も多く、続いて「自由でない」「部分的に自由」の順であったことが見て取れます。

しかし2009年になると、それまで最も少なかった「部分的に自由」に分類される国の数が、「自由でない」に分類される国の数を超えました。

さらに時間軸を進めると、「部分的に自由」とされる国の数はさらに増え、2011年には「自由」の国の数をも超えることになります。

そして近年になると「自由でない」の国の数が「自由」の国の数を超え、結果として各分類の順番は21世紀当初とは全く逆の形になってしまいました。

このように「交差」に注目することで、なにがその事態を引き起こしたのか、なぜそのような事態になったのかを考えるきっかけにつながります。

6. 分解

分解」は、データの数値を複数の要素に因数分解することでファクトを伝えるテクニックです。

「報道の自由度」の年ごとの全対象国の平均スコアを見てみましょう。以下のグラフから、平均スコアは徐々に上昇していることが分かります。スコアが高いほど報道が自由でないことを意味するので、世界全体で見ると、報道の自由度は年々低下傾向にあるということです。

では、このスコアを因数分解して、「報道の自由を抑圧している要因は何か」に着目してみましょう。その要因は「法律」「経済」「政治」の3つの要素に分けることができます。報道が自由でない国では、報道機関を法律で規制したり、経済的・政治的圧力をかけることで報道を抑圧しているのです。

以下は、それぞれの要素ごとに「法律」を水色、「経済」を緑、「政治」をオレンジに色分けして積み上げグラフで示したものです。

このままでは各要素がどのように変化しているのかが分かりにくいので、各要素を折れ線グラフで表してみましょう。

すると、「法律」「経済」の要素はほとんど変化していないことが分かります。一方で「政治」の要素は年々増加しています。政治的な圧力が、報道の自由度の低下に大きく影響していることが分かります。

このように、いわば「パズルのピース」のような、データを形作っているそれぞれの要素に注目することで、興味深いストーリーを発見できることがあるのです。

7. 例外

例外」は、集団の傾向と大きく異なっている点やデータの「はずれ値」に注目することで何らかのファクトを伝えるパターンです。

国ごとのスコアのばらつきを散布図に表すと、以下のようになります。縦軸はスコアを表しており、各点が重ならないように、横方向に幅をもたせています。

この図では、他国と大きく異なる「はずれ値」となりそうな国は特に見当たりません。

地域ごとのばらつきを見てみるとどうでしょうか。各国のスコアを、スコアを縦軸、地域を横軸にとった箱ひげ図に示してみると、いくつかの「例外」を発見することができます。

たとえばオセアニアでは、フィジーは「部分的に自由」に分類されるものの、この地域の他国と比べるとスコアが高い(報道の自由度が低い)ことが分かります。またヨーロッパに注目すると、ロシア、ベラルーシは他国に比べてスコアが突出して高く、報道の自由が脅かされていることが見て取れます。

一方、ポジティブな「例外」もあります。たとえば中東では、イスラエルのスコアは他国に比べて低く、報道の自由が守られていることが分かります。

箱ひげ図以外でも、たとえば時間経過による変化を示す折れ線グラフの山や谷を見ることで、例外を発見することもできるでしょう。

このように、他のものと大きく異なっている点に着目することで、新しい視点を得ることができます。

以上が、Jones氏が紹介したデータ・ストーリーの王道パターン7選でした。

1. 変化: データが時間を経てどのように変化するのか、変化がどのような傾向になっているのかを、複数のデータを可視化することで伝える
2. 拡大: 集計対象の範囲やデータの軸をー段階絞り込み、より深く分析することで、ある特定の範囲・側面からデータを捉えるとどのような傾向があるのかを伝える
3. 縮小: まず個別のデータを見てからより広範囲に視野を広げることでデータの傾向を伝える
4. 比較: データの中で、最も良いもの・最も悪いもの、最大のもの・最小のものといった対比を示すことにより捉えられる傾向を伝える
5. 交差: 「何かが何かに追いついた」、「追い越した」、あるいは「◯◯以下であったものが◯◯を超えた」といったような、複数のデータが交わる点から傾向を捉え、伝える
6. 分解: データの数値を複数の要素に因数分解することでファクトを伝える
7. 例外: 集団の傾向と大きく異なっている点やデータの「はずれ値」に注目することで何らかのファクトを伝える

ここで使ったのは大変シンプルなデータセットですが、ご紹介した7つのパターンに当てはめて異なった視点からデータを捉えることで、データの様々な側面を伝えることができるのです。データを基に何らかの記事を書くときは、どのパターンを使うべきかを考えると良いかもしれません。

7つのパターンの応用課題

ちなみにNYタイムズの研修では、「アメリカの国勢調査のデータを使って、データ・ストーリーを7種類作ってみよう」という応用課題があるそうです。課題の資料から抜粋して紹介します。

1. 「変化」のデータ・ストーリーを、アメリカの国勢調査データからつくる課題

・アメリカの州のうち、高齢者の割合が最も増加したのはどの州だろうか?

2. 「拡大」のデータ・ストーリーを、アメリカの国勢調査データからつくる課題

・まず、ニューヨーク州全体の「アメリカ市民ではない高齢者」の割合に注目してみよう。
・次に、ニューヨーク州内の各地域の中で、最も「アメリカ市民ではない高齢者」の割合が大きいのはどの地域かを調べてみよう。
・それは予想通りの結果だっただろうか?

3. 「縮小」のデータ・ストーリーを、アメリカの国勢調査データからつくる課題

・ジョージア州で、孫の面倒を見ている高齢者の割合に注目してみよう。
・この割合は、南部の他の州と比較して違いがあるだろうか?アメリカ全体ではどうだろうか?

4. 「比較」のデータ・ストーリーを、アメリカの国勢調査からつくる課題

・ アメリカで最も人口の多い2つの州、フロリダ州とカリフォルニア州を比較してみよう。高齢者人口の動態について明確な違いはあるだろうか?

5.「 交差」のデータ・ストーリーを、アメリカの国勢調査からつくる課題

・アメリカのある州では、2009年の高齢者の貧困率がアメリカ全体の貧困率よりも高かったが、2016年には低くなった。その州はどの州か調べてみよう。

6. 「分解」のデータ・ストーリーを、アメリカの国勢調査からつくる課題

・州からの転出者が最も多い州はどこだろう?転出を決める理由において、何か特徴が見られるだろうか?

7. 「例外」のデータ・ストーリーを、アメリカの国勢調査からつくる課題

・労働人口全体における高齢者が占める割合が、他の州に比べて「はずれ値」になるのはどの州だろう?

NYタイムズの研修なので、アメリカの国勢調査のデータが使われていますが、日本の国勢調査のデータでも似たようなデータ・ストーリーを作ることができるはずです。

まとめ

ジャーナリストやライターの方は、データで何かを伝える際に、ぜひこの7つのパターンを参考にしていただけると嬉しいです。

よければシェアしてください😉



この記事が気に入ったら、サポートをしてみませんか?気軽にクリエイターを支援できます。

643

Saya

A jewelry designer & a junior JavaScript/Python developer🐥 Based in CA, USA🇺🇸 My work: http://sayajewels.com 💌: sayazamurai38@gmail.com

#デザイン 記事まとめ

デザイン系の記事を収集してまとめるマガジン。ハッシュタグ #デザイン のついた記事などをチェックしています。広告プロモーションがメインのものは、基本的にはNGの方向で運用します。
25つ のマガジンに含まれています

コメント1件

データストーリー勉強します
コメントを投稿するには、 ログイン または 会員登録 をする必要があります。