見出し画像

2021年に読んでよかったと思うデータサイエンス本とその周辺

気がつけば年末ですね。今年も一年があっという間に過ぎていった気がします。仕事ではピープル・アナリティクスに注力しつつも、プロジェクトの幅が大きく広がった年になりました。

年末ということもあるので今年を振り返り、読んでよかったと思う本をまとめてみたいと思います。全11冊。あまり多くありません。
今年よく読んだ本はやはりデータサイエンスに関係するものですが、それ以外にも広がりがありました。自分自身の仕事としてマネジメントやコンサルティングの要素が強くなってきたからです。

ちなみに2020年の夏頃、データサイエンス関連の参考書を記事にまとめています。やや散らかった記事ですが、合わせてご覧くださいませ。


データサイエンス関連本

一昨年ころから機械学習による予測タスクよりも、観察研究的なデータ分析タスクの割合が多くなってきました。予測よりも傾向分析、自動化や仕組み作りよりも意思決定支援の比重が大きくなってきた感じです。このため、購入する本の種類も以前と少し変わってきました。

ビジネスデータサイエンスの教科書,マット・タディ,すばる舎

ビジネスでのデータ活用は様々な広がりがありますが、大きく分けて①レコメンドや分類等のシステム実装を目指す機械学習タスクと、②定量的な評価に基づくビジネスの意思決定支援に分かれると考えています。本書はどちらかと言うと後者に光を当てるものです。

Kaggle等で機械学習タスクを経験した方が統計モデルを駆使した意思決定支援の仕事に進むとき、本書はわかりやすいガイドになると思いました。第1章に機械学習に基づくアプローチと統計モデリングの違いが簡素に述べられているのも素晴らしい点です。
まさに、私自身、機械学習タスクから統計モデルに基づく意思決定支援に軸足を移しつつあるので、本書には随分と助けられました。チームメンバーに薦めている本の一つです。

また、現実的な効果検証や因果推論に関する入門書としても優れている本だと思います。A/Bテストのような実験アプローチと観察研究的アプローチの両面をカバーしている点も素晴らしいです。もちろん、それぞれの位置づけや限界点も簡素に述べられています。

本書の特徴は、ビジネスでのテータ分析実務を意識した説明が多いことにあります。一見すると様々な手法を紹介した本に見えるのですが、そうではありません。本文を丁寧に読むことでデータサイエンスの勘所や注意点が分かる仕掛けになっています。

読み方のコツとして、興味のある手法が記載されている個所をピンポイントで読むのではなく、その手法が掲載されている章をはじめからじっくり読むことをお勧めします。なぜなら、その前後に非常に重要なノウハウや手法の限界が述べられているからです。

本書を読んでB. S. Everittの「RとS-PLUSによる多変量解析」を思い出しました。こちらは、小さなデータセットを例題として古典的な多変量解析のアプローチを丁寧に解説する本でした。その特徴は丁寧な解説と統計的なアプローチ・考え方を指南してくれる点にあり、本書と似ているなと思いました。

以上のような特徴がある本ですので、リファレンス本として辞書的な使い方をするよりも、じっくりと読むのが適しています。コード例はRで書かれていますが、Python使いの方がR本だからといって読まないのはもったいないと思います。Rのコードは本書の本質ではありません。

テキスト処理の要素技術,山本和英,近代科学社

本書はテキストデータの基本的な処理を整理した本です。日本語のテキストデータ分析を始めた方にはとても強力な武器となるでしょう。Twitter等でも紹介してきた本ですが、本当にこういった本が欲しかったと思うものでした。著者の方には大変感謝しています。

DNN全盛の今、テキストデータで機械学習云々というとBERTといった新しめの手法の適用したいと思う方も多いのではないでしょうか。確かに用途とデータ量が合えばこうしたアプローチがハマる場面があると思います。

その一方で、DNNに食わせるほどのデータ量はないが、テキストデータから定量的な知見を得たいというニーズも根強くあります。そのようなときには、テキストデータを単語に分解して計量し、何らかのアプローチで分析していく必要がでてきます。

この「テキストデータを如何にして計量していくのか」という問いに対して、真正面から指南してくれる本は数多くありませんでした。特に、基本的な処理である形態素解析とその取扱いについては、NLP界隈の経験者から伝承的に教えていただいた記憶があります。
本書はその基本的な部分から丁寧に解説しています。例えば、以下のような注意点は、私は失敗しながらNLP専門の先輩に指摘されて学んできたことですが、本書にはコンパクトに述べられていました。

  • 品詞の種類、内容語・機能語、学校で習う文法用語との違い

  • 動詞の活用形の取り扱いと注意点

  • 表記ゆれや、正規化に関する事項

また、テキスト処理の基本的な手法であるTF-IDF、類似度推定、単語分散表現等についても実用を意識した解説がなされています。統計的自然言語処理に取り組む上で、これら基本的な道具を知っておくのはとても有益です。

私が実務で携わっているピープル・アナリティクスでは数値・カテゴリデータの分析が主たる業務です。しかし、今後はテキストデータ解析のプロジェクトも増えていくと想定しており、本書をチームメンバーに薦めています。

機械学習を解釈する技術,森下光之助,技術評論社

分類や回帰等の予測タスクにおいては、しばしば予測結果の根拠を求められることがあります。いわゆる説明力が求められるわけですが、こうした予測タスクは予測精度重視の側面もあるので、必ずしも説明力のあるモデルを構築できるとは限りません。しかし、現場では予測精度と説明力の両立を求められるケースも多く、悩みの種になっていました。

ある予測タスクでSHAP(SHapley Additive exPlanations)を利用したことがありました。SHAPはツールとしては様々なモデルに適用できる扱いやすさあって便利に思えたものの、これだけで説明できていると言ってよいか悩んだものでした。ある程度の説明性はあるのかもしれませんが、それをもって「説明可能AI」と呼ぶのはあまりにも言い過ぎではないかと感じたからです。実際、実務で利用していても解釈に困るような状況に何度も遭遇し、機械学習モデルの説明可能分野から距離を取っていた時期もありました。

しかしながら、予測タスクで各々の予測結果に対する説明性(局所的な説明性)が欲しいというのは、利用者の気持ちを考えれば納得できるものでした。そこで、本書が発売されたときにもう一度学んでみようと思ったのです。

本書を読んでみると、この分野のことを網羅しつつも「冷静なタッチで」解説していて素晴らしい本だと思いました。様々な機械学習の解釈に関するアプローチを並べつつも、決して魔法の杖ではないことが分かるからです。何より、第1章で以下の点をはっきりと注意喚起している点でも誠実な本だといえるでしょう。

より危険な使い方は、解釈結果を因果関係として解釈することです。

引用元:機械学習技術を解釈する技術

また、本書ではSHAP以外にも様々な解釈に関する技術を取り扱っていて、大変勉強になりました。分析実務から離れてマネジメントやコンサルティングの割合が増えていますので、本書のように網羅的にサーベイしている本があると大変有難いです。

計量経済学 (New Liberal Arts Selection),西山慶彦 他,有斐閣

腰を据えて学ばなければと思いつつ取り組めていなかった分野の一つが「計量経済学」でした。そこで意を決して読み始めたのが本書です。

これまでも、手法を学ぶための副読本として計量経済学関係の本を読んだことがありました。例えば、時系列データの分析の参考書として「経済・ファイナンスデータの計量時系列分析」、分位点回帰の解説を読むために「計量経済学 ミクロデータ分析へのいざない」を手にしてきました。
しかしながら、計量経済学の視座とモデリングの方法論を根元から学んだわけではありませんでした。

本書はTwitterで流れてきて気になり購入したのものの、忙しさを言い訳にして1年以上積読状態になっていました。入門書としては網羅的かつしっかりと書かれている印象で索引も充実しています。このためリファレンス本として部分的に見ていたのですが、いつか腰を据えて丁寧に読む必要があると思っていたのです。

一方、2020年頃から効果検証や因果推論に関する本を読むようになってきたのですが、随所に計量経済学色が出てくるように感じらました。例えば、効果検証や因果推論の入門書として定評のある「効果検証入門」は、明らかに計量経済学に立脚した書きぶりになっています。

こうしたこともあり、計量経済学におけるモデリングの考え方や問題意識を知っておかなければならないという意識が強くなったというわけです。そのような中で本書を読み始めたのは12月後半に入ってのことです。このため、現時点でまだ全体の2割弱しか読んでいません。しかし、統計モデルを利用した観察研究を行う上で基本的かつ大切なことが書かれている本だと思い、この記事で取り上げることにしました。

本書は計量経済学の基本的な考え方とアプローチを押さえた本であり、統計モデルを用いて様々なメカニズムの検証を行うことを目指して議論が展開されています。観察研究において重回帰等の統計モデルを駆使したい方には、とてもよい導入になると思われます。最小二乗法に基づく重回帰(線形モデル)を取り扱う上で、様々な注意点やノウハウが散りばめられています。

この分野の先人たちがどのような視座のもとでモデリングに取り組み、技術的な課題を解決してきたのかが分かるようで、大変すばらしい本だと思いました。来年も引き続きコツコツ読んでいく予定です。

ちなみに、本書を含む有斐閣のNew Liberal Arts Selectionは個人的に信頼をおいているシリーズです。その分野の基礎が網羅されているだけでなく解説が丁寧なので、その分野を始めて学ぶ人に適している印象があります。私は過去に「社会学」「認知心理学」を読んだことがありますが、これらの本も質量ともにしっかりとした入門書でした。

データビジュアライゼーション,Andy Kirik,朝倉書店

データ可視化に関する本です。洋書で定評のあったものですが、今年邦訳がでたので直ぐに購入しました。個人的には今年読んだ本の中で一番思い入れがある本です。というのも、夏休みの自由研究のために長女と一緒に読んだからです。本書のおかげでとてもよい夏休みになりました。

データ可視化はデータ分析の基本ですが、ある意味職人芸的な側面もありますよね。探索型データ分析(EDA)こそ分析者の実力が試される場面なのかもしれません。
本書はデータ可視化に関する基本的な考え方を丁寧に伝えるとともに、多種多様なグラフを例示しています。データ分析実務にも直結する本でしたが、何よりも見ていて楽しい本でした。

分析プロジェクトの周辺本

最近は分析実務から離れつつあり、チームマネジメントやコンサルティングに時間を割くようになってきました。そうなると、技術的な情報収集だけでなく視野を広げる必要がで来るので、読むべき本のジャンルも広がってきました。走りながら武器を拾うという感じでしょうか。

ということで、今年読んだデータ分析以外の本でよかったなと思った本を取り上げていきます。

聞き方の技術,山田一成,日本経済新聞出版社

マーケティング・リサーチにおける調査票の作り方を解説した本です。
あるプロジェクトでアンケート設計段階から支援することになり、勉強のために購入しました。残念ながら絶版となっていたのですが、Twitterで高評価だったこともあり中古で入手しました。結果的には大正解で、調査票作成のための勘所が広く簡素に網羅されています。

ピープル・アナリティクスでは、アンケートデータを取り扱うことが比較的多いです。こうしたデータ分析案件ではアンケートの設計が極めて重要です。例えば、アンケート設計がリサーチ課題に整合していない場合や、分析に適さないフォーマットで回答が収集されていた場合は分析が困難になるからです。このような場合、いくらデータ分析を重ねてもプロジェクトオーナーの意図する仮説検証は実現できないでしょう。とはいえ、必ずしもアンケート設計の段階からプロジェクトに入れるとは限らないのが分析者の辛いところです。

今年に入ってから、アンケート調査の初期の段階から支援する機会をいただきました。私はこうした支援は初めてだったものの、ぜひとも経験したいと考えて積極的に手を挙げていきました。
しかし、クライアントからの期待を応えるためにはベースとなる知識が必要となります。このようなときに頼るのはやはり本で、定評のある入門書や専門書にたどり着けるかどうかが重要になります。

アンケート調査に関する本はいろいろと出版されています。入門書で目立つのはアンケート作成方法とその集計テクニックを合わせたようなものでした。一方、本書はアンケートの設計に特化した構成になっていて、まさに知りたかったことが書かれていました。短時間で調査票作成の考慮すべき観点を体系的に学べるという点で非常に素晴らしい本だと思います。現在は中古でしか手に入らないのが残念です。

一方、応用力を高めるにはより専門的な本に手を出す必要があると思っています。例えば、「質問紙調査と心理測定尺度―計画から実施・解析まで」という本が手元にありますが、来年はこうした専門書で学びを深めていきたいです。

研修デザインハンドブック,中村文子 他,日本能率協会マネジメントセンター

今年は社内向けにデータドリブン教育を実施するという貴重な機会をいただきました。いわゆる研修講師ですね。SE時代に操作研修等の定型的なシステム研修の講師をやったことはあったのですが、ガチの研修講師の経験は初めてでした。イチから研修の企画とプログラム・構成を考えるのは大変悩みましたが非常に面白かったです。

とはいえ、全く未経験の状態で研修のプログラムを考える、しかも全く新しいアプローチで行うというのはかなり無謀なことでした。(自分でアイデアを出しておきながら…。)
行き当たりばったりで進めるのもどうかと考えて、研修デザインを独学で学ぶことになったというわけです。そこで頼りにしたのが本書でした。

本書は文字通りビジネスにおける研修デザインの方法を解説した本です。特にインタラクティブな研修の実現を目指し、参加者の主体性をいかに引き出すかということに主眼が置かれていました。この点で自分が目指す研修プログラムの方向性とも合っていました。

ある程度研修講師の経験がある方向けの本のように見受けられましたが、初学者の私にとっても非常にわかりやすい本でした。過去に受講した研修を思い出しつつ読んでみたのですが、こんな工夫があったのか目から鱗が落ちることばかりでした。

本書のおかげで研修プログラムを作りつつ、何とか講師を務めることができました。そういった意味で今年一番読んだ本かもしれません。

プロフェッショナル・アドバイザー,デービット・マイスター他,東洋経済新報社

ここ2年程、「アドバイザー」としての役割を担うことが増えてきました。自分がデータ分析を実施するわけでも分析者のマネジメントをするわけでもないという立場での支援です。なかなか難しいポジションですが、やりがいある仕事の一つでもあります。

私はSEからキャリアをスタートし、その後PdMやデータ分析をやってきました。それらの仕事を振り返ってみると、基本的に自分が主体的に何らかの行動を起こして成果を上げることが求められてきたものだったと言えます。しかし、アドバイザー業はそういうものではなく、クライアントが成果を上げるために側面から支援することが求められます。このギャップを埋めるには相当の時間がかかりましたし、今もなお修行を続けております。

初めてアドバイス業を担当した時はどのように振舞ってよいかわからず、四六時中戸惑っていた記憶があります。アドバイザーというのは言葉としてはわかるものの、クライアントに対してどのような支援を行うべきか、どこまで踏み込むべきかよくわからなかったからです。
その場には手練れのコンサルタントが同席していたのですが、彼の行動原理がよくつかめないままそのプロジェクトは終了してしまいました。ただ、クライアントの信頼を積み上げながら効果的なコメントと質問で課題を解決していく様は、ただただ感心するばかりでした。

クライアントを側面から支援するためには何が必要なのか――この深淵なる問いに対するヒントが本書に詰まっていました。ただ、一度読んだだけでは理解が進まない部分も多く、実務と本書を行ったり来たりしながら少しずつ理解を深めている段階です。読めば読むほどに唸らされるような本です。

経験的な勘ですが、このように薄くバターを何度も塗るが如く理解を深めていく本というのは良書だと思っています。逆に言うと一度読むだけでスッと入るような本は、そこから学べることが限られている気がします。

本書の他にも「人を助けるとはどういうことか」「コンサルタントの秘密 技術アドバイスの人間学」などの本を読みつつ、今も学び続けています。

あらためて読み返した本たち

上にあげた本は主に2021年から読み始めた本です。その一方で、迷ったときには昔から何度も読んできた本を手に取ることが多かったように思います。最後にこうした本をご紹介します。

リーダーを目指す人の心得,コリン・パウエル 他,飛鳥新社

かのコリン・パウエルが書いたリーダーシップに関する本です。あるいは、職業人とはどうあるべきかを説いた本といってもよいかもしれません。仕事はひとりではできず、どのような技術を駆使していたとしても最後は人。プロジェクトが順調に走っているときも、悩むときも、価値を出せたときもその背景には人がいます。だからこそ、どのようなポジションにいようともリーダーシップを発揮する必要があるわけですが、歳を重ねても悩みは尽きません。

本書はそんなリーダーシップやセルフマネジメントの悩みに直面した時、あるいはキャリアの節目を迎えたときに手に取る本です。今年も大いに手に取りました。

エスキモーに氷を売る,ジョン・スポールストラ,きこ書房

ビジネスは商売。つまりはどのようなビジネスをしていても何かを売る必要があります。たとえ社内向けにサービスをする部門に在籍していたとしても同様です。

ところで、商売において新しいものには大いなる可能性がありますよね。新しい市場を創れる可能性があるからです。しかし、市場が形成され切っていないときにものを売るのは大変です。また、データ分析のようにプロフェッショナルサービスを展開する商売は、そのチームの存在が市場に認知されない限り仕事を取ることさえままなりません。

私がマネジメントをしているチームはピープル・アナリティクスに特化した専門チームですが、本格的に立ち上げて2年ほどしか経過していません。また、ピープル・アナリティクスは国内ではまだ黎明期といってよいでしょう。つまり、新しいビジネス領域に向かって新しいチームで参入しているわけで、商売の立ち上げを考える必要があります。これは社内・社外を問わない話です。

新しい商売と格闘することは私にとってやりがいがあるものですが、非常に難易度が高く悩みは尽きません。そんなときは、しばしば本棚からマーケティングに関する本を引っ張り出してきて思いを巡らせています。本書はそんなマーケティングに関する本の一つで、凝り固まった発想を解きほぐしてくれる本です。今年も何度か手に取り、そのたびに微かなヒントをいただきました。

デザイン・ドリブン・イノベーション,ロベルト・ベルガンティ,クロスメディア・パブリッシング

本書はデザインというタイトルがついているものの、巷で流行っている米国流のデザイン思考とは趣が異なる本です。どちらかというと、ピーター・ティールの「ゼロ・トゥ・ワン」に近いスタンスを取っている印象で、リーン的に改善を重ねるアプローチをある意味否定しています。

市場にとって新しいものが登場してそれがメインストリームに乗るかどうか、それを早い段階で予測できる人はそういないでしょう。特に顧客にとって新しい価値や意味をもたらすような製品やサービスの行く末を予測するのは難しいはずです。逆に言えば、新しい企画を考える立場の人は、そのような不確実性の霧の中を走る必要がありわけです。
本書はまさにこのような急進的なイノベーションを取り上げています。

一方、私が日々取り組んでいるデータ分析の仕事はどちらかというとビジネスをリーン的なアプローチで支えるものに近いと言えます。ファクトに基づいて定量的な評価を重ねながらビジネスの意思決定を支援するわけなので。

ではなぜこのような本を読むのかと言えば、データ分析がまだ必要とされていない分野に参入することを考えているからです。また、チームとの仕事とは別に、そのような領域に技術を持ち込みたいという相談を受けることも稀にあります。

手つかずの領域に機会を見出すのは楽しくやりがいもあることですが、当然ながら明確な市場がないので茨の道となります。茨の道の開拓手順を書いた参考書はありませんので、いろいろな失敗をしながら自分で学んでいくしかありません。

本書も同様に答えを提示する本ではありませんが、新しい切り口を授けてくれる本でした。そのために一度読んだら終わりという感じの本でなく、ふとした瞬間に読みかえしています。


今回は紹介する本を絞ってみましたが、思いのほか長くなってしましました。

最後までお読みいただきありがとうございました。

この記事が気に入ったらサポートをしてみませんか?