スクリーンショット_2017-05-27_3.33.17

『How to become a data scientist』を和訳する

【概要】

データサイエンティストになるためのスキルを身につける学習型Webサービス Dataquest において、Dataquestの創設者である"Vik Paruchuri"さんが記載したブログ記事 『How to become a data scientist』 を和訳した内容です。これから、データサイエンティストとしてのキャリアを考えている人たちからすると、とってもよくまとめられており、良記事なので和訳しました。

こちらが実際の記事になります。ぜひ、ご覧ください。
https://www.dataquest.io/blog/how-to-become-a-data-scientist/


【How to become a data scientist】

 データサイエンスは現在盛り上がりをみせる分野のうちの一つであり、データサイエンティストという稀有な存在は、あちこちで求められています。データサイエンティストになるべき正当な理由として、データサイエンティストは、自動運転車を作る仕事から画像認識に関わることまで、様々な業界と関わることができます。これらのことを考えても今、データサイエンティストは引く手あまたの職業と言えるでしょう。

データサイエンスは、自動運転車の開発など、多くの業界と関わることができます

 もし、あなたがこの記事を一読しているのであれば、あなたは今データサイエンティストになるための術を探っているのでしょう。そして、あなたがすでに調べたことがあれば、おそらく、いくつもの「線形代数を学ぼう!」や「Sparkを学ぼう!」などのタイトルがついた参考書を読んできたと思います。私もあなたと同じように、データサイエンティストになるべく学んでいた時、これらの参考書に挑戦しました。しかし、結局は途中で飽きて、やめてしまいます。しかも、データサイエンティストになるべくスキルを身につけることができずに、です。これらの参考書は、まるで先生のようでした。学校で1束の本を私に手渡し、「これを全部隅々まで読んでこい」と押し付けてくる。このような学習方法は決して私を魅了することはありませんでした。

 残念なことに、『たったの5年でデータサイエンティストになる』と豪語するような参考書の全ては、すでに一流のデータサイエンティストとして働く人たちによって書かれたものです。彼らは自身を振り返り、「私たちが日々行っていることで必要なものはこれだ!」と教えてくれます。しかし、彼らは忘れてしまっているのです。自分自身の手でもがきながら学ぶことの大切さを、そして、難しいハードルを飛び越えることができるのは学びに対するモチベーションであることを。

 データサイエンスを学ぶについて、最もよく効率的に学ぶ方法は、自分が一番興味のある問題に取り組むことである、と私は気づきました。そこで、データサイエンティストに求められるスキルのチェックリストを学ぶことをやめ、私は実際のデータを触りながら、自身でプロジェクトを立てることに集中しました。この学習方法は、私を動機付けさせてくれるだけでなく、データサイエンティストとして行う仕事を忠実に反映したものでした。

 この記事では、あなたがデータサイエンティストになる道のりの後押しをする6つのステップを紹介します。その道のりは決して楽なものではありません。しかし、データサイエンティストになるために、従来の常識に従うよりも、確実に楽しい道のりになることを保証しましょう。


1. あらゆることに疑問を持とう

 データサイエンスの魅力は、実際にデータやコードを触ることで、自身が持つ疑問に答えることができることです。これらの疑問は、「全てのフライトが時間通りに到着するか予測できるだろうか?」のようなものから、「アメリカ合衆国は、学生一人当たりにどれほどの教育費をあてているのだろうか?」といったものに渡ります。これらのような疑問を持ち、さらに答えることができるようになるためには、まずアナリストとしてマインドセットを行う必要があります。

 このマインドセットを行う一番の最良の方法は、ニュース記事から始めることです。まず記事を見つけます。ランニングは人をより賢くするかどうかについて書かれたものや、砂糖は人の体に悪いかどうかについて書かれたものなど。そして、次のように考えます

・ どのようにして、彼らはこの与えられたデータから結論に至ったのか 

・ どのようにして、あなたはさらなる調査をするための課題を設計すか                                  ・もしあなたがこのデータを入手することができるのであれば、どのような疑問を投げかけるか

 アメリカ合衆国における銃死に関する記事ドナルドトランプを支持するオンラインコミュニティに関する記事などの、いくつかの記事に関するデータはダウンロードすることができます。そしてダウンロードしたら、次のことを行いましょう。

・ データをダウンロードする、そして、エクセルなどの解析ツールでそのデータを開く
・ 流し見てみて、データから何かしらのパターンを見つける
・ そのデータは記事の結論を支えることができているかを考え、そしてなぜできるのか、できないのかを考える
・ あなたがデータを使って答えることができる新たな疑問は何か?

 そして、これらがデータドリブンの記事を探すのに良いサイトです。ぜひ、探してみてください。

FiveThirtyEight
New York Times
Vox
The Intercept

 数週間いくつかの記事を読んでみたら、疑問を持つことや、疑問に答えることが楽しかったかどうかを考えましょう。データサイエンティストになる道のりは、とっても長い道のりです。なので、これに情熱的にな取り組む必要があります。データサイエンティストは、数理モデルや統計解析ツールを使い、常に疑問をもち、その疑問に答えなくてはなりません。

 もしデータと疑問を持つことのプロセスをあなたが楽しめなかったなら、あなたが楽しむことのできるデータと何かを見つけ直すことが考えるべきでしょう。例えばもし、あなたが抽象的すぎる疑問について考えることが楽しめなかったのであれば、ひょっとしたら、健康にまつわるデータや教育にまつわるデータを分析することは楽しめるかもしれません。私は個人的には株式市場に関するデータがとっても楽しむことができ、市場を予測するモデルをつくる気にさせてくれます。

 あなたが次のステップに行く前に、あなたが情熱的になれるデータサイエンスの分野が何かを見つけましょう。この重要性について、もう私は強調するつもりはありません。すでに、十分に伝えたからです。もし、あなたのゴールがデータサイエンティストになることだったとしても、特別な情熱をあなたが持ち合わせていないのであれば、あなたはおそらく、数ヶ月の取り組みで諦めてしまうでしょう。

FiveThirtyEightから引用したインフォグラフィック


2. 基礎を学ぶ

 ひとたび疑問を持つことができるようになったなら、この疑問に答えるための技術的なスキルを学び始める準備が整いました。私の場合は、Pythonでプログラミングの基礎を学ぶことから始めました。Pythonは一貫した文法を持つプログラミング言語です。そして、初心者に推奨されていることで有名です。さらに幸運にも、Pythonは複雑な分析や、ディープラーニングなどの機械学習を行うための多様的な機能を持ち合わせてもいます。

 多くの人が言語の選択に悩みますが、大事なことが次のことです。

・ データサイエンスは疑問に答え、ビジネス的な価値を探ることができるもので、単なるツールではありません。
・ 概念を学ぶことは、文法を学ぶことよりもより大切なことです。
・ プロジェクトをたて、それを共有することは、データサイエンティストとして、今後あなたが実際に行うことであり、この学習方法があなたに幸先のよいスタートを与えます。

 上記で示したように、大切なことは、データサイエンスのツールを全て学ぶことではありません。プロジェクトを立て始めるのに、必要な技術を学べれば十分なのです。そのための最適なサービスはこちらです。

・ Dataquest – DataquestはPythonの基礎と、NBAのスコアやCIAの活動などの面白いデータセットを分析することを通して、データサイエンスを教えてくれます。
・ Codecademy – Codecademy Pythonの基礎と、プログラムの作り方を教えてくれます。

 大切なことは基礎を学び、そして、最初のステップで持ったいくつかの疑問に答え始めることです。これが、あなたの学びを確固たるものにし、ポートフォーリオを立て始める手助けになるでしょう。


3.プロジェクトを立てる

 コーディングの基礎を学ぶことができたら、プロジェクトを立て始めるべきです。そして、興味のある疑問に答え、あなたのデータサイエンスのスキルを見せましょう。プロジェクトは、複雑である必要はありません。例えば、SuperBowlの勝者のパターンを分析するぐらいで十分です。大切なことは、面白いデータセットを見つけることができるか、そしてそのデータについて疑問を持つことができるか、そして、コードでその疑問に答えることができているか、です。もし、あなたがデータセットを見つける必要があれば、この記事をチェックしてみてください。

 プロジェクトを立てるにあたって、次のことを忘れないようにしてください。

・ データサイエンスの仕事のほとんどはデータクリーニングです
・ 最もコモンな機械学習は回帰分析です。
・ 誰でも、どこでも始めることができます。しかし、あなたが行なっていることが魅力的でないと感じてしまったなら、それはもはや取り組む価値はありません。

 プロジェクトを立てることだけは、あなたのデータサイエンスとしての仕事を理解し、あなたのスキルを試すための手助けをするだけではなく、雇用者に見てもらうポートフォリオを作ることにもなります。自身でプロジェクトを立てる詳細なガイドはこちらになります。

・ Storytelling with data
・ Machine learning project

 一度、いくつかの小さめなプロジェクトを立てることができれば、あなたの興味分野をより深めたものを探るのが良いでしょう。私は、株式市場を予測することに取り組みました。株式市場を予測することで最も良かったことは、少しのpythonの知識ではじめることができ、毎月、毎週のトレードすることができることです。スキルが成長するにつれて、細かい価格やより正確な予測などのニュアンスを追加することで、問題を複雑にすることができます。

 あなたが繰り返しして取り組めるプロジェクトの例はこちらです。

・ 健康についての取り組み。データの入力と分析を手動で開始し、時間の経過とともに相関関係や予測要素を追加し続けることができます。
・ NBAゲームの勝者を予測する。手動でスコアを入力し、ヒューリスティックで予測を行うことから始めることができます。しかし、時間の経過とともにより多くのデータを取得し、より正確な予測を行うことができます。

データサイエンスのプロジェクトの例 -- このマップはアメリカ合衆国における人種の多様性を表しています。


4.取り組みを共有する

 一度、いくつかのプロジェクトを立てたなら、あなたはそのプロジェクトを他人にシェアすべきです! そのプロジェクトを、他人が自由に閲覧できる、Githubにアップロードするのがいいアイディアでしょう。Githubにプロジェクトをあげる良い記事をここで読むことができます。ポートフォリオを立てるより詳しい記事はここで読むことができます。プロジェクトをアップロードすることは:

・ プロジェクトを最適な方法で人に示す術を考えさせます。そして、これはデータサイエンティストとしてやらなくてはならないことです。
・ 同僚や、同じくデータサイエンスを学ぶ仲間にプロジェクトを見てもらえ、コメントがもらえます。
・ 雇用者にあなたのプロジェクトを見てもらえます

 あなたの取り組みをGithubに公開することに伴い、ブログを書くことも考えるべきです。データサイエンスを私が学んでいた時、ブログを書くことは私に:

・ リクルーターからの関心を得ることができます
・ 徹底的に概念を学ぶことができます。(教えることは、あなたの学びを助けます)
・ データサイエンスを共に学ぶ仲間と繋がれます

 ここにブログを公開する良いガイドがあるので、読むといいでしょう。ブログにとって良いトピックは

・ データサイエンスとプログラミングを教えること
・ あなたのプロジェクトとあなたの発見を語ること
・ データサイエンスの学びのプロセスを語り、またどのように行うかを語ること

です。

インフォグラフィックです。(私の記事からの) Simpsons characterと似たキャラクターがいくつあるのかを示したものです。


5.他者から学ぶ

 オンラインでプロジェクトを共有することができてきたら、今度は他のデータサイエンティストと一緒に取り組むといいでしょう。これを面と向かってすることもできますし、オンラインコミュニティで行うこともできます。良いオンラインコミュニティはこちらです。

・ /r/datascience
・ Data Science Slack
・ Quora
・ Kaggle

 個人的に私はQuoraやKaggleで活動していました。とっても私の学びの手助けをしてくれるコミュニティでした。オンラインコミュニティに参加することが次の理由からいいことです。

・ 共に学ぶ人を見つけることができる 
・ プロフィールを高め、機会を見つけることができる
・ 他者から学ぶことで、知識を増やすことができる

 あなたはまたMeetupsというサービスを使って、直接対面することもできます。直接対面することは、あなたの近くでより経験を積んだデータサイエンティストから学ぶことができます。

6.あなたの限界を広げる

 企業は、資金を貯蓄し、顧客をより幸せにすることができる、重要な洞察を発見できるデータサイエンティストを雇用します。現状に満足せず、どんどん新たな難しく、そして複雑な疑問を探しだし、答え続けましょう。一月経ち、プロジェクトを振り返ると、自分の取り組みが恥ずかしくないレベルまで成長することでしょう。そして、あなたはおそらくあなたは満足してしまい、自分の限界を広げようとしなくなる日がいつか来ると思います。しかし、あなたは日々進歩すべきです。そして進歩した結果を、企業がみてくれるあなたのポートフォリオに反映すべきなのです。

 限界を広げる4つの方法

・ あなたがやりたがらないような膨大なデータセットに取り組む 
・ あなたが持っていないような知識を求められるプロジェクトを始める
・ プロジェクトをより早く終わらせる
・ あなたがプロジェクトでしたことを他の誰かに伝えられるかどうか試す


最後に

  データサイエンスを学ぶことは簡単ではありません。大事なことはモチベーションが続くかどうか、そして、その取り組みを楽しむことができるかどうかです。あなたが、自身でプロジェクトを立て、それを共有することを続けていくと、専門知識はどんどん増え始め、あなたが欲するデータサイエンティストとしての職を手に入れることができます。

 私はまだ、データサイエンスを学ぶための的確なロードマップを示めすことができていないかもしれません。しかし、もしあなたがこれまでのプロセスに従うのであれば、あなたがイメージしているよりもはるかに早くデータサイエンティストになることができます。あなたや私を含め、十分に動機付けがされているのであれば、誰でも、データサイエンティストになることができるのです。 

 数年間データサイエンスを教える従来のサイトに悩まされ、私は、Dataquestを創設しました。データサイエンスをオンラインで学ぶ最も良い方法だと私は思っています。Dataquestは、次に取るべきコースがわからなかったり、あなたが学んでいることに自体よってモチベートされないような、MOOCs(大型公開オンライン課程)ならではの問題を解決しています。Dataquestは数千もの人々がデータサイエンスを学ぶことを手助けし、学習効果を高めるようなレッスンを活用します。さらにDataQuestでは、いくつものプロジェクトを立てることができ、データサイエンティストになるべくスキルを学ぶことができます。Dataquestを無事に卒業した生徒は、なんとAccentureやSpaceXなどの企業から雇用されていることも、Dataquestの魅力です。

 最後に、どうか無事に、あなたがデータサイエンティストにどうかなれますように。

 そして、もしあなたがデータサイエンスを学ぶコツを新たに見つけることができたなら、ぜひコメントして教えてくださいね。






この記事が気に入ったらサポートをしてみませんか?