マガジン

  • 統計学

    統計学の記事です。順番は特にありません。面白そうなテーマから上げていきます。

  • 機械学習

最近の記事

CommonLit Readability Prize参戦記

こんにちは 8/3に終了したCommonLit Readability Prizeコンペの反省を書きたいと思います。 結果から言うと大幅shake downしてしまいました。 publicではメダル圏内ギリギリ残れていたのですが、見事にshake downしてしまいました。 今回は自分なりになぜこんなにもshake downしてしまったのかということと、コンペ期間中の自分の取り組みを簡単に振り返ります。かなり内容が薄いので生暖かい目で見てください。 ・なぜ大幅にsh

    • 最尤法を直感的に理解する

      今回は最尤法について説明していきます。統計学や機械学習を触れていると一回位は聞いたことがあると思います。 最尤法ではあるデータから得られる確率を設定して、最良のパラメータを決定することが目的です。 と言ってもピンとこないと思うので具体例を交えて話してみます。例えばデータが10個あったとします。これを確率分布を用いてプロットしてみます。しかしどの確率分布を選べばいいでしょう。正規分布?指数分布?ガンマ分布?選択肢はあります。仮に正規分布を選んだとします。正規分布は平均と分散

      • k-means法とk近傍法について

        今回から機械学習についても書いていこうと思います。全部を取り上げるとキリがないので自分が興味を持った分野のみを取りあげていく予定です。できる限り詳しく説明しますが、それでも抜けている所もあるのでご了承ください。 今回扱うのはk傍法とk平均法です。pythonで機械学習をやったことがある方ならkmeansだったりKNeighborsClassifierとかで使用したことがあると思います。 名前は似ていますが決定的な違いがあります。それはなんでしょう。 ・k近傍法とk平均

        • 二項分布を理解しよう

          先に大数の法則と中心極限定理の記事を出してしまいましたが、よくよく考えるとこっちが先でした。 なぜ正規分布ではなくて二項分布なのか理由を説明しますね。 二項分布は確率論の中でも歴史が深く他の正規分布やポアソン分布を生み出す基礎的な要素になっています。 まず二項分布に入る前に反復試行の確率を理解しておきます。 これは一回の試行で事象Aが起こる確率がpである独立な試行をn回行う。この時事象Aがちょうどr回起こる確率はq=1ーpとする。これらを全て式で表してみると次のように

        CommonLit Readability Prize参戦記

        マガジン

        • 機械学習
          2本
        • 統計学
          13本

        記事

          大数の法則について

          今回は大数の法則と中心極限定理について深掘りしていきたいと思います。 まずどっちがどっちか説明できますか。多分ごちゃごちゃになっているかもしれません。(自分もそうだった) 大雑把に説明すると次のようになります。 ・大数の法則:試行回数nが大きいほど標本平均は母平均に近づく。 ・中心極限定理:母集団分布が何であれ、試行回数nが大きくなるほど標本の平均・分散は正規分布に近づく。 ではまず大数の法則から見ていきます。 ・大数の法則今回はコイン投げをして表が出る確率というテ

          大数の法則について

          確率分布(連続型編)

          では前回離散型の確率分布について紹介しました。連続型の確率分布をサラッと紹介します。詳しくは一つ一つ紹介します。(でないときつい) まず連続型の確率分布を確認します。 ・正規分布 ・指数分布 ・ガンマ分布 ・対数正規分布 ・ベータ分布 ・ワイブル分布 ・コーシー分布 ・パレート分布 ・正規分布正規分布は代表的な連続型の確率分布です。誰もが一度は聞いたことがあると思います。又の名をガウス分布と言います。自然界や人間社会の数多くの現象に当てはまりますが万能ではありません。

          確率分布(連続型編)

          擬似相関について

          擬似相関という言葉知っているでしょうか。相関と聞くとある変数が増えたらもう一方の変数も増えたみたいな感じを想像すると思います。相関を表すためによく下記のような散布図が使われます。 ところで相関関係と因果関係というのをよく聞くと思いますが、それぞれの違いは説明できますか。簡単に違いについて述べます。 因果関係とは広辞苑を参照してみると原因とそれによって生じる結果との関係とされています。簡単に言えばある原因AによってBという出来事が生じると行った感じです。 相関関係とは一方

          擬似相関について

          確率分布について(離散型)

          今度こそは確率分布について説明します。前回確率分布についての基礎解説をしましたのでこちらをご覧ください。これらの知識を前提として説明していきます。 では確率分布の種類からやっていきます。タイトルにある通り離散型と連続型でそれぞれ扱う分布が違います。またデータを扱う では簡単に離散型と連続型の確率分布を紹介します。 ではまず離散型から ・超幾何分布 ・二項分布(ベルヌーイ分布) ・ポアソン分布 ・一様分布 ・負の二項分布 ・幾何分布 続いて連続型の確率分布について

          確率分布について(離散型)

          確率分布を学ぶための基礎知識

          当初は確率分布について扱おうと思っていたのですがかなり長くなってしまったので今回は基礎編とします。 以下の単語が説明できる際は不要です。 ・確率密度関数(式の追加) ・累積分布関数(式の追加と説明の更新) ・確率変数 ・歪度と尖度 ・確率変数の期待値と分散(追記) またこの記事ではCやPなどの入門は扱っていません。 ・そもそもなぜ確率が必要なのかよく書籍などで統計学の本を見ると確率とセットになることが多いと思います。また書いていなくても大抵確率とセットだと思います。

          確率分布を学ぶための基礎知識

          代表値と偏差について

          統計学勉強しているくせにまとまった本を持っていないと思いアマゾンで統計学入門という本が人気だったので買ってみました。まだ途中までしか読み終わっていないのですが、少し気になったことがあったのでまとめたいと思います。証明などは今回載せていませんので数式が苦手な方でも大丈夫です。 第二章の一次元データの章のデータの散らばりについてです。ここら辺はある程度知っていたので読み飛ばそうと思っていたのですが、よく読んでみたら少し疑問になったことがあったのでまとめます。 範囲・四分位範囲

          代表値と偏差について

          Coursera machine learning week4(まとめ)

          今回と次のweekでニューラルネットワークについて紹介されています。では早速やっていきます。 この週で述べられていることは次の通りです。 ・Neurons and the brain(ニューロンと脳) ・Model representation(モデルの紹介) ・Examples and intuitions(例と直感的理解) まず簡単に導入部分について説明します。なぜニューラルネットワークが使われるのかという点に注目しています。例えば次のような分類問題を分けると赤線の

          Coursera machine learning week4(まとめ)

          機械学習の評価指標(まとめ)

          Kaggleで勝つデータ分析の第二章評価指標の分野が終了したので簡単にまとめます。ここら辺の分野は実際にモデルを動かした方が理解しやすいので簡単にデータを作ってやっていきます。 まず評価指標とは何かについて紹介します。評価指標とは学習させたモデルの性能やその予測値の良し悪しを測る指標のことです。 ・回帰問題における評価指標まず回帰における評価指標を紹介します。 ・RMSE ・RMSLE ・MAE ・決定係数 では少し掘り下げていきます。 ・RMSE(Root Mea

          機械学習の評価指標(まとめ)

          Coursera machine learning week3まとめ(part2)

          前回ロジスティック回帰についてまとめました。今回はそれの続きです。今回の内容は過剰適合と正則化についてまとめます。 ・The problem of overfitting過剰適合とは何でしょうか。簡単に言えば訓練データに対してとても精度が良すぎるせいで、テストデータなどの未知のデータに対しての性能が悪くなってしまうことです。 原因として外れ値も含んでいるから。 講座では住宅価格の例が挙げられています。一番左は訓練データに対しても精度が悪そうです。このようにテストデータだ

          Coursera machine learning week3まとめ(part2)

          Coursera machine learning week3 まとめ(part1)

          この週は教師あり学習問題の分類問題に焦点を当てています。この週の最後には正則化や過剰学習も紹介されています。 この週のロジスティック回帰の問題が難しかったのでpart1でじっくりロジスティック回帰についてまとめます。part2では残りの正則化や過剰学習についてまとめます。 ・Classification分類問題の例として以下のような例が挙げられています。 ・Email : Spam / Not Spam? ・Online Transaction / Fraudulent

          Coursera machine learning week3 まとめ(part1)

          Coursera machine learning week2 まとめ

          第二週目のまとめです。この週はOctaveの扱い方と多変量線形回帰と正規方程式にについてまとめられています。今回はOctaveは除くので多変量線形回帰と正規方程式です。ではやっていきます。 ・Multiple features(variables)簡単に言えば前回の仮説関数から変数を増やしたものです。前回の住宅価格の予測では土地の大きさを一つの変数として表現しました。今回はそれに加えて寝室の数や築年数、何階建かという説明変数を加えます。ではこれらを踏まえた上でモデルを作成し

          Coursera machine learning week2 まとめ

          Coursera Machine learning week 1(まとめ)

          実は一度挫折しました。その時は機械学習のきすら知りませんでした。ある程度機械学習の知識がついてきたので英語の勉強も兼ねて再開しました。この講座がどのように構成されているかなどの説明は省きます。 week1のざっくりとした内容ですが、まず機械学習の概念的な説明、その次に損失関数、勾配降下法、最後におまけとして線形代数について紹介しています。線形代数は除きます。 https://www.coursera.org/learn/machine-learning What is

          Coursera Machine learning week 1(まとめ)