sasayaka

kaggleに挑戦するエンジニア|ときどきプログラミングの先生|地球温暖化が気になる

sasayaka

kaggleに挑戦するエンジニア|ときどきプログラミングの先生|地球温暖化が気になる

マガジン

  • Kaggleで学ぶ機械学習

    Kaggleで学んだこと、気づいたこと

  • 学びとインスピレーション

    忘れてしまいがちだけど、大切なこと

  • はじめてのプログラミング

    小学校や科学館の「はじめてのプログラミング」ワークショップ。講座内容の抜粋やTIPSを不定期更新。

  • 地球温暖化が気になる

    気になる地球温暖化について

最近の記事

機械学習モデルのパラメータ最適化 - Optunaのアルゴリズム

いままでなんとなく使っていたOptunaのパラメータ最適化。グリッドサーチのような総当たりアプローチではなく、効率的なアルゴリズムで計算コストを抑えているとのこと。最適化の効果を最大限にするために、Optunaの仕組みやサンプラー、プルーナーの使い分けを理解しよう。 グリッドサーチとOptunaの違いグリッドサーチは、ハイパーパラメータの候補値をあらかじめ設定し、そのすべての組み合わせを試して最適なパラメータを見つける手法です。網羅的なアプローチであるため、最適なパラメータ

    • Voting Regressor - 複数モデルを組み合わせて予測精度を向上するアンサンブル学習

      いまさらながらVoting Regressorのアンサンブル学習をChatGPTに教えてもらった。Kaggleで公開されている高スコアのコードの多くがアンサンブル学習を利用している。いままで主にLightGBMを使っていたが、様々なモデルの特性も理解して、課題に応じた組み合わせが必要なんだろう。 アンサンブル学習の基本アンサンブル学習は、複数のモデルを組み合わせることで、それぞれのモデルの予測の不確実性やバイアス、バリアンスを低減し、全体としての予測精度を向上させる手法です

      • KaggleでExpertに昇格したのでどれくらい価値があるのか(ないのか)訊いてみた

        Kaggleのコンペで銅メダルを2つ獲得し、Competition Expertに昇格した。挑戦して1年目の成果としては悪くないが、上位入賞者との差はまだまだ大きい。我ながらがんばったな、と思う反面、スキルの市場価値という観点ではやっとスタートライン立った程度なんだろう。 ChatGPTからのアドバイスは下記のとおり。実務への応用を考えると称号よりもコミュニティへの貢献のほうが大事なのかもしれない。今後はコードの共有などしていこうと思う。 ChatGPTからのアドバイスK

        • We Are The World - エゴを捨てて世界を変える

          「We Are The World」をテーマにしたNetflixのドキュメンタリー「ポップスが最高に輝いた夜」を観た。 たった一晩で収録された奇跡のような楽曲。強烈な個性を持つアーティスト達に向けてレコーディングスタジオの入口には「エゴはここで捨てろ」と書かれていたらしい。 自分のエゴを捨てれば世界を変えることができる、ということなのかも。 ChatGPTに現代の課題への応用を訊いてみた。 We Are The Wolrdのメッセージ1985年にリリースされた「We Ar

        機械学習モデルのパラメータ最適化 - Optunaのアルゴリズム

        • Voting Regressor - 複数モデルを組み合わせて予測精度を向上するアンサンブル学習

        • KaggleでExpertに昇格したのでどれくらい価値があるのか(ないのか)訊いてみた

        • We Are The World - エゴを捨てて世界を変える

        マガジン

        • Kaggleで学ぶ機械学習
          22本
        • 学びとインスピレーション
          8本
        • はじめてのプログラミング
          10本
        • 地球温暖化が気になる
          6本

        記事

          マルチラベル分類問題 - 性能評価指標 AUC(Area Under the Curve)の適用

          Kaggle初心者向けPlayground Seriesで、今回のテーマはマルチラベル分類。AUCの考え方がよくわからなくてChatGPTに教えてもらったのでメモ。 AUC(Area Under the Curve)マルチラベル分類では、一つのインスタンスが複数のクラスに属することがあります。この問題に対して、モデルの性能を評価する際には、通常の方法とは異なるアプローチが必要です。 ダミーデータの作成 make_multilabel_classification関数を使

          マルチラベル分類問題 - 性能評価指標 AUC(Area Under the Curve)の適用

          多値分類の閾値調整: Optunaを用いた精度向上

          多値分類のコンペが苦手だ。分類問題では後処理での閾値調整が有効らしいけど、その辺の理解がまだ不十分だった。 Kaggleの初心者向けコンペでoptunaを使った閾値調整が使われていたので、ChatGPTにも聞きながら整理してみた。 多値分類問題の閾値調整多値分類モデルは、入力データが各カテゴリに属する確率を出力します。一般に、最も確率が高いカテゴリを予測結果として選びますが、この方法が最良とは限りません。実際にモデルを使う場面では、カテゴリを間違えたときの影響(コスト)はカ

          多値分類の閾値調整: Optunaを用いた精度向上

          TEDトーク - 情熱とは、深い愛情のことらしい

          エネルギーが足りないときはTEDトークを観るのがいい。 内なる情熱の大切さに気づかされる。 なぜあなたは素晴らしいキャリアを手にすることができないのか 成功、失敗、そして創り続ける力

          TEDトーク - 情熱とは、深い愛情のことらしい

          正則化とは? -機械学習モデルの 過学習を防ぎ、予測精度を最適化する

          正則化はモデルが訓練データに過剰に適合することを防ぎ、新しいデータに対する予測精度を高めるための重要な手法らしい。 いままでなんとなくやっていたLightGBMの正規化パラメータ設定についてChatGPTに教えてもらったのでメモします。 正則化とは?L1正則化(Lasso):不要な特徴量の重みを0にして影響を減らす。 L2正則化(Ridge):特徴量の重みを小さくしモデルの複雑さを減らす。 Elastic Net:L1とL2のバランスを取り、データの特性に応じて最適なモ

          正則化とは? -機械学習モデルの 過学習を防ぎ、予測精度を最適化する

          機械学習のための対数変換 - NumPyのlog1p関数

          正規分布していない特徴量や目的変数を対数変換することで、予測精度が向上することがある。なんとなく使っていた対数変換について、ChatGPTに教えてもらったのでメモ。 対数とは対数は、ある正の数が別の正の数を何乗したものかを示す数学的操作です。主に、「大きな数値を小さくして扱いやすくする」ために用います。例えば、基数10の対数では、10を何乗するとある数になるかを示します。 基数10の対数関数 対数関数のグラフは、xの値が増えるにつれてyも増えますが、増加のペースは次第に

          機械学習のための対数変換 - NumPyのlog1p関数

          印象派風の絵画をChatGPTで描く

          ChatGPTのDALL·Eは「こんな絵を描いてみたい」という漠然とした想いを形にしてくれる。何度かやりとりをしてイメージを伝えてみたけど、もう少し明るい感じでもよかったかも。 印象派風のスタイルで油絵を描いて、タイトルを提案して これらの絵画に対する肯定的・否定的な見解を予想して 肯定的な見解 AIを使用したアート作成は、以下のような点で価値があります: 技術的な進歩への寄与:AI技術を活用することで、アート作成の新たな可能性が開かれ、従来のアート制作方法に新しい

          印象派風の絵画をChatGPTで描く

          多次元データの異常値判定 - Isolation Forest

          ChatGPTにIsolation Forestの異常値判定を教えてもらったメモ。特に多次元データセットでの異常値判定は便利なので、特徴量生成に生かしたい。 Isolation Forestとは:多次元データでの異常値検出Isolation Forestは異常値検出に特化した機械学習アルゴリズムで、特に多次元データセットでその能力を発揮します。ランダム分割を利用してデータポイントを孤立させ、異常値を効率的に識別します。 サンプルデータの生成:身長、体重、年齢身長、体重、年

          多次元データの異常値判定 - Isolation Forest

          ワークシート - 図形、正多角形、レース

          補助教材としてお使いください。下記の「ダウンロード」リンクで公開しているPDFファイルが利用できます。 ページ1:課題のワークシート ページ2:回答例とサンプルプログラム 小学校や科学館の「はじめてのプログラミング」ワークショップです。 iPadアプリ Turtles(タートルズ)でプログラミングの基本を確認します。 各回の所要時間: ①基本操作の説明(3分~) ②ワークシートで試行錯誤(20分~) ③サンプルプログラムを参考にオリジナル作品をつくる(20分~) いろい

          ワークシート - 図形、正多角形、レース

          教育と創造性についての深い洞察 — ケン・ロビンソン卿のTEDトーク

          教育とは、創造性とは。 TEDトークは、新たな視点で物事を考えるきっかけを与えてくれる。

          教育と創造性についての深い洞察 — ケン・ロビンソン卿のTEDトーク

          パイプライン処理で効率化: scikit-learnのpipelineモジュール

          scikit-learnのpipelineについてChatGPTに訊いてみた。 要するに、.fit()メソッドを使った一連の処理を効率的に実行できる、ということか。確かにコードも読みやすくなるし、慣れればいろいろ使えそう。 PipelineとはPipelineは、.fit()メソッドを持つ一連のオブジェクト(変換器や予測器など)の処理を効率的に自動化するためのツールです。 基本:スケーリングとモデルの学習スケーリングとロジスティック回帰モデルの学習を行います。 まず、共通

          パイプライン処理で効率化: scikit-learnのpipelineモジュール

          私たち地球の生命 - 過去の大量絶滅の考察

          Netflixのドキュメンタリー「私たちの地球の生命」を観て、過去の大量絶滅が気になったのでChatGPTに訊いてみた。 「地球の生物史における大量絶滅と、今後の可能性について、教えてください。」 現在の状況が「第六次大量絶滅」と呼べるほどの規模かどうかは議論があるみたいだけど、生物の多様性が過去にないスピードで減少しているのは確からしい。「終わりの始まり」でないといいのだけど。 歴史上の主要な大量絶滅地球の歴史を通じて、少なくとも五回の大規模な大量絶滅イベントが起こって

          私たち地球の生命 - 過去の大量絶滅の考察

          海の向こうの戦争 - 僕たちにできること

          ChatGPTに訊いてみた。 「パレスチナ自治区ガザの軍事衝突の現状を考察し、私達にできることを提案してください。」 僕たちの日常と、世界の現実のギャップを考えさせられる。答えはないけど、今できることしたい。 ガザ地区の現状医療危機: ガザの医療システムは極度の圧力下にあります。多くの病院が機能を停止しており、医療施設や救急車への攻撃が確認されています。特に、北部の主要な病院がほぼ全て機能停止している状態で、残る病院も容量を超える患者を抱えています​​​​​​。 食料と

          海の向こうの戦争 - 僕たちにできること