sasayaka

kaggleに挑戦するエンジニア｜ときどきプログラミングの先生｜地球温暖化が気になる

Kaggleで学ぶ機械学習

sasayaka

22本

Kaggleで学んだこと、気づいたこと
学びとインスピレーション

sasayaka

8本

忘れてしまいがちだけど、大切なこと
はじめてのプログラミング

sasayaka

10本

小学校や科学館の「はじめてのプログラミング」ワークショップ。講座内容の抜粋やTIPSを不定期更新。
地球温暖化が気になる

sasayaka

6本

気になる地球温暖化について

機械学習モデルのパラメータ最適化 - Optunaのアルゴリズム

いままでなんとなく使っていたOptunaのパラメータ最適化。グリッドサーチのような総当たりアプローチではなく、効率的なアルゴリズムで計算コストを抑えているとのこと。最適化の効果を最大限にするために、Optunaの仕組みやサンプラー、プルーナーの使い分けを理解しよう。グリッドサーチとOptunaの違いグリッドサーチは、ハイパーパラメータの候補値をあらかじめ設定し、そのすべての組み合わせを試して最適なパラメータを見つける手法です。網羅的なアプローチであるため、最適なパラメータ

Voting Regressor - 複数モデルを組み合わせて予測精度を向上するアンサンブル学習

いまさらながらVoting Regressorのアンサンブル学習をChatGPTに教えてもらった。Kaggleで公開されている高スコアのコードの多くがアンサンブル学習を利用している。いままで主にLightGBMを使っていたが、様々なモデルの特性も理解して、課題に応じた組み合わせが必要なんだろう。アンサンブル学習の基本アンサンブル学習は、複数のモデルを組み合わせることで、それぞれのモデルの予測の不確実性やバイアス、バリアンスを低減し、全体としての予測精度を向上させる手法です

sasayaka

2週間前

7
KaggleでExpertに昇格したのでどれくらい価値があるのか（ないのか）訊いてみた

Kaggleのコンペで銅メダルを２つ獲得し、Competition Expertに昇格した。挑戦して１年目の成果としては悪くないが、上位入賞者との差はまだまだ大きい。我ながらがんばったな、と思う反面、スキルの市場価値という観点ではやっとスタートライン立った程度なんだろう。 ChatGPTからのアドバイスは下記のとおり。実務への応用を考えると称号よりもコミュニティへの貢献のほうが大事なのかもしれない。今後はコードの共有などしていこうと思う。 ChatGPTからのアドバイスK

sasayaka

1か月前

24
We Are The World - エゴを捨てて世界を変える

「We Are The World」をテーマにしたNetflixのドキュメンタリー「ポップスが最高に輝いた夜」を観た。たった一晩で収録された奇跡のような楽曲。強烈な個性を持つアーティスト達に向けてレコーディングスタジオの入口には「エゴはここで捨てろ」と書かれていたらしい。自分のエゴを捨てれば世界を変えることができる、ということなのかも。 ChatGPTに現代の課題への応用を訊いてみた。 We Are The Wolrdのメッセージ1985年にリリースされた「We Ar

sasayaka

1か月前

16

機械学習モデルのパラメータ最適化 - Optunaのアルゴリズム

sasayaka

2日前

Voting Regressor - 複数モデルを組み合わせて予測精度を向上するアンサンブル学習

7

sasayaka

2週間前
KaggleでExpertに昇格したのでどれくらい価値があるのか（ないのか）訊いてみた

24

sasayaka

1か月前
We Are The World - エゴを捨てて世界を変える

16

sasayaka

1か月前

マガジン

Kaggleで学ぶ機械学習

22本
学びとインスピレーション

8本
はじめてのプログラミング

10本
地球温暖化が気になる

6本

記事

マルチラベル分類問題 - 性能評価指標 AUC（Area Under the Curve）の適用

Kaggle初心者向けPlayground Seriesで、今回のテーマはマルチラベル分類。AUCの考え方がよくわからなくてChatGPTに教えてもらったのでメモ。 AUC（Area Under the Curve）マルチラベル分類では、一つのインスタンスが複数のクラスに属することがあります。この問題に対して、モデルの性能を評価する際には、通常の方法とは異なるアプローチが必要です。ダミーデータの作成 make_multilabel_classification関数を使

sasayaka

1か月前

8
マルチラベル分類問題 - 性能評価指標 AUC（Area Under the Curve）の適用

8

sasayaka

1か月前
多値分類の閾値調整: Optunaを用いた精度向上

多値分類のコンペが苦手だ。分類問題では後処理での閾値調整が有効らしいけど、その辺の理解がまだ不十分だった。 Kaggleの初心者向けコンペでoptunaを使った閾値調整が使われていたので、ChatGPTにも聞きながら整理してみた。多値分類問題の閾値調整多値分類モデルは、入力データが各カテゴリに属する確率を出力します。一般に、最も確率が高いカテゴリを予測結果として選びますが、この方法が最良とは限りません。実際にモデルを使う場面では、カテゴリを間違えたときの影響（コスト）はカ

sasayaka

1か月前

11
多値分類の閾値調整: Optunaを用いた精度向上

11

sasayaka

1か月前
TEDトーク - 情熱とは、深い愛情のことらしい

エネルギーが足りないときはTEDトークを観るのがいい。内なる情熱の大切さに気づかされる。なぜあなたは素晴らしいキャリアを手にすることができないのか成功、失敗、そして創り続ける力

sasayaka

2か月前

18
TEDトーク - 情熱とは、深い愛情のことらしい

18

sasayaka

2か月前
正則化とは？ -機械学習モデルの過学習を防ぎ、予測精度を最適化する

正則化はモデルが訓練データに過剰に適合することを防ぎ、新しいデータに対する予測精度を高めるための重要な手法らしい。いままでなんとなくやっていたLightGBMの正規化パラメータ設定についてChatGPTに教えてもらったのでメモします。正則化とは？L1正則化（Lasso）：不要な特徴量の重みを0にして影響を減らす。 L2正則化（Ridge）：特徴量の重みを小さくしモデルの複雑さを減らす。 Elastic Net：L1とL2のバランスを取り、データの特性に応じて最適なモ

sasayaka

2か月前

5
正則化とは？ -機械学習モデルの過学習を防ぎ、予測精度を最適化する

5

sasayaka

2か月前
機械学習のための対数変換 - NumPyのlog1p関数

正規分布していない特徴量や目的変数を対数変換することで、予測精度が向上することがある。なんとなく使っていた対数変換について、ChatGPTに教えてもらったのでメモ。対数とは対数は、ある正の数が別の正の数を何乗したものかを示す数学的操作です。主に、「大きな数値を小さくして扱いやすくする」ために用います。例えば、基数10の対数では、10を何乗するとある数になるかを示します。基数10の対数関数対数関数のグラフは、xの値が増えるにつれてyも増えますが、増加のペースは次第に

sasayaka

2か月前

5
機械学習のための対数変換 - NumPyのlog1p関数

5

sasayaka

2か月前
印象派風の絵画をChatGPTで描く

ChatGPTのDALL·Eは「こんな絵を描いてみたい」という漠然とした想いを形にしてくれる。何度かやりとりをしてイメージを伝えてみたけど、もう少し明るい感じでもよかったかも。印象派風のスタイルで油絵を描いて、タイトルを提案してこれらの絵画に対する肯定的・否定的な見解を予想して肯定的な見解 AIを使用したアート作成は、以下のような点で価値があります：技術的な進歩への寄与：AI技術を活用することで、アート作成の新たな可能性が開かれ、従来のアート制作方法に新しい

sasayaka

2か月前

2
印象派風の絵画をChatGPTで描く

2

sasayaka

2か月前
多次元データの異常値判定 - Isolation Forest

ChatGPTにIsolation Forestの異常値判定を教えてもらったメモ。特に多次元データセットでの異常値判定は便利なので、特徴量生成に生かしたい。 Isolation Forestとは：多次元データでの異常値検出Isolation Forestは異常値検出に特化した機械学習アルゴリズムで、特に多次元データセットでその能力を発揮します。ランダム分割を利用してデータポイントを孤立させ、異常値を効率的に識別します。サンプルデータの生成：身長、体重、年齢身長、体重、年

sasayaka

3か月前

10
多次元データの異常値判定 - Isolation Forest

10

sasayaka

3か月前
ワークシート - 図形、正多角形、レース

補助教材としてお使いください。下記の「ダウンロード」リンクで公開しているPDFファイルが利用できます。ページ１：課題のワークシートページ２：回答例とサンプルプログラム小学校や科学館の「はじめてのプログラミング」ワークショップです。 iPadアプリ Turtles（タートルズ）でプログラミングの基本を確認します。各回の所要時間： ①基本操作の説明（3分～） ②ワークシートで試行錯誤（20分～） ③サンプルプログラムを参考にオリジナル作品をつくる（20分～）いろい

sasayaka

3か月前

7
ワークシート - 図形、正多角形、レース

7

sasayaka

3か月前
教育と創造性についての深い洞察 — ケン・ロビンソン卿のTEDトーク

教育とは、創造性とは。 TEDトークは、新たな視点で物事を考えるきっかけを与えてくれる。

sasayaka

3か月前

6
教育と創造性についての深い洞察 — ケン・ロビンソン卿のTEDトーク

6

sasayaka

3か月前
パイプライン処理で効率化： scikit-learnのpipelineモジュール

scikit-learnのpipelineについてChatGPTに訊いてみた。要するに、.fit()メソッドを使った一連の処理を効率的に実行できる、ということか。確かにコードも読みやすくなるし、慣れればいろいろ使えそう。 PipelineとはPipelineは、.fit()メソッドを持つ一連のオブジェクト（変換器や予測器など）の処理を効率的に自動化するためのツールです。基本：スケーリングとモデルの学習スケーリングとロジスティック回帰モデルの学習を行います。まず、共通

sasayaka

4か月前

4
パイプライン処理で効率化： scikit-learnのpipelineモジュール

4

sasayaka

4か月前
私たち地球の生命 - 過去の大量絶滅の考察

Netflixのドキュメンタリー「私たちの地球の生命」を観て、過去の大量絶滅が気になったのでChatGPTに訊いてみた。「地球の生物史における大量絶滅と、今後の可能性について、教えてください。」現在の状況が「第六次大量絶滅」と呼べるほどの規模かどうかは議論があるみたいだけど、生物の多様性が過去にないスピードで減少しているのは確からしい。「終わりの始まり」でないといいのだけど。歴史上の主要な大量絶滅地球の歴史を通じて、少なくとも五回の大規模な大量絶滅イベントが起こって

sasayaka

4か月前

9
私たち地球の生命 - 過去の大量絶滅の考察

9

sasayaka

4か月前
海の向こうの戦争 - 僕たちにできること

ChatGPTに訊いてみた。「パレスチナ自治区ガザの軍事衝突の現状を考察し、私達にできることを提案してください。」僕たちの日常と、世界の現実のギャップを考えさせられる。答えはないけど、今できることしたい。ガザ地区の現状医療危機: ガザの医療システムは極度の圧力下にあります。多くの病院が機能を停止しており、医療施設や救急車への攻撃が確認されています。特に、北部の主要な病院がほぼ全て機能停止している状態で、残る病院も容量を超える患者を抱えています。食料と

sasayaka

4か月前

14
海の向こうの戦争 - 僕たちにできること

14

sasayaka

4か月前

マガジン

Kaggleで学ぶ機械学習

学びとインスピレーション

はじめてのプログラミング

地球温暖化が気になる

最近の記事

機械学習モデルのパラメータ最適化 - Optunaのアルゴリズム

Voting Regressor - 複数モデルを組み合わせて予測精度を向上するアンサンブル学習

KaggleでExpertに昇格したのでどれくらい価値があるのか（ないのか）訊いてみた

We Are The World - エゴを捨てて世界を変える

機械学習モデルのパラメータ最適化 - Optunaのアルゴリズム

Voting Regressor - 複数モデルを組み合わせて予測精度を向上するアンサンブル学習

KaggleでExpertに昇格したのでどれくらい価値があるのか（ないのか）訊いてみた

We Are The World - エゴを捨てて世界を変える

マルチラベル分類問題 - 性能評価指標 AUC（Area Under the Curve）の適用

マルチラベル分類問題 - 性能評価指標 AUC（Area Under the Curve）の適用

多値分類の閾値調整: Optunaを用いた精度向上

多値分類の閾値調整: Optunaを用いた精度向上

TEDトーク - 情熱とは、深い愛情のことらしい

TEDトーク - 情熱とは、深い愛情のことらしい

正則化とは？ -機械学習モデルの 過学習を防ぎ、予測精度を最適化する

正則化とは？ -機械学習モデルの 過学習を防ぎ、予測精度を最適化する

機械学習のための対数変換 - NumPyのlog1p関数

機械学習のための対数変換 - NumPyのlog1p関数

印象派風の絵画をChatGPTで描く

印象派風の絵画をChatGPTで描く

多次元データの異常値判定 - Isolation Forest

多次元データの異常値判定 - Isolation Forest

ワークシート - 図形、正多角形、レース

ワークシート - 図形、正多角形、レース

教育と創造性についての深い洞察 — ケン・ロビンソン卿のTEDトーク

教育と創造性についての深い洞察 — ケン・ロビンソン卿のTEDトーク

パイプライン処理で効率化： scikit-learnのpipelineモジュール

パイプライン処理で効率化： scikit-learnのpipelineモジュール

私たち地球の生命 - 過去の大量絶滅の考察

私たち地球の生命 - 過去の大量絶滅の考察

海の向こうの戦争 - 僕たちにできること

海の向こうの戦争 - 僕たちにできること

正則化とは？ -機械学習モデルの過学習を防ぎ、予測精度を最適化する

正則化とは？ -機械学習モデルの過学習を防ぎ、予測精度を最適化する