マガジンのカバー画像

データ分析・機械学習

12
データ分析やら機械学習やらkaggleやらに手を出してみたくなったのでその勉強ログ
運営しているクリエイター

記事一覧

Kaggle/American Express - Default Prediction

#kaggle 時間ができたのでdeadlineギリギリにちょっとだけ参加 概要顧客ごとのクレジットカードのデフォルト確率を予測するタスク。タスク設定としては非常にわかりやすい データtrain_data.csv: 訓練用学習データ train_labels.csv: 訓練用正解データ test_data.csv sample_submission.csv データ形式も普通。 ただしサイズがめちゃでかいw train_data.csvが16.39 GB、test

将棋ウォーズ: 棋力レーダーチャートと達成率の相関関係

#将棋 #将棋ウォーズ #データ分析 将棋ウォーズで出てくる棋力を定量化した数値って実際達成率と相関関係あるの?ってのを調べてみた。 前置き将棋ウォーズで10切れ初段になって早1年 そろそろ二段になりたいなと思いつつなかなかたどり着けないw という話はさておき、初段になってちょっとしてからちゃんと対局履歴を付け始めました。振り返り大切。 データ こんな感じ import pandas as pddf = pd.read_csv("~/Downloads/対局履歴.

Kaggle/JPX: Tokyo Stock Exchange Prediction

#kaggle 概要全部で4417社ある株式を特定の日までのデータを使い期待リターンでランク付けする。 翌日にランク付けした株の上位200を買い、下位200を空売りしたとして、翌々日にポジション解消したときのリターンを評価する。 (つけたランクによってポジションの量を重み付けする) って感じかな? データdata_specifications/: 各csvの仕様メモ options_spec.csv stock_fin_spec.csv stock_list_sp

Kaggle/Feedback Prize - Evaluating Student Writing

#kaggle 概要文の集合体が与えられて、それぞれの文が以下のどれに当たるかを判定するタスク データテキスト = 文の集合体 train.zip: テキスト全体 train.csv: 文のメタデータ id: テキストのID discourse_id -文のID discourse_start: 文がテキストの何文字目から始まるか(半角スペース込み) discourse_end: 文がテキストの何文字目で終わるか(半角スペース込み) discourse_t

Kaggle/G-Research Crypto Forecasting

#kaggle 概要14種類の暗号通貨の値動きの変化=リターンを予想しましょう、というコンペ。 やりたいことはわかりやすい。 ポイントは提出期限後、1ヶ月間の実際のデータを使って評価するということ。提供されているデータにはpublic leaderboardの評価に使うデータも含まれているけど、それらはprivate の評価には使われない。 って書いてあるのちょっと笑うw データasset_details.csv 14種類の暗号通貨のメタデータ Asset_ID:

Kaggle/Competition/Santa 2021 - The Merry Movie Montage

#kaggle #competition 概要7種類の番組を組み合わせて放送スケジュールを作る、という課題。機械学習ではなく最適化問題。 データの7種類の並び順を調整する。条件は以下 3つの文字列を作成する 3つの文字列のいずれかに7種類の並びの組全てが含まれている必要がある 🎅🤶🦌🧝🎄🎁🎀だっり🤶🦌🧝🎄🎁🎀🎅だったり 🎅🤶🦌🧝🎄🎁🎀🎅には🎅🤶🦌🧝🎄🎁🎀と🤶🦌🧝🎄🎁🎀🎅が含まれている こういう感じで短くしていく 7*6*5*4*3*2*1 で全部で5040パタ

seabornでよく使うものメモ

#seaborn #python どんどん加筆する予定 日本語フォントimport seaborn as snssns.set(font='IPAexGothic') 画像サイズ変更import matplotlib.pyplot as pltplt.figure(figsize = (15,15)) X軸ラベルを斜めにするplt.xticks(rotation=45) jupyterにグラフ画像が出てこない場合のおまじない%matplotlib inline 参

pandasでよく使うものメモ

#pandas #python 随時加筆予定 データ読み込み#CSVdf: pd.Dataframe = pd.read_csv("file.csv")## csvにヘッダーがないdf: pd.Dataframe = pd.read_csv("file.csv", header=None)## labelを指定する場合df: pd.Dataframe = pd.read_csv("file.csv", names=('A', 'B', 'C', 'D')) DataFr

Kaggle/Competition/Store Sales - Time Series Forecasting

#kaggle #competition 概要In this “getting started” competition, you’ll use time-series forecasting to forecast store sales on data from Corporación Favorita, a large Ecuadorian-based grocery retailer. こちらもTitanicと同じくbeginner向けコンペティション。 Tit

Kaggle/Competition/Titanic

#kaggle #competition kaggle をやってみることにしたのでそのメモ 参考TitanicThis is the legendary Titanic ML competition – the best, first challenge for you to dive into ML competitions and familiarize yourself with how the Kaggle platform works. 入門向けの課題。とり

グラフ作成練習: コロナ感染者数推移

#pandas #seaborn #matplotlib #python #Jupyter_Notebook #グラフ #コロナ *あくまで練習の題材です。科学的な何かを導き出そうとしているわけではないです。データの正確性の保証などもできません。 データ厚生労働省と東京都がオープンデータとして公開してた!いい時代になったなぁ(;ω;)感動した・・ 読み込みread_csvにリンクを渡せば良い。utf-8だったりsjisだったりすることに注意。日によって変わっている気がす

グラフ作成練習: 日経・ダウ・ドル/円

#pandas #seaborn #matplotlib #python #Jupyter_Notebook #グラフ データはday,code,value形式のCSVから読み込み。日単位。 In : import seaborn as sns import numpy as np import pandas as pd import matplotlib.pyplot as pltIn : df: pd.DataFrame = pd.read_c