犬(SSR🐈)

犬(SSR🐈)

最近の記事

何故AttentionのSoftmaxはEmbeddingの次元数の平方根で割らなければならないのか?

$$ \text{Attention}(Q, K, V) = \text{softmax}(\dfrac{QK^T}{\sqrt{d_k}})V $$ Why $${QK^T}$$ should be divided by $${\sqrt{d_k}}$$? こう考えたことはないだろうか?その答えの全てはAttention is all you need.の論文に書かれている。 Scaled Dot Product Attentionの$${QK^T}$$各要素の値は行列

    • 小話: 機械学習系の論文実装で気をつけて読むべきほぼ唯一の箇所, 行列演算

      この記事は3分程度で読み終わる小話になっています。 この記事の対象者 ・何でもかんでもフルスクラッチで一度は論文実装しなければ気が済まない人 Qiitaにも投げようかと思いましたが, Qiitaは実装の話をする場なのでNoteに投稿しました。 と言っておきながら, 実は過去にQiitaに数学の話を投稿してしまっています。いいねとブクマお願いします。 本題まずは簡単な線形層を考えていきましょう。$${x \in \mathbb{R}^{n}, W \in M_{m \ti

      • どのようにして東大主席になったのかについて語る

        EEICイベ長の犬(SSR🐈)です。GitHubはSuperHotDogCatという名前でやっています。 この記事は東大電気電子情報系EEICアドカレ12/25の記事となっています。 突然ですが東大後期過程推定主席なので自分語りします。こちらが僕の成績表になります。 このように, 私は全ての科目で優上を取り, GPAは4.3です。これは主席であることを疑わざるを得ません。 このように, ネットの発言内容は簡単に開発者ツールで書き換えることができます。必ずファクトチェッ

        • EEICのオタク遍歴自分語り, 小4から大学3年まで(+浪人もあるよ)

          EEICイベ長の犬(SSR🐈)です。GitHubはSuperHotDogCatという名前でやっています。 この記事は東大電気電子情報系EEICアドカレ12/25の記事となっています。 まずこの記事を書くに至った経緯について話さなければなりません。 俺「12/25の枠埋めたろ~~www, 書く内容はDMで一番最初に来た題材にでもするか~wwwwww」 アドカレ発案者「アドカレ最終日、オタク遍歴を書いてほしみがある」 俺「ウン、おかのした」 小学四年生・初音ミク(ミク

        何故AttentionのSoftmaxはEmbeddingの次元数の平方根で割らなければならないのか?

          東大本郷キャンパス付近以外の最寄駅のラーメン屋について

          EEICアドベントカレンダー3日目です。 2日目にこんな記事が投稿されました。 なるほど、ならばEEICに入ってからインターンで稼いだ給料を"""全て"""ラーメンに溶かしている僕は本郷周辺のラーメン屋を紹介しなきゃいけません。(義務感)(エンゲル係数1000%)鈴春これは12/2の担当者が紹介し忘れていたので紹介します。 後楽園のラーメンも紹介しておきます。 はぐれ雲次は丸の内線に乗って淡路町まで行きましょう つけ麺金龍つじ田 味噌の章次は大本命の 東京駅に行きま

          東大本郷キャンパス付近以外の最寄駅のラーメン屋について