見出し画像

トランスフォーマーの自己アテンションの理解⑦エンコーダ・ブロックの詳細

本シリーズの記事リスト



この記事では、エンコーダ・ブロックの詳細を解説します。論文の図1の左側になります。

論文「Attention Is All You Need」の図1

エンコーダ・ブロックの内部にある、マルチヘッド・アテンション(Multi-head Attention)位置ごとのフィード・フォワード(Position-wise Feed-Forward)残差接続(Residual Connection)、レイヤー正規化(Layer Normalization)などを解説します。

では、さっそく始めましょう。

エンコーダ・ブロック

オリジナルのトランスフォーマーのエンコーダは6つのエンコーダ・ブロックが階層をなしています。上図では、Nxと書かれていますが、これは「N階の層になっている」の意味です。6つの層を展開するなら以下のようになります。

エンコーダではエンコーダ・ブロックが6階建になっている

上手では、「エンコーダ・ブロック」を単に「エンコーダ」としています。これは図を複雑にしないためでもありますが、同じ仕組みを積み上げただけなので「エンコーダ」と省略して呼んでも間違いではないからです。

以下は、エンコーダの図を日本語にしたものです。

ここから先は

5,548字 / 11画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?