Taichiでscaled_dotproduct_attentionを実装する
TaichiでのLLM学習・実行に興味があり、scaled_dotproduct_attentionを実装してみました。
TaichiとはTaichiは、GPU並列処理をPythonで記述できるライブラリです。コンピューターグラフィックスでの利用が想定されています。
scaled_dotproduct_attentionとはTransformerで使用されるAttentionメカニズムです。
クエリ(Q)、キー(K)、バリュー(V)を用いて、入力シーケンス内の各位置での重