斑鳩イカリング@金融AI

三菱UFJ銀行でAIの研究開発を行っています. 過去にはPanasonic Labor…

斑鳩イカリング@金融AI

三菱UFJ銀行でAIの研究開発を行っています. 過去にはPanasonic Laboratory Tokyoに所属.画像認識のトップジャーナル IJCV,データマイニングの難関国際会議 ECML-PKDD, 信号処理のトップカンファレンス ICASSPへの採択実績があります

最近の記事

[論文紹介] KNOWLEDGE FUSION OF LARGE LANGUAGE MODELS (2024)

個別の機能と強みを持つを大規模言語モデル(以下,LLMとする)を一から学習することは,多大なコストがかかります.そのため,既存の事前学習済LLMを融合し,より強力なモデルを作るための手法が近年提案されています.しかし,事前学習済のモデルは(当然のことながら)モデルアーキテクチャがそれぞれ異なるため,単純に重みを混合する手法は現実的ではありません.そこで本研究では,ソースLLMの生成分布を利用し,単一のLLMに知識を転移させる「知識融合」の概念を導入します.実験の結果,LLMの

    • [論文紹介コード付] 時系列Transformerを自然言語処理のお作法で鍛えたらゼロショットで未来の系列を予測することができました

      一言でまとめると:時系列Transformerを自然言語処理のお作法で鍛えたら,ゼロショットで未来の系列を予測することができました アブストラクトまずは翻訳にかけて,ポイントとなりそうなところを太字にします. 最も重要な点としては,自然言語処理の分野で提案された,既存のtransformerベースのモデルを時系列予測に用いている点です.一般的な利用可能な大規模なデータセットで学習されている点は普通ですが,その後に続く,「ガウス過程を用いて生成した合成データセットで補完」と

      • [論文紹介コード付き] Deep Isolation Forest for Anomaly Detection (2023)

        アブストラクトまずは英文を翻訳にかけた結果を下記に示します. ポイントとなりそうなところを太字でハイライトしてみました.本研究が対処する課題は2つあり,(i) iForestの非線形なデータ空間で異常を検出できない,(ii) 人工的な領域(おそらく人工的に生成した偽データのこと)で異常を異常と判断する能力が低いことが挙げられています.本質的な課題として,iForestが線形データ分割を採用している点を挙げ,この課題に対処するために,neural networkを用いて,元の

        • [論文紹介コード付き] Isolation Forest (2008)

          アブストラクトまずは論文のアブストラクトを日本語に訳します. 理解Isolation Forestは2008年に提案されたもので,技術解説が多く存在します.そのため,ここからは既存の解説ブログをベースに理解していきます. 上記により,iForestは異常検出に特化したモデルであり,「何が正常か」を定義せずに異常を特定していくのが特徴のようです.これは,論文のアブストラクトに「正常点のプロファイリングではなく、明示的に異常を分離する」と書いてあるとおりで,検証の始まりである

        [論文紹介] KNOWLEDGE FUSION OF LARGE LANGUAGE MODELS (2024)

          [論文紹介]LLMの人間ベースのフィードバックが安定しない問題を解決へ[ICLR24]

          arXivへのリンクは以下です 本記事では,上記論文を初見で読みながら内容をまとめていくスタイルをとっています.このため,論文を精読してまとめたというよりは流し読みしながらメモ程度にまとめた記事になっています.このため,より詳細を知りたい方は他のブログを漁ってみるか,ご自身で論文をご確認いただければと思います. アブストラクトLanguage Models(LMs)では,人間フィードバックによる強化学習(Reinforcement Learning with Human

          [論文紹介]LLMの人間ベースのフィードバックが安定しない問題を解決へ[ICLR24]

          [論文紹介]NeRFのPositional Encidingをトモグラフィーに応用[ICCV21]

          本日は,医療の現場で用いられるcomputed tomography(CT)技術に関する論文を紹介させていただこうと思います. 紹介する論文は,CT におけるill-posed inverse problemsを解消するための提案であり,NeRFのpositional encodingを取り入れていることが大きな特徴となります. 今日紹介する論文の詳細は以下になります. 本記事では,上記論文を初見で読みながら内容をまとめていくスタイルをとっています.このため,論文を精読

          [論文紹介]NeRFのPositional Encidingをトモグラフィーに応用[ICCV21]

          [論文紹介]Transformerがうまくいっているのはなぜなのか? [ICML23]

          Transformerがうまくいっているのはなぜなのか? 結論:入力に依存し,重要な単語(トークン)を選択し,意味のある情報を取捨選択できるため 本研究は東大の鈴木大慈先生の下で行われている研究であり、数学を用いてTransformerの根幹を理解することを目的としているようです. さて,論文の詳細は以下になります. arXivのリンクは以下になります. 本記事では,上記論文を初見で読みながら内容をまとめていくスタイルをとっています.このため,論文を精読してまとめたと

          [論文紹介]Transformerがうまくいっているのはなぜなのか? [ICML23]

          画面キャプチャを利用してなるべく簡単に動画からの物体検出を実現させる方法

          深層学習の分野では、動画解析のためにRNN(Recurrent Neural Networks)や3D CNN(3D Convolutional Neural Networks)、Optical Flowなどの複雑なモデルや手法が用いられることが多いです。特に、動画データは時間的な連続性を持っているため、フレーム間の関係を考慮に入れる必要があり、これには特別な前処理やモデルの設計が求められます。しかし、動画ファイルの読み込みや前処理、大量のフレームデータの管理など、時間がかか

          画面キャプチャを利用してなるべく簡単に動画からの物体検出を実現させる方法

          Multi-head Attentionの考え方

          数式で理解しようとすると良くわからなくなるため,Multi-head Attentionの考え方をイラストにしてみた. まずはSingle-head attentionについて,これはKeyとQueryの内積を計算することによって大域的な類似度を抽出している.次元数が高くなると,次元ごとの小さな特徴が無視されやすいという欠点をもつ.イラストにしてみると以下のようなものとなる. 一方,Multi-head attentionは(トークン,次元)のベクトルを次元ごとに切り取る

          Multi-head Attentionの考え方

          MLPでもTransformer並みの性能を出せるようだ

          Transformerの構造を見直すことにより省メモリ化をしようという試みが流行している. 今年(2021年)だけでも4つの論文が報告されている. MLP-Mixer [Tolstikhin+, 2021] Do You Even Need Attention? [Melas-Kyriaze, 2021] ResMLP [Touvron+, 2021] Pay Attention to MLPs [Liu+, 2021] 特に話題になったのはMLP-Mixerでアーキテ

          MLPでもTransformer並みの性能を出せるようだ

          Transformer解説まとめ

          自然言語処理の翻訳において,長い文の入力に耐えることを目的として提案されたモデルがTransformerだが,このモデルの汎用性の高さに目を付けた研究者が,その後,汎用言語モデル(BERT,GPT)を提案したり,画像処理への応用(ViT)したり,近年では生成モデル(DALL-E)への応用にも成功している.このように汎用性が高いTransformerは,自然言語処理以外の研究者も必ず押さえておかなければならない必修科目になっており,その解説記事や解説動画は数多公開されている.

          Transformer解説まとめ

          言語横断型の画像-言語マルチモーダルモデルがゼロショットでSOTAを更新

          世界中には約7,000の言語が存在していると言われており,これらすべての言語に対応した画像-言語(Vision-Language)モデルを構築するのはほぼ不可能である.自然言語処理(NLP)では,言語横断の問題を解決するための手段として,少量のアノテーション付きの学習データを用意し,転移学習により,多言語対応を試みる手法が提案されているが,たとえ少量のデータであってもアノテーションにはコストがかかるため,学習データを必要としないゼロショット(Zero-shot)学習を実現させ

          言語横断型の画像-言語マルチモーダルモデルがゼロショットでSOTAを更新

          強化学習における意思決定問題にTransformerを導入

          近年の研究では,Transformerが意味的な概念の高次元分布を大規模にモデル化できることが示されており,Transformerを強化学習に利用できる可能性が出てきている. 本論文では,Transformerによる一連の状態,行動,報酬の共同分布のモデリングが従来の強化学習アルゴリズムの代替となるかを検討.提案されたフレームワークは,Atari,OpenAL Gym,key-to-Doorのタスクにおいて,SOTAのオフライン強化学習ベースラインと同等以上の性能を示し

          強化学習における意思決定問題にTransformerを導入