最近の記事

CoDeFについてメモ

処理について動画1つごとに一連のニューラルネットを1つ学習。 学習するのはEmbedding(図中の左にある立方体群), 1つ目のMLP, x'y'のEmbedding, 2つ目のMLP (x', y')を取得するまでの処理に対応するコード deform_pts() https://github.com/qiuyu96/CoDeF/blob/137f16c5423d484846857327597bf65c06b92994/train.py#L142-L175 http

    • LLMメモ

      日本語モデルABEJA CyberAgent rinna SHS retrieva-jp (T5) NICT (未公開?) NEC(未公開) Brainpad (※MPT-7BのFine-tuning) Lightblue(※MPT-7BのFine-tuning) stockmark LINE Stability AI (JP) BLIP 松尾研 ELYZZA Turing (fintuneのみ) Preferred Networks 日本語

      • Hiera 論文メモ

        WIP Multiscale Vision Transformers手法概要 MViTの考え方はネットワークの入力から出力までの解像度をpoolingしながら、channel capacityを徐々にexpandすること。 従来のTransformer ネットワーク全体でchannel capactyとresolutionを維持。 Multiscale Vision Transformer 複数のchannel-resolutionの'scale' stagesを持つ。

        • 大規模言語モデルの性能比較メモ

          WIP Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models’ Reasoning Performance

        CoDeFについてメモ

          大規模言語モデルの比較メモ

          WIP 比較するモデルChinchilla [2203.15556] Training Compute-Optimal Large Language Models (arxiv.org) PaLM [2204.02311] PaLM: Scaling Language Modeling with Pathways (arxiv.org) LLaMA [2302.13971] LLaMA: Open and Efficient Foundation Language Mo

          大規模言語モデルの比較メモ

          【論文紹介】GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo

          この記事は,GPT4ALLというモデルについてのテクニカルレポートについての紹介記事. GPT4ALLの学習コードなどを含むプロジェクトURLはこちら. Data Collection and Curation2023年3月20日~2023年3月26日に,GPT-3.5-Turbo(OpenAI API)を使用して約100万件のプロンプトとレスポンスのペアを収集した. 使用したデータセット - The unified_chip2 subset of LAION OIG. -

          【論文紹介】GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo