そら

モータースポーツエンスージアスト&AI大好き人間

LLM論文記録

そら

17本

大規模言語モデル関連の論文をGPT-4やClaude3 Opusに読みこませ、壁打ちした記録をまとめたものです。
FIA F3まとめ

そら

0本

【論文要約】MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning【自分用メモ】

今回は『MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning』というLoRAを発展させた手法を提案した以下の論文を要約する。論文のpdfをGemini Advanced(Gemini 1.5 pro)に渡して要約させた。研究の目的と背景目的本研究の目的は、大規模言語モデル(LLM)の効率的なファインチューニング手法であるLoRAの限界を分析し、その問題点を克服する新しい手法MoRAを提案することです。

【LLM比較】GPT-4oとClaude3 Opus,Gemini1.5 proを論文要約タスクで比較【RGAR論文】

イントロダクション今回はGPT-4o,Claude3 Opus, Gemini1.5 pro(Gemini Advanced)のそれぞれに下記の論文と同一のプロンプトリストを与え、それぞれのモデルの生成結果を比較する。今回は下記のRAGの評価についてのサーベイおよび包括的な分析フレームワークであるRGARを提案した論文を使用した。プロンプトリストとしては筆者考案の論文要約用プロンプトリストを使用する。プロンプトリストは以下の記事に書いてあるプロンプトをそのまま使用する。

そら

8日前

2
GPT-4oに論文を読ませるためのプロンプト【自分用メモ】

GPT-4oに論文を読ませて、いい結果を得るために試行錯誤した末に生み出したプロンプトを残します。研究の目的と背景<research_purpose_and_background>研究の目的と背景を2000文字以上でまとめてください。<purpose>本研究の目的について、以下の観点を踏まえて詳細に説明してください:- 研究で解決しようとしている問題や達成しようとしている目標- 研究の意義や重要性- 研究の新規性や独自性</purpose><background>本研究の

そら

10日前

4
【論文要約】Direct Preference Optimization: Your Language Model is Secretly a Reward Model【メモ】

イントロダクション今回は『Direct Preference Optimization: Your Language Model is Secretly a Reward Model』というDPO手法を提案した以下の論文を要約する。論文のpdfをClaude 3 Opusに渡して要約させた。研究の目的と背景<purpose> 本研究の目的は、人間の好みに沿うようにニューラル言語モデル(LM)を効率的に微調整する新しいアルゴリズム「Direct Preference Op

そら

1か月前

1

【論文要約】MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning【自分用メモ】

そら

1日前

【LLM比較】GPT-4oとClaude3 Opus,Gemini1.5 proを論文要約タスクで比較【RGAR論文】

2

そら

8日前
GPT-4oに論文を読ませるためのプロンプト【自分用メモ】

4

そら

10日前
【論文要約】Direct Preference Optimization: Your Language Model is Secretly a Reward Model【メモ】

1

そら

1か月前

マガジン

LLM論文記録

17本
FIA F3まとめ

0本

記事

【モデル作成】ChatVector手法を用いて日本語モデルのNSFW能力とRP能力を強化した【備忘録】

イントロダクション今回はAratakoさん作成のAntler-RP-v1とJapanese-Starling-RPをそれぞれWestLakeでchatvectorを0.5の係数で強化した2つのモデルをそれぞれマージさせたNSFW方向とRP方向に強化したモデルを作成した。またそのモデルをELYZA-tasks-100で評価したところ平均スコアが3.67という高いスコアを出した。以下に作成したモデルのhfリンクを示す。手法今回は以下の2つのモデルをベースに用いた htt

そら

1か月前

7
【モデル作成】ChatVector手法を用いて日本語モデルのNSFW能力とRP能力を強化した【備忘録】

7

そら

1か月前
【論文要約】Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length【自分用メモ】

イントロダクション今回は『Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length』という以下の論文を要約する。論文のpdfをClaude 3 Opusに渡して要約させた。研究の目的と背景<purpose> 本研究の目的は、大規模言語モデル(LLM)の事前学習と推論の効率を改善し、無制限の文脈長に対応できる新しいニューラルアーキテクチャMEGALODONを開発すること

そら

1か月前

2
【論文要約】Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length【自分用メモ】

2

そら

1か月前
【論文要約】Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages【自分用メモ】

イントロダクション今回は『Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages』という以下の論文を要約する。論文のpdfをClaude 3 Opusに渡して要約させた。研究の目的と背景<purpose> 本研究の目的は、大規模言語モデル(LLM)に対し、新しい言語での会話能力と人間の価値観に沿ったモデルアライ

そら

1か月前

2
【論文要約】Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages【自分用メモ】

2

そら

1か月前
【Claude3】VTube Studio との連携を実現する Python コードの解説【丸投げ】

イントロダクションClaude3 Opusに丸投げして書かせたプログラムがなかなかのものだったので共有しておきます。以下のライブラリ2つのソースコードを全てコンテキストに投げたうえで書かせたプログラムです。 TL;DR本記事では、VTube Studio と連携してバーチャルキャラクターの動作を制御するための一連の Python プログラムについて解説します。これらのプログラムは、vts_client.py、vts_control.py、vts_actions.py の3つ

そら

1か月前

1
【Claude3】VTube Studio との連携を実現する Python コードの解説【丸投げ】

1

そら

1か月前
【論文要約】RoFormer: Enhanced Transformer with Rotary Position Embedding【メモ】

イントロダクション今回は『RoFormer: Enhanced Transformer with Rotary Position Embedding』という以下の論文を要約する。論文のpdfをClaude 3 Opusに渡して要約させた。研究の目的と背景<purpose> 本研究の目的は、Transformer言語モデルにおいて、相対位置情報を利用した新しい位置エンコーディング手法Rotary Position Embedding (RoPE)を提案し、性能を向上させる

そら

1か月前
【論文要約】RoFormer: Enhanced Transformer with Rotary Position Embedding【メモ】

そら

1か月前
【論文要約】Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models【メモ】

イントロダクション今回は『Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models』という以下の論文を要約する。論文のpdfをClaude 3 Opusに渡して要約させた。研究の目的と背景<purpose> 本研究の目的は、より効率的で高性能な言語モデルを開発することである。具体的には、以下の2つの新しいモデルアーキテクチャを提案している。 H

そら

1か月前
【論文要約】Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models【メモ】

そら

1か月前
【論文要約】Jamba: A Hybrid Transformer-Mamba Language Model【メモ】

イントロダクション今回は以下のJambaアーキテクチャの論文を要約する。Mamba論文も同様に要約した記事を今後書こうと思う。(順序逆なのはすいません。) 研究の目的と背景<purpose> 本研究の目的は、「Jamba」と名付けられた新しい大規模言語モデルを開発し、提案することである。Jambaは、Transformerレイヤーと「Mamba」と呼ばれる最新のstate-spaceモデルのレイヤーを組み合わせたハイブリッドアーキテクチャと、mixture-of-expe

そら

1か月前

9
【論文要約】Jamba: A Hybrid Transformer-Mamba Language Model【メモ】

9

そら

1か月前
【論文要約】Many-shot Jailbreaking【Claude 3 Opus】

イントロダクション以下のAnthropic社のメンバーがメインで行った研究の論文をClaude 3 Opusを用いてまとめたメモをまとめた記事です。研究の目的と背景<purpose> 本研究の目的は、大規模言語モデル(LLM)において新たに可能となった長いコンテキスト長を用いた攻撃手法である「Many-shot Jailbreaking (MSJ)」について詳細に調査・分析し、その影響と対策を検討することである。 LLMは自然言語処理の性能を大きく向上させてきたが、

そら

1か月前
【論文要約】Many-shot Jailbreaking【Claude 3 Opus】

そら

1か月前
【自分用メモ】BitNet b158の論文とNousResearchの実装を比較してみる

イントロダクション今回は以下の1.58bits LLMを提唱した論文と、NousReseachの実装を両方Claude 3 Opusに突っ込んで、対応を説明してもらった。実装と論文で提唱されている手法の対応関係1.実装では以下のようにBitLinearクラスを定義しており、nn.Linearの代わりに使用されています。 class BitLinear158(nn.Linear): """ This is only for training, and kern

そら

1か月前

5
【自分用メモ】BitNet b158の論文とNousResearchの実装を比較してみる

5

そら

1か月前
【論文要約】LISA: Layerwise Importance Sampling for Memory-EfficientLarge Language Model Fine-Tuning【自分用メモ】

イントロダクション今回は『LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning』という以下の論文を要約する。論文のpdfをClaude 3 Opusに渡して要約させた。研究の目的と背景<purpose> 本研究の目的は、大規模言語モデル(LLM)のファインチューニングにおけるメモリ効率を改善することです。具体的には、以下の点を目指しています。

そら

1か月前

1
【論文要約】LISA: Layerwise Importance Sampling for Memory-EfficientLarge Language Model Fine-Tuning【自分用メモ】

1

そら

1か月前
【論文要約】The Evolved Transformer【メモ】

イントロダクション今回は『The Evolved Transformer』という以下の論文を要約する。論文のpdfをClaude 3 Opusに渡して要約させた研究の目的と背景<purpose> 本研究の目的は、ニューラルアーキテクチャ探索(NAS)を用いて、Transformerを超える性能を持つ新しいフィードフォワードシーケンスモデルを発見することである。近年、Transformerアーキテクチャがシーケンスタスクにおいて高い性能を示す一方で、NASによって人間が設

そら

2か月前
【論文要約】The Evolved Transformer【メモ】

そら

2か月前
Claude3 Opusに論文を読ませるためのプロンプト【自分用メモ】

Claude3 Opusに論文を読ませて、いい結果を得るために試行錯誤した末に生み出したプロンプトを残します。研究の目的と背景研究の目的と背景を2000文字以上でまとめるためのプロンプト: <purpose> 本研究の目的について、以下の観点を踏まえて詳細に説明してください: - 研究で解決しようとしている問題や達成しようとしている目標 - 研究の意義や重要性 - 研究の新規性や独自性 </purpose> <background> 本研究の背景について、以下の観点を踏ま

そら

2か月前

7
Claude3 Opusに論文を読ませるためのプロンプト【自分用メモ】

7

そら

2か月前

マガジン

LLM論文記録

FIA F3まとめ

最近の記事

【論文要約】MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning【自分用メモ】

【LLM比較】GPT-4oとClaude3 Opus,Gemini1.5 proを論文要約タスクで比較【RGAR論文】

GPT-4oに論文を読ませるためのプロンプト【自分用メモ】

【論文要約】Direct Preference Optimization: Your Language Model is Secretly a Reward Model【メモ】

【論文要約】MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning【自分用メモ】

【LLM比較】GPT-4oとClaude3 Opus,Gemini1.5 proを論文要約タスクで比較【RGAR論文】

GPT-4oに論文を読ませるためのプロンプト【自分用メモ】

【論文要約】Direct Preference Optimization: Your Language Model is Secretly a Reward Model【メモ】

【モデル作成】ChatVector手法を用いて日本語モデルのNSFW能力とRP能力を強化した【備忘録】

【モデル作成】ChatVector手法を用いて日本語モデルのNSFW能力とRP能力を強化した【備忘録】

【論文要約】Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length【自分用メモ】

【論文要約】Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length【自分用メモ】

【論文要約】Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages【自分用メモ】

【論文要約】Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages【自分用メモ】

【Claude3】VTube Studio との連携を実現する Python コードの解説【丸投げ】

【Claude3】VTube Studio との連携を実現する Python コードの解説【丸投げ】

【論文要約】RoFormer: Enhanced Transformer with Rotary Position Embedding【メモ】

【論文要約】RoFormer: Enhanced Transformer with Rotary Position Embedding【メモ】

【論文要約】Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models【メモ】

【論文要約】Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models【メモ】

【論文要約】Jamba: A Hybrid Transformer-Mamba Language Model【メモ】

【論文要約】Jamba: A Hybrid Transformer-Mamba Language Model【メモ】

【論文要約】Many-shot Jailbreaking【Claude 3 Opus】

【論文要約】Many-shot Jailbreaking【Claude 3 Opus】

【自分用メモ】BitNet b158の論文とNousResearchの実装を比較してみる

【自分用メモ】BitNet b158の論文とNousResearchの実装を比較してみる

【論文要約】LISA: Layerwise Importance Sampling for Memory-EfficientLarge Language Model Fine-Tuning【自分用メモ】

【論文要約】LISA: Layerwise Importance Sampling for Memory-EfficientLarge Language Model Fine-Tuning【自分用メモ】

【論文要約】The Evolved Transformer【メモ】

【論文要約】The Evolved Transformer【メモ】

Claude3 Opusに論文を読ませるためのプロンプト【自分用メモ】

Claude3 Opusに論文を読ませるためのプロンプト【自分用メモ】