ailora will

LLM・画像生成AIほか生成AI全般に興味あり。たまに検証とかします。作ったコードと…

gpt2-chatbotとGPT4-Turbo-2024-04-09をChatbotArenaで捕まえられたので、ネオチバの設定作成対決させた(創造的タスクテスト)。

幸運なことに、gpt2-chatbotとGPT4-Turbo-2024-04-09をChatbotArenaで捕まえられたので、「サイバーパンクの仮想の千葉市、ネオチバの設定を作ってください。」で設定を作らせ続けて、創造的タスクでの性能を比較してみた。最初はそのまま作らせ続けたのだが、途中から適当に指示を追加して、性能を比較した。指示によって、評価がひっくり返ることも合ったが、本当にギリギリの僅差で、個人的にはgpt2-chatbotの勝利だと感じた。なお、19回目の

ChatbotArenaで対戦しまくって、各LLMの日本語回答性能と特徴を調べた。Llama3とGeminiProdevが興味深かった。

LMSYS Chatbot Arena: Benchmarking LLMs in the Wildは、オープンソースで人間がLLMの勝ち負けを評価する研究で、現在40種類のLLMのうち、2つのLLMが一定の基準(得点が定まったものは選ばれにくくなるなど)で選ばれて、その出力結果を人間がAとBのLLMの名前が伏せられた状態で、どちらが優れているかを評価するテストです。その結果もリンク先のLeaderBoardタブから閲覧することが出来ます。調査方法今回の目的は、主にLl

ailora will

2週間前

5
ChatbotArenaの対戦画像集

各項目の一番下にあるPerplexityのリンクは、各質問をClaude3-Opusにしたものですので、参考にしてください。本編はこちらです。 ChatbotArenaで対戦しまくって、各LLMの日本語回答性能と特徴を調べた。Llama3とGeminiProdevが興味深かった。 1:「銀河英雄伝説について、日本語で詳しく教えて下さい。」https://www.perplexity.ai/search/7u2U31n1SaKcqbapPR3Ouw 2:「ナーロッパと言わ

ailora will

2週間前

2
10種のLLMでのPythonコード生成（ダイスアプリ作成）の簡易テストをしました。

様々なコード生成専用のものも含めて、自分の使用可能な範囲のLLMを使用し、簡単なダイスアプリを作らせることで、実際の簡単なコード生成がどの程度できるか調査してみました。題材が簡単すぎたせいか、どれも作成自体は成功しました(codellama-70b-instructのみ、一部機能が保存場所の指示を聞いてくれなかったのですが、使う人ももはやいないLLMなので、粘らずにテストを終了しました)が、ゆらぎの範囲かもしれませんが、細かい違いはありました。追記:2024/04/18、

ailora will

3週間前

3

gpt2-chatbotとGPT4-Turbo-2024-04-09をChatbotArenaで捕まえられたので、ネオチバの設定作成対決させた(創造的タスクテスト)。

ailora will

8日前

ChatbotArenaで対戦しまくって、各LLMの日本語回答性能と特徴を調べた。Llama3とGeminiProdevが興味深かった。

5

ailora will

2週間前
ChatbotArenaの対戦画像集

2

ailora will

2週間前
10種のLLMでのPythonコード生成（ダイスアプリ作成）の簡易テストをしました。

3

ailora will

3週間前

bartimerというタイマーとインターバルタイマーがバーの増加で経過時間がわかりやすいアプリ(exe版もあり)をGithubで公開しました。

　bartimerというタイマーとインターバルタイマーがバーの増加で経過時間がわかりやすいアプリ(exe版もあり)をClaude3-OpusとGPT4-Turboを使用して、ところどころ修正して作成しました。配布はhttps://github.com/willailora/bartimerで行っています。特徴bartimer は、カスタマイズ可能なタイマーとインターバルタイマー機能を備えたシンプルで使いやすいデスクトップアプリケーションです。カスタマイズ可能なタイ

ailora will

3週間前

2
bartimerというタイマーとインターバルタイマーがバーの増加で経過時間がわかりやすいアプリ(exe版もあり)をGithubで公開しました。

2

ailora will

3週間前
CommandR+量子化の簡易比較テスト(dranger氏のtxtを使用)追記ローカルでのiq1_sテスト

　CommandR+の量子化を作成してくれたdranger氏が各量子化ごとでの出力結果のtxtを公開してくれました。　同じシード、温度は0の設定で、「Write an essay about AI in the style of a senior PhD researcher in artificial intelligence without any mention of your identity as an AI researcher.」という指示での応答をまとめたも

ailora will

1か月前

3
CommandR+量子化の簡易比較テスト(dranger氏のtxtを使用)追記ローカルでのiq1_sテスト

3

ailora will

1か月前
llama.cppのserver.exeに起動オプションを送って起動できるPythonコードを公開しました。

残念ながら、2024年4月6日時点のKoboldcppではc4ai-command-r-v01-GGUFが起動できないので、llama.cppで起動するしか無いのですが、cuiで動かすのは嫌なので、server.exeでブラウザーで遊ぶわけですが、いちいち起動因数を付けてコマンドプロンプトなどにコピペするのも面倒なので、Claude3-Opusと相談しながら、簡単にするコードを作成しました。追記:githubにpyqt5版とともにtkinter版を公開したので、pyqt5追

ailora will

1か月前

3
llama.cppのserver.exeに起動オプションを送って起動できるPythonコードを公開しました。

3

ailora will

1か月前
Koboldcpp用pngメタデータ編集コード公開しました

　GUI付きでKoboldcppにインポート可能なchub.aiとPygmalionAIのダウンロードしたキャラクターのPNGファイルのメタデータを編集できて保存ができるコードを作成しました。　一応、既存のでないかは探したのですが、長期間メンテされてないソフトしかありませんでしたので、Claude3-Opusと相談しながらコードを生成しました。Koboldcppに編集機能がついていれば、こんなコード不要だったのですが… 必須環境　前提として、Pythonがインストールさ

ailora will

1か月前
Koboldcpp用pngメタデータ編集コード公開しました

ailora will

1か月前
PerplexityのProSearchなどの日本語変換の確定でクエリが送信される問題を解決するユーザースクリプトの公開（ページ機能での同じ不具合にも対応しました）

@toshikawaさんが、labs.Perplexityでの日本語入力問題を解決するコードを作成してくれました！ Labs.perplexity.aiでの日本語入力中のEnterで送信されないようにする。自分がClaude3-Opusと相談しながらやっても、だんだん変な方向に行ってReactの問題か？みたいになって解決できなかったので、助かりましたm(_ _)m 　Claude3-Opusに名誉挽回させようと思って、クエリの返還とProSearchでの追加質問でもEnt

ailora will

1か月前
PerplexityのProSearchなどの日本語変換の確定でクエリが送信される問題を解決するユーザースクリプトの公開（ページ機能での同じ不具合にも対応しました）

ailora will

1か月前
Claudeに定型文挿入ボタンを追加するユーザースクリプトを公開しました

　Claude本家サイトのChatに定型文挿入のボタンを追加するユーザースクリプトを公開しました。基本はClaude3-Opusに作成してもらって、動作しなかったので私が適宜修正しました。使用方法　アドオンとしてまず、TamperMonkeyやGreasemonkeyなど、ユーザースクリプトを使用できるアドオンが必要となります。　このコードには問題ないことは確認していますが、セキュリティ上の問題を発生させることも出来るアドオンですので、自己責任でご利用ください。 Ta

ailora will

1か月前

1
Claudeに定型文挿入ボタンを追加するユーザースクリプトを公開しました

1

ailora will

1か月前
Perplexityの検索ボックスに定型文を入力できるコードを公開しました

　残念ながら、Perplexityの検索のバックエンドはおそらくBingを使用(訂正Bingではなくhttps://www.reddit.com/r/LocalLLaMA/comments/1bh6o3e/reverse_engineering_perplexity/によると、Googleのもののようです。普段DuckDuckGo使用しているので、気づきませんでした)していて、日本語の検索だとかなり低品質な情報が羅列されたページが中心となってしまいます。そのため、よく英語のペ

ailora will

1か月前

2
Perplexityの検索ボックスに定型文を入力できるコードを公開しました

2

ailora will

1か月前
Claude3の3モデルと、GeminiPro1.5で、10万字超えの要約性能（粗筋作成）を比較してみた。追加テストしました

　北条カズマレさんと某所でのチャットで、Claude3-Opus本家でも、数万字超えで要約がおかしくなるという話をしていたので、実際に検証してみることにした。比較方法　検証するファイルは、10万字超えのなろう小説を書かせた話で解説してるようにClaude先生ことClaude3-Opusに書いてもらった、召喚された俺は最強の絆で異世界を救う！の全文を使用した。　Claude本家の各モデルに、txtファイルで全文をアップロードして添付し、チャットで以下の指示を出した。「添

ailora will

1か月前

6
Claude3の3モデルと、GeminiPro1.5で、10万字超えの要約性能（粗筋作成）を比較してみた。追加テストしました

6

ailora will

1か月前
PerplexityのClaude3-Opusのトークン制限疑惑を検証してみた。訂正とお詫び有り

　PerplexityProで、Claude3-Opusを使用した場合、Anthropicの公式のClaude3-Opus200kと異なり、30kほどでトークンが制限されているとの噂が出ている。　そこで、自分で検証してみることにした。噂の出どころ　まず、この噂が出てきたのが公式ディスコでの書き込み以外だと、Redditのこのスレッドです。　タイトルは「Perplexity limits the Claude 3 Opus Context window to 30k t

ailora will

1か月前

18
PerplexityのClaude3-Opusのトークン制限疑惑を検証してみた。訂正とお詫び有り

18

ailora will

1か月前
Perplexityのコレクション機能を使用したClaude3を使った半自動小説作成bot（プロンプトを公開しました）

　自分も昨日知ったばかりの機能なのですが、Perplexityにはコレクションという名前からは想像できないシステムプロンプトを設定できる、Poeのbotや、ChatGPTのGPTsに近い機能があります。プロットを作らせよう　下記のリンクが小説用プロット作成botです。 https://www.perplexity.ai/collections/bot-jw_rR9_RSa2UXttHScUZsw 　このbotのシステムプロンプトは、Claude3-Opus自身に指示し

ailora will

1か月前

16
Perplexityのコレクション機能を使用したClaude3を使った半自動小説作成bot（プロンプトを公開しました）

16

ailora will

1か月前
Claude3本家とPerplexityとPoeのサービス比較

　以下は、AnthropicのClaude Pro、PoeのPoeサブスクリプション、Perplexity Proの価格とサービス内容を比較した表です。なお、PerplexityProのClaude3Opusを使用して作成したものをベースに、古い情報を訂正したものです。 PerplexityProによる解説解説: Anthropicは、月額$20（米国）または£18（英国）でClaude Proサブスクリプションを提供しています。これにより、ユーザーはClaude 3モデ

ailora will

1か月前

74
Claude3本家とPerplexityとPoeのサービス比較

74

ailora will

1か月前
Claude3Opusに、10万字超えのなろう小説を書かせた話

作成方法の概略　ChatCPT超えも噂されるClaude3Opusになろう小説を10万字書かせるチャレンジをしてみた。　Claude3Opusは200kトークンに対応しているため、小説1巻分まるまる書かせることも理論上は可能である。　利用したのはAPIではなく、公式サイトのチャットを利用した。　こちらから初期設定やプロットなどは与えずに開始したが、まともに作品を作りたいのであれば、事前に用意すべきで、Claudeに理解しやすいようにXML形式で渡すのが望ましい。　今

ailora will

1か月前

13
Claude3Opusに、10万字超えのなろう小説を書かせた話

13

ailora will

1か月前

最近の記事

gpt2-chatbotとGPT4-Turbo-2024-04-09をChatbotArenaで捕まえられたので、ネオチバの設定作成対決させた(創造的タスクテスト)。

ChatbotArenaで対戦しまくって、各LLMの日本語回答性能と特徴を調べた。Llama3とGeminiProdevが興味深かった。

ChatbotArenaの対戦画像集

10種のLLMでのPythonコード生成（ダイスアプリ作成）の簡易テストをしました。

gpt2-chatbotとGPT4-Turbo-2024-04-09をChatbotArenaで捕まえられたので、ネオチバの設定作成対決させた(創造的タスクテスト)。

ChatbotArenaで対戦しまくって、各LLMの日本語回答性能と特徴を調べた。Llama3とGeminiProdevが興味深かった。

ChatbotArenaの対戦画像集

10種のLLMでのPythonコード生成（ダイスアプリ作成）の簡易テストをしました。

bartimerというタイマーとインターバルタイマーがバーの増加で経過時間がわかりやすいアプリ(exe版もあり)をGithubで公開しました。

bartimerというタイマーとインターバルタイマーがバーの増加で経過時間がわかりやすいアプリ(exe版もあり)をGithubで公開しました。

CommandR+量子化の簡易比較テスト(dranger氏のtxtを使用)追記ローカルでのiq1_sテスト

CommandR+量子化の簡易比較テスト(dranger氏のtxtを使用)追記ローカルでのiq1_sテスト

llama.cppのserver.exeに起動オプションを送って起動できるPythonコードを公開しました。

llama.cppのserver.exeに起動オプションを送って起動できるPythonコードを公開しました。

Koboldcpp用pngメタデータ編集コード公開しました

Koboldcpp用pngメタデータ編集コード公開しました

PerplexityのProSearchなどの日本語変換の確定でクエリが送信される問題を解決するユーザースクリプトの公開（ページ機能での同じ不具合にも対応しました）

PerplexityのProSearchなどの日本語変換の確定でクエリが送信される問題を解決するユーザースクリプトの公開（ページ機能での同じ不具合にも対応しました）

Claudeに定型文挿入ボタンを追加するユーザースクリプトを公開しました

Claudeに定型文挿入ボタンを追加するユーザースクリプトを公開しました

Perplexityの検索ボックスに定型文を入力できるコードを公開しました

Perplexityの検索ボックスに定型文を入力できるコードを公開しました

Claude3の3モデルと、GeminiPro1.5で、10万字超えの要約性能（粗筋作成）を比較してみた。追加テストしました

Claude3の3モデルと、GeminiPro1.5で、10万字超えの要約性能（粗筋作成）を比較してみた。追加テストしました

PerplexityのClaude3-Opusのトークン制限疑惑を検証してみた。訂正とお詫び有り

PerplexityのClaude3-Opusのトークン制限疑惑を検証してみた。訂正とお詫び有り

Perplexityのコレクション機能を使用したClaude3を使った半自動小説作成bot（プロンプトを公開しました）

Perplexityのコレクション機能を使用したClaude3を使った半自動小説作成bot（プロンプトを公開しました）

Claude3本家とPerplexityとPoeのサービス比較

Claude3本家とPerplexityとPoeのサービス比較

Claude3Opusに、10万字超えのなろう小説を書かせた話

Claude3Opusに、10万字超えのなろう小説を書かせた話