KingJoe

最近、話題になってるので、開設してみた。 メモ代わりになるのかな?

KingJoe

最近、話題になってるので、開設してみた。 メモ代わりになるのかな?

最近の記事

  • 固定された記事

KingJoeBot(AI チャットボット)

私の趣味として始めたこのプロジェクトは、GPT-4を使ったLINEチャットボットの開発です。当初はただの興味本位からスタートしたものの、徐々にGPT-4を含むAIの実験プラットフォームとして愛用するようになりました。 経緯GPT-4の発見 OpenAIによるGPT-4の発表後、そのAPIを利用して何か面白いことができないかと考え始めました。 LINEを利用した理由 GPT-4の機能を探るため、簡単に使えて普及しているLINEプラットフォームを選びました。一からGUIを

    • 今後のGPT-4oの音声機能に備えて通話可能なDiscordへ移植!

      GPT-4oの特徴としては、音声認識機能だと思うのでリアルタイムに通話できるようなプラットフォームにしないと新機能が楽しめないのでは? ということで、息子から教えてもらったDiscordのボットに移植してみた。 LINE版 KingjoeBotと比較すると、AIはGPTのみだし、画像生成はDALL-E3のみ。 プラットフォーム選び これまでGoogle Cloud Functionsを使ってLINE BOTを作ってきましたが、Discordはサーバとして稼働するようなので

      • LINEのチャットボットからTelegramのチャットボットに移植を試してみた。

        LINEのチャットボットとして育ててきたKINGJOEBOTだけれど、あまりLINE固有になりすぎるのは個人的に気に入らないので、Telegramにも移植してみた。メッセージのやり取りの部分は、プラットフォーム依存が高いけれど、GPTなどのAI呼び出し部分はクラス化してあるので、ほぼ弄ることなく移植できた。 まだTelegramを使い慣れていないけれど、画面はLINEより読み取りやすい。応答文字数が増えてきたのでGPT問い合わせはこちらでやろうかな。

        • GPT-4oが優秀なので回答がLINEのメッセージサイズ上限を超える

          先日、OpenAIが発表したGPT-4oを早速、自身のLINEボットに取り込みました。が、反応がない。。。ログを確認したら、なんとLINE Message APIのサイズ上限である5000文字を超えていることが判明。 まー、これまでそれなりに丁寧な回答をしてくれていたGPT-4-Turboでしたが、これまで以上に丁寧な回答になってました。 せっかく回答してくれているのに落とすのも勿体ないので、上限を超える場合はmarkdown記法で回答するように指示をだして、HTMLに変換し

        • 固定された記事

        KingJoeBot(AI チャットボット)

        • 今後のGPT-4oの音声機能に備えて通話可能なDiscordへ移植!

        • LINEのチャットボットからTelegramのチャットボットに移植を試してみた。

        • GPT-4oが優秀なので回答がLINEのメッセージサイズ上限を超える

          画像生成AIのプロンプト入力をテキスト生成AIにアシストさせてみた。

          テキストチャットでURLを入力したい。DALL-Eの入力プロンプトを簡単したい。と、ほしい機能を実装していたら面白いことができた。 上記の記事では単純に一からプロンプトを考えるよりは、コンテキストでStable Diffusion 3用のプロンプトを作成する役割を与えることで、平易な言葉でStable Diffusion 3が読み込みやすい英文プロンプトが生成できたので、そのテキストを利用して画像を生成する仕組みにした。 また、KingjoeBotではChat AIをクラ

          画像生成AIのプロンプト入力をテキスト生成AIにアシストさせてみた。

          Stable Diffusion 3.0にもAPIがあったのね。

          GPTと組み合わせることで画像生成のプロンプトを対話形式で作れるようになりました。 まずは、検証用に 「白いノートパソコンの上に可愛い妖精がいる画像を作成して下さい。」 と入力してみた。 そこで、次に 「年齢を20代前半の女性にしてください。」 とメッセージを投入すると。 と、少し年齢が上がった感じになった。 次に 「背景を渋谷のスクランブル交差点にしてください。」 とメッセージすると。 それっぽく修正できた。 ネットには、「呪文」と称して、たくさんのプロンプト集が出

          Stable Diffusion 3.0にもAPIがあったのね。

          PDFを添付してその文章を質問に含める

          昨日、URL先の情報を入力に加える機能を追加しました。が、最近は開いた先でJavaScriptなどを動かしてテキストを表示する方式をとっているサイトも多く、うまく情報が抽出できない場合があります。 その場合、仮想プリンタなどを使えばWebページをPDF化できるので、それを使えるようにすれば少しは改善できるかと思いPDFを添付して使えるように改善した。 スマホ(iPhone)からだと「印刷」から「LINE」にPDFを直接添付できるので、より使い勝手が良くなったと自画自賛!

          PDFを添付してその文章を質問に含める

          GPT APIだけでChatGPT Plusみたいに画像を生成させたい。

          GPT API の「Image generation」で指定できるプロンプトは一つなんですよね。ChatGPT Plusでは、チャット上で画像生成を指示して、生成された画像に対して、追加のメッセージで調整ができる。 一つのプロンプトだと都度、生成指示を入力しなきゃいけないので面倒くさい。 なので、チャット機能+履歴を利用して、DALL-Eのプロンプトエンジニアという"役割"を与えて、指示メッセージからGPTを用いてDALL-Eの画像生成プロンプトを出力させることで、ChatG

          GPT APIだけでChatGPT Plusみたいに画像を生成させたい。

          KingJoeBotのGPT、Gemini、ClaudeにURL参照機能を追加した。

          入力プロンプトにURLを入れるとその文章をもとに回答してくれると思ったらダメだった。参照してくれてると思いきや全く内容の異なる回答を出してきた。URLの文字列パターンから推察される文章なんだろうね。。。 ChatGPT有料版なんかはプラグインを入れるとできるらしいけれど、APIで安く済ませたいので実装してみた。(GPTに聞きながら実装) 強引な質問だったので、回答もなかなか強引ですが目的としていたURL先の情報を入力としている感じなので、一応達成!

          KingJoeBotのGPT、Gemini、ClaudeにURL参照機能を追加した。

          GPT-4-Turbo、Claude 3、Geminiのマルチモーダルで複数画像を入力できるようにしてみた。

          KingJoeBot(LINE Chat Bot)でマルチモーダル機能を実装していて、複数の画像を入れられそうだったので、ついでに複数画像入力に対応させてみた。 サンプル画像は、以下のサイトのものを利用しました。 https://www.gmo-jisedai.com/wp-content/uploads/T_REX_1-1024x768.jpeg https://www.gmo-jisedai.com/wp-content/uploads/T_REX_2-1024x76

          GPT-4-Turbo、Claude 3、Geminiのマルチモーダルで複数画像を入力できるようにしてみた。

          GPT-4-TurboとGemini 1.5 ProとClaude3 Opusのマルチモーダル機能を使ってみた。

          KingJoeBot(LINE Chat Bot)で複数のAIを実験中です。今回、Claude3のAPIを組み込めたので、三大AI(私の勝手な評価)でマルチモーダル機能を試してみた。 読み込ませた画像がこちら。照明が微妙なので肉眼でもちょっと見づらいなと思えるようなソースに対して、 「この写真について、解説を簡潔にお願いします。」 と同じプロンプトを入力してみた。 GPT-4-Turboの回答 Gemini 1.5 Proの回答 Claude 3 Opusの回答 感

          GPT-4-TurboとGemini 1.5 ProとClaude3 Opusのマルチモーダル機能を使ってみた。

          gpt-4-turbo、gemini-1.5-pro-latest、 chat-bison-32k llama3-70b-8192とで記事要約を試してみた。

          要約力比較とある新聞記事の内容をテキストにして、要約するようにプロンプトした際の回答が以下の通り。 50文字程度にまとめてという指示に対して、一番近い値を示しているのはgeminiだった。llama3は一項目目は59文字と少しオーバー気味。(中身まではまだ添削しきれていない。) 記事本文(要約指示のプロンプト)以下のテキストファイルを用意して、KingjoeBotを用いて各AIに要約文を作成させてみた。 ChatGPT(モデル:gpt-4-turbo)の要約文 - 20

          gpt-4-turbo、gemini-1.5-pro-latest、 chat-bison-32k llama3-70b-8192とで記事要約を試してみた。

          LINEチャットボットでマルチモーダルAIを試す

          GPTやGeminiなどのAIチャットをLINEをインターフェースとして使っていますが、LINEだと1回のメッセージに複数のデータを入れられないので、マルチモーダル機能(1回のプロンプトで複数の情報源"テキスト、画像、音声、映像"を組み合わせる機能)を試すにはWebhook側で実装した。 使い方は、下の図の通りで、同時にプロンプトに入力したい画像または音声をアップロードします。チャットボットが保存した旨とプロンプトを求めるメッセージを出すので、続けてメッセージを入力すれば1

          LINEチャットボットでマルチモーダルAIを試す

          Gemini Pro 1.5をPythonから呼び出す

          Gemini 1.5 Pro Now Availableとのこと。 vertexai.preview.generative_modelsを使って、Vertex経由でGeminiを呼び出していたが、Pro 1.5になりAPI開発がしやすくなったので、直接GeminiのAPIを呼び出すことにした。 修正後、マルチモーダルにて動作することを確認した。人の目でも判別しづらい画像も「新宿の」などのヒントを入れることで、ビンゴで回答できました。 上記画像は、LINEのチャットボットに

          有料
          200

          Gemini Pro 1.5をPythonから呼び出す

          英語論文の翻訳

          自作チャットボットを日頃どういう風に使ってるかを残してみた。 画像にある英文を翻訳するときのオペレーション。 まずはocrモードにして、画像を投稿すると、Google Cloud Visionで文字起こしをさせる。。 文字起こしした回答を、AIをDeeplに切り替えて、言語を選択して、翻訳実行。

          英語論文の翻訳