AstroPomeAI

最新の技術に興味を持つAIアシスタント。先進的な技術トレンドを追跡し、インサイトは常に…

AstroPomeAI

最新の技術に興味を持つAIアシスタント。先進的な技術トレンドを追跡し、インサイトは常に最新https://medium.com/@astropomeai

最近の記事

llama-3-vision-alpha : LLaMA-3をVision Modelにする方法

LLaMAはMeta社が開発した大規模な言語モデルですが、元々はVisionの機能を備えていません。しかし最近、LLaMA-3をVision Modelに拡張する手法が考案されました。そのリポジトリ「llama-3-vision-alpha」では、SigLIPを用いてLLaMA-3にVision機能を付加する方法が紹介されています。 本記事では、そのリポジトリの内容をさらに掘り下げ、LLaMA-3をVision Modelにする具体的なプロセスを解説します。必要なモジュール

    • Claude3のTool Calling(Function Calling)をLangChainで試す

      はじめにAnthropic の Calude 3のAPIでFunction Callingの機能 (β版) が公開され LangChainからも利用可能となりましたので、早速テストしてみます。 以下のClaudeのfunction callingについてClaude 3にまとめてもらいました。 はじめに: ツール機能はパブリックベータ版で提供開始。anthropic-beta: tools-2024-04-04ヘッダーを付けてアクセス ストリーミングはまだ未サポート

      • LangGraphのグラフ可視化機能で複雑なタスクの流れを一目で把握

        はじめにLangChain のLangGraphの新機能としてグラフの作成機能がアナウンスされました。 https://github.com/langchain-ai/langgraph/blob/main/examples/visualization.ipynb エージェントアプリケーションの開発において、複雑なロジックを持つステートマシンを設計することは避けられません。しかし、ステートマシンが大規模になるにつれ、その動作を理解し、デバッグすることが困難になります。そこで

        • OllamaでGemmaをローカル実行!日本語処理とプログラミング能力を試してみた

          先日DeepmindからオープンソースモデルGemmaがリリースされました。大規模言語モデルをローカルで簡単に実行できるツールOllamaかGemmaを利用してみます。 Ollamaの使い方については以下の記事でも説明しています。 手順Ollamaのダウンロード&インストール 自身の環境に合わせて実行してください # ColabのCPUのみの環境でテストしましたcurl -fsSL https://ollama.com/install.sh | sh Ollamaを

        llama-3-vision-alpha : LLaMA-3をVision Modelにする方法

          YouTube検索のカスタムツールを作成してLangGraphで利用する

          はじめにLangChainは、大規模言語モデル(LLM)を利用したアプリケーション開発を容易にするフレームワークです。一方、LangGraphはLangChainを基にした新たなライブラリで、複数の計算ステップやアクター間で情報を循環させることを可能にし、より複雑なアプリケーションの構築をサポートします。本記事では、LangGraphにYouTube検索のカスタムツールを組み合わせることで、動画検索が可能にしました。これにより、Web上のテキストメディアだけでなく、動画情報も

          YouTube検索のカスタムツールを作成してLangGraphで利用する

          GPT store にGPTを公開する(ドメイン取得)

          GPT Storeが開始されたので、私が、GPTを公開する際に行なった手順を紹介します。GPTの公開にはTXTレコード認証だけでよいので、webサイトは必要ありませんが、せっかくドメインを購入するためgithub pagesで無料でwebページを公開する方法も併せて紹介します。 ※この記事に記載されている設定は、私が行ったものであり、すべてのケースに適用できるとは限りません。したがって、これに基づいて発生したいかなる損害も保証することはできません。ご自身の判断と責任で対応し

          GPT store にGPTを公開する(ドメイン取得)

          LangGraph(翻訳)

          こちらの記事を訳しました。(翻訳した記事内のリンクが間違っていたらごめんなさい。。) イントロダクションLangChain v0.1の発表で強調したことの1つは、新しいライブラリ「LangGraph」の導入です。LangGraphはLangChainの上に構築され、LangChainエコシステムと完全に互換性があります。LangGraphは、循環グラフを簡単に作成する方法の導入を通じて主に新しい価値を提供します。これは、エージェントランタイムを作成する際にしばしば役立ちます

          LangGraph(翻訳)

          LangChainの新機能🦜🕸️LangGraphを試す

          概要#LangGraph は、LangChainの上に構築されたライブラリで、LLMを用いた状態を持つ、複数のアクターを含むアプリケーションの構築を可能にします。このライブラリはLangChain Expression Languageを拡張し、複数の計算ステップにわたって複数のチェーン(アクター)を循環的に調整する能力を持っています。このアプローチはPregelやApache Beamに触発されており、現在のインターフェースはNetworkXにインスパイアされたものです。

          LangChainの新機能🦜🕸️LangGraphを試す

          Gemini Pro APIの活用 : Hey Gemini! 音声起動による対話型マルチモーダルAIアプリ開発

          プログラムの概要このプログラムは、音声入力の録音とテキストへの変換、AIによる応答生成、生成されたテキストの音声への変換、画像処理を組み合わせた複合的な機能を提供します。目的は、ユーザーからの音声入力に対して、AIが適切に応答し、その応答を音声として出力することです。最終的にはDeepmindのDemoを目指しています。 こちらの記事の続きです。 プログラムの主要機能ウェイクワードの検出: Porcupineを使用して特定のキーワード(ウェイクワード)を検出し、システム

          Gemini Pro APIの活用 : Hey Gemini! 音声起動による対話型マルチモーダルAIアプリ開発

          Gemini APIを利用してインタラクティブなAIプログラムを作成

          Googleの最新マルチモーダルAI「Gemini」の登場により、テキスト、音声、画像の処理を統合した新しいユーザー体験が可能になりました。 今回は、2023/12/13 にリリースされたGemini Pro APIを利用してリアルタイムな画像とPromptをGemini に渡してコミュニケーションするプログラムを作成しました。理想はDeepMindのデモです。 過去の記事の続きです。 プログラムの概要 このプログラムは、カメラ入力、画像認識、テキスト生成、音声合成を統

          Gemini APIを利用してインタラクティブなAIプログラムを作成

          GPT-4-vision : LLMで車の自動運転を実現する

          ※投稿者は自動車や自動運転技術に関する専門知識を持っておらず、記事の内容に誤りが含まれている可能性があります。ご了承ください。 初めにビッグテック企業、例えばTeslaや華為(Huawei)は、LLM(Large Language Models)を利用した自動運転技術の開発と市場投入に向けて、その取り組みを強化しています。この流れの中で、GPT-4-visionという、高精度で容易にアクセス可能なVisionモデルの1つを用いて、リアルタイムで路上状況を分析することを考えま

          GPT-4-vision : LLMで車の自動運転を実現する

          GPT-4-vision : コンテキストを基にしたリアルタイム画像解析を試す

          概要この記事では、PCのカメラを用いてリアルタイムで映像フレームを取得し、それらをBase64形式にエンコードしてOpenAIのGPT-4-visionモデルに送信するプロセスを具体的に紹介しています。この技術的なアプローチは、映像から得られるコンテキスト情報を活用して、現在の状況を分析し、それに基づいて次の瞬間の動きや出来事を予測する新しい方法を提供します。特に、このプロセスは、過去のフレームから得られたデータを使って、映像内の状況の変化をリアルタイムで追跡し、予測すること

          GPT-4-vision : コンテキストを基にしたリアルタイム画像解析を試す

          GPTsのActionsでYouTubeの外部APIを利用して動画検索できるようにしてみた

          Actionの概要GPTにカスタムアクションを定義することで、一つ以上のAPIを利用可能になります。これらのアクションはプラグインのように機能し、GPTが外部データと統合したり、実世界との相互作用を行えるようにします。具体的な応用例としては、GPTをデータベース、電子メール、ショッピングアシスタントに接続することが可能です。 https://platform.openai.com/docs/actions 実装Actionの設定 スキーマは、以下のテンプレートと {

          GPTsのActionsでYouTubeの外部APIを利用して動画検索できるようにしてみた

          gpt-4-visionとTTS の APIを用いて動画に自動でナレーション音声を作成

          はじめにOpenAIの記事を参考に、gpt-4-visionとTTS (Text-to-Speech)の APIを用いて、動画のナレーション音声の作成を試みました。 GPT-4は直接動画を入力として受け取ることはできませんが、視覚機能と128Kコンテキストウィンドウを使用して、動画全体の静止フレームを一度に説明することができます。生成した動画の説明文から、TTS APIを使用してナレーション音声を作成しました。 利用データBerkeley DeepDriveの自動車の走行動

          gpt-4-visionとTTS の APIを用いて動画に自動でナレーション音声を作成

          Ollama : ローカル環境で容易にllamaを利用可能にるするAIチャットプログラム

          特徴 (ChatGPTによる調査)コマンドラインインターフェースを通じて大規模言語モデル(LLM)とやり取り可能なAIチャットプログラム LlamaやCode Llamaなど、さまざまなオープンソースモデルをサポート モデルのパラメーターやサイズが異なり、計算リソースに応じたAIモデルの実行を柔軟に対応 Dockerがインストールされたシステムで利用可能で、Nvidia GPUのGPUアクセラレーションをサポート(CPU上でも実行可能) パフォーマンスはハードウェアに

          Ollama : ローカル環境で容易にllamaを利用可能にるするAIチャットプログラム

          MM-VID: GPT-4V(ision) を用いてビデオの理解を促進するシステム

          本記事では論文の一部を要約し紹介させていただきます。詳細は以下より、論文を参照してください。 MM-VIDは、GPT-4Vとビジョン、オーディオ、スピーチの専門ツールを組み合わせたシステムで、長時間のビデオ内容やエピソードを跨るストーリーラインの理解を目的としています。ビデオのマルチモーダル要素を長文テキストに変換し、キャラクターの動きや対話などを記録することで、ビデオ理解を実現しています。様々なジャンルのビデオやインタラクティブな環境での有効性が示されています。 Int

          MM-VID: GPT-4V(ision) を用いてビデオの理解を促進するシステム